Apfel oder Popcorn? - Eine enaktive Einführung in KI, maschinelles Lernen und Entscheidungsbäume mit Datenkarten: Unterschied zwischen den Versionen

Aus Unterrichtsmaterial
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
(Gesamtübersicht eingefügt)
Zeile 1: Zeile 1:
Auf dieser Seite werden nach und nach die Inhalte der Unterrichtsreihe „Entscheidungsbäume mit Datenkarten“ eingefügt.
Auf dieser Seite werden nach und nach die Inhalte der Unterrichtsreihe „Entscheidungsbäume mit Datenkarten“ eingefügt.


Apfel oder Popcorn? Eine enaktive Einführung in Entscheidungsbäume, maschinelles Lernen und KI mit Datenkarten
<br />
= Überblick =
In dieser Unterrichtsreihe geht es darum Schülerinnen und Schülern (SuS) eine Vorstellung von maschinellem Lernen und Künstlicher Intelligenz zu vermitteln. Dies wird anhand von datenbasierten Entscheidungsbäumen erarbeitet. Die Umsetzung in dieser Reihe basiert hauptsächlich auf unplugged Materialien, die das Lernen auf enaktiver Ebene ermöglichen. Dies wird ergänzt durch eine digitale Lernumgebung, die zum Ende der Reihe flexibel einsetzbar ist. Der ausgewählte Kontext „Lebensmittel“ ist für alle SuS relevant und insbesondere auch für jüngere SuS geeignet.  
Lebensmittel kann man anhand von Nährwertangaben als “eher empfehlenswert” oder “eher nicht empfehlenswert” klassifizieren. Dabei müssen mehrere Merkmale wie Fettgehalt, Zuckergehalt und Kalorien berücksichtigt werden. Ein mehrstufiges Regelsystem, mit dem solche Klassifikationen durchgeführt werden können, sind sogenannte Entscheidungsbäume. Solche Entscheidungsbäume kann man basierend auf Daten erstellen. Mit Daten ist hier gemeint: Man geht von einer Menge von Lebensmitteln aus, zu dem Nährwertangaben bekannt sind, und zu denen man weiß, ob sie eher empfehlenswert oder nicht empfehlenswert sind. Darauf aufbauend kann man “manuell” schrittweise Entscheidungsbäume erstellen, die die Lebensmittel zunehmend fehlerfreier klassifizieren.  Dieser Erstellungsprozess kann auch automatisiert werden, um nach bestimmten Kriterien optimale Entscheidungsregeln zu finden. Die Automatisierung erfordert, jedes Lebensmittel als “Datenkarte” - das ist eine Liste von Zahlenwerten zu den verschiedenen Nährwertmerkmalen - digital zu repräsentieren. Ein maschinelles Lernverfahren entwickelt zu diesen Daten einen passenden (daten-basierten) Entscheidungsbaum. In der Praxis sind neben Entscheidungsbäumen auch andere Typen von Klassifikatoren - z.B. neuronale Netze - im Gebrauch, mit darauf angepassten maschinellen Lernverfahren.
Entscheidungsbäume haben den Vorteil, dass sie als Regelsystem von SuS verstanden werden können, ebenso können die Erstellungsverfahren eines Baumes zunächst manuell erarbeitet und dann am Computer automatisiert werden. Im Unterricht werden Lebensmittel zunächst als reale Datenkarten modellhaft repräsentiert und die SuS können Karten sortieren und klassifizieren, um sich auf einer enaktiven Ebene Verfahren anzueignen. Der Anspruch ist, einen Einblick “in den Maschinenraum” des maschinellen Lernens zu gewinnen und nicht nur vorgegebene Systeme, die eine völlige Black-Box bleiben, als Klassifikatoren mit Daten zu trainieren.
In dieser Unterrichtsreihe wird in ca. 9 Unterrichtsstunden in die sogenannten datenbasierten Entscheidungsbäume (engl. decision trees), eingeführt. Dabei steht im Vordergrund, wie ein Entscheidungsbaum aufgebaut ist und wie die passenden Entscheidungsregeln datenbasiert hergeleitet werden. Dieser systematische, datenbasierte Erstellungsprozess kann dann als eine Methode des maschinellen Lernens automatisiert erfolgen und ein resultierender Entscheidungsbaum kann als eine Form künstlicher Intelligenz bezeichnet werden. Dazu erstellen SuS manuell mit Hilfe von Datenkarten Entscheidungsbäume, um zu verstehen, erstens wie ein Entscheidungsbaum als Regelsystem aufgebaut ist, und zweitens wie man systematisch bei der Konstruktion vorgehen kann, um Entscheidungsbäume mit möglichst geringer Fehlklassifikationsanzahl zu erhalten. Ergänzend gibt es eine vorbereitete digitale Lernumgebung, in der SuS Entscheidungsbäume automatisiert erstellen können. Dabei lernen sie etwas über Künstliche Intelligenz und maschinelles Lernen, welche Rolle Daten dabei spielen und welche Fehler passieren können.
Auf fachlicher Basis der deutschen Gesellschaft für Ernährung (DGE) wird das Thema Ernährung aufgegriffen, welches in der Sekundarstufe I behandelt werden sollte, aber aktuell in den Lehrplänen der verschiedenen Fächer unterrepräsentiert ist. Auf diese Weise wird das Thema maschinelles Lernen mit einem bildungsrelevanten Sachthema verknüpft.
= Lernvoraussetzungen =
·      Nährwerte und Nährwertangaben (kann zu Beginn der Reihe thematisiert werden, Vorschlag s.u.)
= Ziele =
Bezogen auf Entscheidungsbäume:              
Die SuS...
·      begreifen einen Entscheidungsbaum als Regelsystem, das zum Klassifizieren von Objekten genutzt werden kann.
·      erstellen Entscheidungsregeln zum Klassifizieren von Objekten hinsichtlich eines Zielmerkmals systematisch basierend auf anderen Merkmalen der Objekte, deren Ausprägungen als Daten erfasst sind.
·      wenden einen Entscheidungsbaum auf ein neues, zu klassifizierendes Objekt an.
·      präsentieren und reflektieren eigene Entscheidungsbäume angemessen.
·      verstehen die Rolle von Daten als Grundlage für die Erstellung von Entscheidungsbäumen.
·      verstehen, dass Entscheidungsbäume Prognosen liefern sollen (Klassifikationen neuer Objekte) und deshalb mit neuen Daten getestet werden müssen und dass dabei Fehler (in Form falscher Prognosen) auftreten können.
·      nutzen als Qualitätskriterium zum Bewerten von Entscheidungsbäumen die Anzahl falsch klassifizierter Objekte.
·      beschreiben, wie ein Computer Entscheidungsbäume automatisiert erstellen kann und identifizieren diesen Vorgang als maschinelles Lernen.
Bezogen auf den Inhalt Lebensmittel:
SuS...
·      lernen die Bedeutung einzelner Nährwertangaben (Merkmale) bei Lebensmitteln und ihre Relevanz für die Qualitätsbewertung von Lebensmitteln kennen.
·      leiten aus den gegebenen Nährwertdaten ein Regelsystem ab, das Prognosen trifft darüber, ob ein (neues) Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist.
= Eignung von Ernährung als Thema =
·      Anbindung an die Erfahrungswelt aller SuS (unabhängig von Alter, Geschlecht, etc.)
·      Viele Anknüpfungsmöglichkeiten (z. B. Biologieunterricht)
·      Beitrag zu allgemeinbildendem Unterricht
= Leitfragen =
·      Wie kann man anhand der Nährwertangaben einen Entscheidungsbaum konstruieren, der die Beurteilung unterstützt, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist?
·      Wie kann man einen Entscheidungsbaum für dieses Problem automatisiert (durch maschinelles Lernen) erstellen lassen?
= Zum Umgang mit dem Material =
Das Thema KI und Entscheidungsbäume wird in diesem Unterrichtsvorschlag anhand des Themas Lebensmittel erarbeitet, das die Schülerinnen und Schüler aus ihrer Lebenswelt kennen. Dabei wird ein Kartenspiel mit entsprechenden Datenkarten genutzt, um Entscheidungsbäume zunächst unplugged, enaktiv und altersgerecht zu behandeln.
Abbildung 1: Beispiel Lebensmittelkarten
Mit einem Spielkartensatz zu Lebensmitteln wird anhand der „Big 7“ der Nährwerte (Energie, Fett, gesättigte Fettsäuren, Eiweiß, Kohlenhydrate, Zucker, Salz) ein Regelsystem mit der Methode der datenbasierten Entscheidungsbäume erarbeitet.
Man bezeichnet dabei das Merkmal, für das eine Klassifikation erstellt werden soll, als Zielmerkmale und die übrigen Merkmale (hier Nährwertangaben), mit deren Hilfe Regeln aufgestellt werden, als Prädiktormerkmale.
Mithilfe von Spielkarten wie in Abb. 1 über Lebensmittel mit den zugehörigen Nährwertangaben (pro 100 g) erarbeiten Schülerinnen und Schüler von Hand nach und nach erst einstufige, später zwei- oder mehrstufige Entscheidungsbäume. Diese Entscheidungsbäume werden mit Testkarten validiert. Das dabei aufgebaute Wissen wird genutzt, um zu verstehen, wie Entscheidungsbäume als Regelsysteme basierend auf Daten (systematisch) erstellt und anschließend genutzt werden können. Das dabei angewandte Vorgehen kann in Grundzügen auf das maschinelle Lernen (wie es ein Computer macht) übertragen werden. In der letzten Unterrichtsstunde wird ein Entscheidungsbaum automatisch durch den Computer mit Hilfe eines Jupyter Notebooks generiert und in der Klasse diskutiert (optional durch die SuS selbst oder in einer Präsentation durch die Lehrkraft).
=== Material ===
·      55 Karten, davon
o  40 Trainingskarten (blau),
o  15 Testkarten (gelb)
·      50 grüne und 50 rote Büroklammern zum Labeln
·      Arbeitsblätter
·       PowerPoint Präsentationen als Grundlage für Besprechungsphasen im Unterricht
Die blauen Trainingskarten werden verwendet, um die Entscheidungsbäume unplugged zu erarbeiten. In einem ersten Schritt werden die Karten mit Unterstützung durch die Ernährungspyramide der Deutschen Gesellschaft für Ernährung (DGE) gelabelt. Eher empfehlenswerte Lebensmittelkarten bekommen eine grüne Büroklammer angeheftet, eher nicht empfehlenswerte Lebensmittel bekommen eine rote Büroklammer.
Schülerinnen und Schüler vergeben zunächst die Label für die Lebensmittel als “eher empfehlenswert” oder “eher nicht empfehlenswert” in Partnerarbeit. Anschließend wird dies im Plenum diskutiert und ein einheitlicher Konsens getroffen, sodass nach der Diskussion alle Schülerinnen und Schüler einen Kartensatz mit identischen Labeln vorliegen haben. Beim Labeln können zudem 10 Karten ausgewählt werden, bei denen Uneinigkeit für das Klassifizieren herrscht. Es ist günstig etwa 10 Karten auszusortieren, da das Arbeiten später mit maximal 30 Karten angenehmer ist. Diese Karten bleiben ohne Büroklammer und können später mithilfe der fertigen Bäume klassifiziert werden. Durch das Labeln entstehen Modelle der Realität, die möglicherweise von der Realität abweichen.
= Differenzierung/Einsatz in Klasse 5 oder 6 =
Wir empfehlen den Einsatz der Unterrichtsreihe in Klasse 6.
Eine vereinfachte, realitätsnahe und funktionierende Variante des Kartendatensatzes stellt die Variante „Lebensmittel light“ dar. Dieser vereinfachte Datensatz enthält:
·      22 Trainingskarten (blau) mit ganzzahligen Werten
·      10 Testkarten (gelb)
·      50 grüne und 50 rote Büroklammern
·      Arbeitsblätter (wie oben)
·      Präsentationen (wie oben)
= Unterrichtsverlauf =
Auf den folgenden Seiten wird ein möglicher Unterrichtsverlauf beschrieben. Eine U-Stunde ist dabei mit 45 Minuten geplant. Aus Sicht der Autorinnen und Autoren dieser Reihe (und in vielen Erprobungen) hat es sich als sinnvoll herausgestellt, die Reihe im Ganzen durchzuführen. Sollte jedoch Zeitknappheit herrschen, ist es möglich, die als optional gekennzeichneten (graue Schrift) Stunden verkürzt zu unterrichten.


Kurzübersicht zur Unterrichtsreihe
Kurzübersicht zur Unterrichtsreihe
Phase Thema
{| class="wikitable"
Inhalt
|Phase
1
|Thema
1 U.-Std. Was ist eine KI? In dieser Phase wird als Einstieg ein fertiges KI-System exploriert. Dabei werden Vorkenntnisse aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen gewonnen.
<br />
2
|Inhalt
1 U.-Std. Exkurs: Lebensmittel In dieser Stunde erfolgt ein Einstieg in den Datenbegriff und das Thema Lebensmittel. Dazu begreifen wir Nährwertangaben als Ausprägungen von Merkmalen zu Lebensmitteln.  
|-
3
|'''1'''
1 U.-Std. Daten vorbereiten: Labeln des Datensatzes Die zu entwickelnde künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür Beispiele für eher empfehlenswerte oder eher nicht empfehlenswerte Lebensmittel benötigt. In dieser Stunde werden solche Beispiele in Form von Daten mit Hilfe der Datenkarten hergestellt.  
 
1 U.-Std.
|'''Was ist eine KI?'''
|In dieser Phase wird als Einstieg ein fertiges KI-System exploriert. Dabei werden Vorkenntnisse aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen gewonnen.
|-
|'''2'''
 
1 U.-Std.
|'''Exkurs: Lebensmittel'''
|In dieser Stunde erfolgt ein Einstieg in den Datenbegriff und das Thema Lebensmittel. Dazu begreifen wir Nährwertangaben als Ausprägungen von Merkmalen zu Lebensmitteln.
|-
|'''3'''
 
1 U.-Std.
|'''Daten vorbereiten: Labeln des Datensatzes'''
|Die zu entwickelnde künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür Beispiele für eher empfehlenswerte oder eher nicht empfehlenswerte Lebensmittel benötigt. In dieser Stunde werden solche Beispiele in Form von Daten mit Hilfe der Datenkarten hergestellt.  
|-
|'''4'''
 
1 U.-Std.
|'''Einführung: Aufstellen einer Entschei-dungsregel''' 
|Ziel innerhalb der Unterrichtsreihe ist es, ein  mehrstufiges Regelsystem zur Klassifikation von Lebensmitteln zu erstellen.  Dafür lernen die SuS in dieser Stunde zunächst Entscheidungsregeln  (einstufige Entscheidunsgbäume) aus den Daten abzuleiten. Dies wird mit dem  Konzept des Datensplits umgesetzt, das in dieser Stunde eingeführt wird.  Dabei werden die Datenkarten anhand eines Merkmals und eines sogenannten  Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel mit bis zu  10 g Fett und über 10 g Fett). Die Entscheidungsregeln werden in dieser  Stunde exemplarisch mit Hilfe des Merkmals Energie erstellt.
|-
|'''5'''
 
2 U.-Std.
|'''Einstufige Entscheidungs-bäume selbst erstellen'''
|Die SuS wissen nun, wie man eine Entscheidungsregel  aufstellen kann. Bisher wurden aber nur ein Merkmal und drei Schwellenwerte  ausprobiert. Um den resultierenden Entscheidungsbaum zu verbessern und noch  mehr Lebensmittelkarten richtig zu klassifizieren, wird in dieser Stunde  erarbeitet, wie man systematisch nach guten Entscheidungsregeln suchen kann.  Dabei werden verschiedene Merkmale einbezogen und ein strategisches Vorgehen  beim Suchen des Schwellenwertes erarbeitet.
|-
|'''6'''
 
1 U.-Std.
|'''Mehrstufige Entscheidungs-bäume erstellen'''
|Nachdem die SuS systematisch nach guten  Entscheidungsregeln gesucht haben, ist zu erkennen, dass man mit einer  Entscheidungsregel nicht alle Lebensmittel korrekt klassifizieren kann. Es  wird offensichtlich, dass man ein mehrstufiges Regelsystem benötigt. Deshalb  werden in dieser Stunde basierend auf der ersten Regel weitere Merkmale  einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu  erstellen. Je nachdem wie schnell die SuS arbeiten, können sie zwei- oder  mehrstufige Entscheidungsbäume erstellen.
 
                         
|-
|'''7'''
 
1 U.-Std.
|'''Entscheidungs-bäume mit neuen Daten testen'''
|Nachdem verschiedene Gruppen von SuS  unterschiedliche Entscheidungsbäume erstellt haben, werden diese Bäume auf  neue Lebensmittel angewendet, die die SuS auf Blankokarten selbst mitgebracht  haben. Die selbst mitgebrachten Lebensmittel werden mit allen Bäumen  klassifiziert. Dadurch wird offensichtlich, dass in den Entscheidungsbäumen  auch Unsicherheiten stecken, da einige Lebensmittel falsch klassifiziert  werden.
|-
|'''8'''
 
1 U.-Std.
|'''Automatisiert Entscheidungs-bäume mit dem  Computer erstellen'''
|Um die Unsicherheiten in Entscheidungsbäumen  systematisch weiter zu untersuchen, testet in dieser Stunde jede Gruppe ihren  Entscheidungsbaum mit den 15 Testkarten, die im Katenspiel als gelbe Karten  gekennzeichnet sind. So wird es möglich, die Performance der  Entscheidungsbäume miteinander zu vergleichen.
|-
|'''9'''
 
1 U.-Std.
|'''Reflexion'''
|Wie wird mit Hilfe eines Computers ein Entscheidungsbaum erstellt?  Anknüpfend an die letzten Stunden können Schülerinnen und Schüler in dieser  Stunde einen Entscheidungsbaum zu den Lebensmitteldaten mit Hilfe eines  Computers automatisiert erstellen lassen. Sie können dabei auch die Daten  verändern und die Auswirkungen auf den Entscheidungsbaum beobachten.  Abschließend wird noch einmal reflektiert, wie mit Hilfe des Computers aus  Daten Entscheidungsbäume erstellt werden, welche Vor- und Nachteile dies hat  und wo die SuS solche Entscheidungsmodelle in ihrem Alltag wiederfinden.
|}
Möglicher Unterrichtsverlauf:
{| class="wikitable"
|'''Phase'''
|'''Inhalt'''
|'''Ziele'''
|'''Sozialform & Material'''
|-
|'''1. Was ist eine KI?'''
 
(1 U-Std.)
<br />
|Motivation:
 
In dieser Phase wird  als Einstieg ein fertiges KI-System exploriert. Dabei werden Vorkenntnisse  aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen  gewonnen.
 
 
Aktivität: Auprobieren  eines fertigen KI-Systems
 
Google Quick Draw (<nowiki>https://quickdraw.withgoogle.com/</nowiki>).
 
Die Webseite ist nach  Aufrufen des Links selbsterklärend. Alle Schülerinnen und Schüler probieren  Google Quick Draw aus – jede:r malt 10 Objekte, die automatisch von der  Software vorgegeben werden. Die KI erkennt diese Objekte, wenn sie passend  gezeichnet werden. Anschließend wird automatisch eine Übersicht angezeigt,  was erkannt bzw. nicht erkannt wurde. Außerdem werden einige Beispiele  gezeigt, die andere Personen zum gleichen Objekt gemalt haben, um die  Datenbasis zu veranschaulichen, auf deren Grundlage die gemalten objekte  erkannt wurden.
 
Hieran kann diskutiert  werden, dass der Computer eine passende Datenbasis benötigt, um bestimmte  Objekte einer “Klasse” zu erkennen. Dazu benötigt man für jede Klasse digital  repräsentierte Beispiele mit dem passenden Label. Google Quick Draw ist schon  anhand sehr vieler Beispiele ‘vorgelernt’, daher sieht man hier  Klassifikationen mit nur wenigen Fehlern. Eine untrainierte KI würde am  Anfang viele Fehler machen.
 
 
Mögliche  Diskussiongrundlage:
 
Mit Hilfe von  KI-Systemen können u. A. Bilder klassifiziert werden, zum Beispiel, ob ein  Hund oder eine Katze zu sehen ist. Maschinelles Lernen ermöglicht das  Erstellen solcher KI-Systeme auf der Basis von Trainingsdaten mit Hunde und  Katzenbildern.
 
''Mögliche  Metapher: Man kann gewisse Parallelen zwischen maschinellem Lernen und dem  Lernprozess kleiner Kinder erkennen. Kinder lernen dadurch, dass wir ihnen  Objekte zeigen, die Namen dazu sagen und alles so lange wiederholen, bis sie  Hunde von Katzen unterscheiden können. Z. B. wird bei der Begegnung von  Hunden „Hund“ und bei Katzen „Katze“ von Erwachsenen oft genug gesagt, so  dass das Kind irgendwann lernt, was eine Katze ist und was ein Hund. Durch  Vorsagen und Korrektur.''
 
''Das  Vorgeben von Beispielen und der passenden Lösung wird auch beim maschinellen  Lernen genutzt. Die Beispiele werden als Daten gespeichert (z. B. Fotos von  Hunden bzw. Katzen) und mit einem passenden Label versehen, das die richtige  Lösung enthält.'' 
 
Hintergrundinformationen
 
Bei dieser Form  maschinellen Lernens (überwachtes Lernen) zur Klassifikation von Objekten  wird wie folgt vorgegangen. Es werden verschiedene Beispielobjekte erfasst  und mit Labeln gekennzeichnet.  Ein  Label ist ein Etikett, das anzeigt welcher Klasse dieses Beispiel angehört.  Z. B. erhalten Fotos von Katzen das Label „Katze“ und die von Hunden das Label  „Hund“, je nachdem was auf dem Bild erkannt werden soll. Jedes Foto hat  außerdem verschiedene, digital repräsentierte Eigenschaften, die durch  Merkmale beschrieben werden und verschieden ausgeprägt sein können.  (Anmerkung: Die Eigenschaften, die ein Mensch einem Foto zuweist,  unterscheiden sich von den digitalen Merkmalen. Ein Foto besitzt Merkmale,  wie z.B. Farbwerte einzelner Pixel, die in einem mL-Prozess zum Erstellen  eines Regelsystems genutzt werden. Vereinfachend sprechen wir mit Schülerinnen  und Schülern nur von “dem“ Foto). Durch maschinelles Lernen wird anhand der  Merkmale der Objekte ein Regelsystem erstellt, das die Objekte den passenden,  vorgegebenen Labeln zuordnet. Ein solch fertiges Regelsystem bezeichnet man  als KI oder KI-System. Einen automatisierten Erstellungsprozess der KI nennt  man dann maschinelles Lernen. Passendes Video:
 
<nowiki>https://www.youtube.com/watch?v=HmUzceKCI9I&list=PL4puIg9yEU6yn_XR0TiSLroYO3KAlZmYY&t=1s</nowiki>
 
 
Reflexion Mit  Schülern:
 
'''Damit durch  maschinelles Lernen eine KI zur Klassifikation erstellt werden kann, müssen  zunächst Beispiele geliefert werden.''' Ein Beispiel ist jeweils ein Objekt,  das durch bestimmte Merkmale beschrieben wird und mit einem Label versehen  ist, das die Zugehörigkeit zu einer “Klasse” kennzeichnet.
 
 
Aber wie genau funktioniert  dieses maschinelle Lernen? Dies wird in den folgenden Stunden an der Methode  Entscheidungsbäume thematisiert. “Es ist cool, was mit dem Computer gemacht  werden kann, allerdings mysteriös, wie es funktioniert. Dem gehen wir in den  folgenden Stunden nach.”
 
 
Die Google Quickdraw KI  hat auch Fehler gemacht und Zeichnungen teilweise nicht richtig erkannt. Die  Funktionen von einer KI sind begrenzt und hängen von den Trainingsdaten ab.  D. h. '''eine KI macht auch Fehler in Form falscher Klassifikationen'''.
 
 
 
Begriffe: '''KI''', '''Machinelles  Lernen, Objekt,''' '''Klasse''', '''Label, Merkmal'''
|
 
 
 
 
 
 
Aktivierung von  Vorkenntnissen über KI aus dem Alltag
 
 
KI-Systeme können Dinge  einer Klasse zuordnen (klassifizieren)
 
 
Für maschinelles Lernen  benötigt man Beispiele mit dem passenden Label einer Klasse (Trainingsdaten)
 
 
 
 
|
 
 
 
 
 
 
<nowiki>https://quickdraw.withgoogle.com/</nowiki>
 
 
Präsentation1_Quickdraw
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
|-
|'''2. Exkurs:  Lebens-mittel'''
 
(1 U-Std.)
 
(optional)
|Motivation:
 
Es existiert ein  Ampelsystem für Ernährung, zum Beispiel im Supermarkt (diese basieren i. d.  R. nicht auf maschinellem Lernen) – Ein Ziel innerhalb der Unterrichtsreihe  ist es ein ähnliches Regelsystem mit Methoden des maschinellen Lernens zu  erstellen.
 
In dieser Stunde erfolgt dafür ein Einstieg in den Datenbegriff und das Thema  Lebensmittel. Dazu begreifen wir Nährwertangaben als Ausprägung von Merkmalen  von Lebensmitteln. Die Ausprägungen der Merkmale sind für einzelne  Lebensmittel als Zahlen erfasst worden. Grundlage dafür, ob ein Lebensmittel  “empfehlenswert” ist, kann zum Beispiel die Ernährungspyramide der DGE sein.
 
 
Aktivität:
 
-          Verschiedene Lebensmittel(-verpackungen) präsentieren  (Knäckebrot, Chips,  Gummibärchen, Salami, etc.) „Welche Daten findet ihr hier?“ - Dann: „Welche  Rolle können Daten für unsere Ernährung spielen?“
 
-          Optionaler Input: Nährstoffgruppen: Man braucht verschiedene  Nährstoffgruppen, am besten täglich, Bezug zur Ernährungspyramide. Hier vor  allem Kohlenhydrate, Eiweiß, Fett, Ballaststoffe, Salz, Zucker, Was ist worin  enthalten, wovon sollte man eher viel oder eher weniger essen?
 
-          Warum  stehen diese Daten auf allen Lebensmittelverpackungen?
 
Material 3D  Ernährungspyramide:
 
<nowiki>https://www.dge.de/fileadmin/public/doc/fs/3dlmp/200714-DGE-Arbeitsblaetter-03-formular.pdf</nowiki>
 
 
Begriffe: '''Objekt''',  '''Merkmal, Merkmalsausprägung,  Daten,  Klassifikation'''
|
 
 
 
 
 
 
 
 
Nährwertangaben verstehen
 
 
Èinführung in Begrifflichkeiten  rund um Daten
<br />
|
 
 
 
 
 
 
 
Verpackte Lebensmittel mit  Nährwertangaben
 
 
Arbeitsblatt 1 (z.B. als  Hausaufgabe)
 
 
„3D-Ernaehrungspyramide.pfd  (zum Basteln für die SuS)
 
 
|-
|'''3. Labeln des  Datensatzes'''
 
(1 U-Std.)
|Motivation
 
Die zu entwickelnde  künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen,  ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist.  Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür  Beispiele für eher empfehlenswerte oder eher nicht empfehlenswerte  Lebensmittel benötigt. In dieser Stunde werden solche Beispiele in Form von  Daten mit Hilfe der Datenkarten hergestellt.
 
 
Aktivität
 
Die SuS modellieren den  Datensatz mit dem später gearbeitet wird, um basierend darauf  Entscheiodungsbäume zu erstellen. Dafür vergeben sie zunächst in  Partnerarbeit die Label „eher empfehlenswert“ oder „eher nicht  empfehlenswert“ für alle blauen Karten (blaue Karten = Trainingsdaten), um  anschließend im Klassenverband die Label zu diskutieren und sich zu einigen. (jeweils  2 SuS haben ein Arbeitsblatt 2 zur Verfügung):
 
„Überlegt für jedes  Lebensmittel, ob ihr das Label “eher empfehlenswert” oder “eher nicht  empfehlenswert” vergeben wollt. Dabei könnt ihr euch an der Lebensmittelpyramide  und an eurem Alltagswissen über Lebensmittel orientieren.“
 
 
Besprechung der  Aktivität
 
Allgemeinen Konsens  herstellen, welche Nahrungsmittel welches Label erhalten werden. Zwei  Möglichkeiten:
 
·        Abstimmung im Plenum, Diskussion bei Uneinigkeit,  gemeinsames anheften der Label an die Karten
 
·        Abstimmung in Onlineumfrage, Diskussion im  Plenum bei Uneinigkeit, gemeinsames Anheften der Label an die Karten
 
Die Lehrkraft kann die  Diskussionen im Plenum moderieren und ggf. bei groben Fehleinschätzungen  (z.B. Gurke als “eher nicht empfehlenswert”) eingreifen.  Eine Orientierung liefert die Datei  Rumpfdatensatz_28.csv, in der die besonders eindeutig zuzuordnenden  Lebensmittel zu finden sind. Einzelne Abweichungen von diesem Vorschlag sind  aber nicht weiter schlimm, d.h. die Diskussion muss nicht strikt geleitet  werden. In vielen Unterrichtserprobungen hat sich gezeigt, dass per  Mehrheitsvotum der Großteil der Lebensmittel wie im Vorschlag zugeordnet  wird. Alternativ zur Plenumsdiskussion kann eine Onlineabstimmung  durchgeführt werden. Dies ist auch als Hausaufgabe umzusetzen und kann den  Unterricht zeitlich entlasten, da dann nur noch über kritische Lebensmittel  diskutiert werden muss.
 
 
Möglicher Ablaufplan  für das gemeinsame vergeben der Label im Plenum
 
Als Ziel: Ein Datensatz  mit identischen Labeln für alle SuS mit etwa 30 blauen Karten (etwa 10 Karten  können offenbleiben, wenn keine Einigung gefunden wird. Zur Weiterarbeit  empfehlen sich ca. 30 Karten mit Label.) Die Karten aus Rumpfdatensatz_28.csv  sollten größtenteils enthalten sein, um in der Weiterarbeit gute Ergebnisse  zu erzielen. Das sind aber auch erfahrungsgemäß diejenigen Karten, die die  SuS sehr eindeutig einem Label zuordnen können.
 
1.       SuS  bilden Zweier- oder Dreiergruppen
 
2.       Jede  Schüler:innengruppe bekommt ein Kartenspiel (die Karten auf jeden Fall in der  Reihenfolge lassen, wie sie in der Schachtel sind, damit alle SuS die Karten  in der gleichen Reihenfolge vorliegen haben)
 
3.       Gemeinsam  wird besprochen und festgelegt, welches Label die erste blaue Karte  (Haselnussschnitte) bekommen soll. Zunächst wird einfach abgestimmt. Wenn  keine klare Mehrheit zustande kommt, wird diskutiert.
 
4.       Falls  auch nach der Diskussion keine Einigkeit erzielt wird, kann die Karte  beiseitegelegt werden. Andernfalls stecken alle Schüler eine passend farbige  Büroklammer an die Karte (Haselnussschnitte).
 
5.       3.  und 4. werden für die weiteren Karten wiederholt – die Lehrkraft hat dabei  den Rumpfdatensatz im Blick und versucht die Diskussion so zu leiten, dass nicht  zu viele grobe Fehleinschätzungen passieren und dass nur etwa 10 Karten  beiseitegelegt werden.
 
6.       Jede  Schülergruppe und die Lehkraft haben einen nach Klassenkonsens mit Labeln  versehenen Datensatz.
 
(Arbeitsblatt 2 kann im  späteren Unterrichtsverlauf als Erinnerung dienen, welche Karte in welcher  Farbe gelabelt wurde, falls zwischen den Unterrichtsstunden Label abgefallen  sind.)
 
 
Hintergrundinformation: 
 
'''Damit ein  Entscheidungsbaum wie durch einen Computer erstellt werden kann, müssen wir  ihm Beispiele liefern.''' Ein Beispiel ist jeweils ein Objekt (Lebensmittel),  das durch bestimmte Merkmale (Nährstoffe) beschrieben wird und mit einem  Label („eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist. Eine  Sammlung und Darstellung solcher Beispiele bezeichnen wir als Daten für das  zu erstellende KI-System. Wir demonstrieren mit diesen Daten, was unsere  künstliche Intelligenz als eher empfehlenswert oder als eher nicht  empfehlenswert erkennen soll.
 
Begriffe: '''Daten, Beispiel, Objekt, Merkmal'''
|
 
 
 
 
 
 
 
 
 
 
 
Maschinellen  Lernprozess vorbereiten durch Herstellen eines geeigneten  Trainingsdatensatzes
 
 
Labeln von  Lebensmittelkarten = Modellierung der Realität
 
 
|Plenum
 
Diskussion
 
 
 
 
 
 
 
 
Partnerarbeit
 
Arbeitsblatt 2 (unbedingt in  Farbe ausdrucken!)
 
 
Plenum
 
Rumpfdatensatz_28.csv
 
 
 
 
 
 
 
<br />
|-
|'''4. Einführung:  Aufstellen einer Entscheidungsregel'''
 
(1 U-Std.)
|Motivation:
 
Ziel innerhalb der  Unterrichtsreihe ist es, ein mehrstufiges Regelsystem zur Klassifikation von  Lebensmitteln zu erstellen. Dafür lernen die SuS in dieser Stunde zunächst  Entscheidungsregeln (einstufige Entscheidunsgbäume) aus den Daten abzuleiten.  Dies wird mit dem Konzept des Datensplits umgesetzt, das in dieser Stunde  eingeführt wird. Dabei werden die Datenkarten anhand eines Merkmals und eines  sogenannten Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel  mit bis zu 10 g Fett und über 10 g Fett). In beiden Teilgruppen wird dann  geschaut, ob die Mehrheit eher Empfehlenswert oder eher nicht empfehlenswert  ist. Wenn in den Teilgruppen unterschiedliche Label zu finden sind (was in  den allermeisten Fällen so ist), gibt es in beiden Teilgruppen Lebensmittel,  die von der Mehrheitsentscheidung abweichen. Diese werden als Fehler oder  Fehlklassifikationen bezeichnet. Es gilt deshalb den Schwellenwert zu finden,  der möglichst wenige Fehler hervorbringt.  Die Entscheidungsregeln werden in dieser Stunde exemplarisch mit Hilfe  des Merkmals Energie erstellt.
 
 
'''Formulierung der  Zielstellung für die SuS (Erstellen einer Entscheidungsregel):''' Um eine  gute Regel zu finden, ist es sinnvoll, dass auf einer Seite des  Schwellenwerts möglichst nur eher nicht empfehlenswerte Lebensmittel zu  finden sind und auf der anderen Seite nur eher empfehlenswerte. Dann hätte  man eine Regel, um eher empfehlenswerte und eher nicht empfehlenswerte  Lebensmittel zu unterscheiden. Eine solch perfekte Regel findet man meistens  nicht, aber vielleicht kommt man möglichst nah dran, sodass möglichst wenige  Lebensmittel falsch klassifiziert werden. Im weiteren Verlauf des Unterrichts  werden weitere Stufen des Baums erstellt, um komplexere Regelsysteme zu  erhalten, die mehr Lebensmittel richtig klassifizieren.
 
 
Aktivität:
 
Lebendige Statistik  durchführen, um Schwellenwert zu thematisieren
 
1.       Jede/r  SuS geht nach vorne und holt sich eine gelabelte Karte ab und repräsentiert  nun das Lebensmittel auf der Karte
 
2.       Die  Lehrkraft erläutert zunächst, dass nun eine Entscheidungsregel gesucht wird  und formuliert die Zielstellung (s.o.). Nun gibt sie ein Merkmal und einen  Schwellenwert vor (z.B. Energie, 350 kcal) und dann wird der Datensplit in  der Klasse am Merkmal '''Energie''' durchgeführt. Das bedeutet: Alle, die  eine Karte mit einem Energiewert ≤ 350 haben, gehen nach links, alle mit  einem Energiewert >350 gehen nach rechts. Daraus entstehen zwei  Teildatensätze.
 
3.       Nun  wird per Handzeichen erhoben, wie die Anzahlen von ‚eher empfehlenswert‘ und  ‚eher nicht empfehlenswert‘ in den Teildatensätzen sind und an der Tafel  festhalten
 
4.       Den  Baum an der Tafel mitzeichnen als Strukturierungshilfe für SuS
 
5.       Diskussion:  In welcher Teilgruppe befinden sich eher empfehlenswerte Lebensmittel?  (Mehrheitsentscheidung (Durchzählen) – Ziel: eher empfehlenswerte  Lebensmittel haben eher weniger Energie)
 
6.       Vorgeben  eines weiteren Schwellenwertes und Wiederholen der Prozedur (z.B. Minimum der  eher nicht empfehlenswerten Lebensmittel)
 
7.       Vergleich  der beiden Datensplits (Welcher ist näher an unserer Zielstellung möglichst  wenige Fehler beim Klassifizieren zu erzeugen?)
 
8.       Diskussion:  Geben eines weiteren Schwellenwerts und Wiederholen der Prozedur
 
9.       Vergleich  der drei Datensplits (Welcher ist besonders nah an unserer Zielstellung?)
 
Tafelbild zum Festhalten  des Schwellenwerts und der jeweiligen Häufigkeitsverteilung. Besprechung:  Welcher ist der beste Schwellenwert für das Merkmal Energie? Dokumentation an  der Tafel wie AB3
 
 
Hinweis zur  Durchführung der lebendigen Statistik
 
Man kann aufgrund der  begrenzten Anzahl an SuS meist nicht alle Karten für die lebendige Statistik  verwenden. Man sollte dabei darauf achten, dass keine ungünstigen Stichproben  der Karten genutzt werden. Manche Stichproben vereinfachen das Problem zu stark,  sodass man zu schnell perfekte Regeln findet. Wir schlagen dafür einen  Rumpfdatensatz vor, mit dem die Phase gut durchgeführt werden kann.  Vorschläge für Rumpfdatensätze verschiedener Größe finden sich in den Dateien  „Rumpfdatensatz_22.csv“ und „Rumpfdatensatz_28.csv“. Leichte Abweichungen von  den Rumpfdatensätzen sind kein Problem.
 
 
Hintergrundinformationen
 
Es sollen  Entscheidungsregeln anhand der Merkmale der Lebensmittel definiert werden. Die  Merkmale (Nährstoffe) haben in unserem Beispiel jeweils eine numerische  Ausprägung, die die jeweiligen Nährwertangabe als Menge pro 100 g angibt. Um  eine Entscheidungsregel aufzustellen, suchen wir zu einem Merkmal einen  Schwellenwert.
 
Ein Schwellenwert ist  ein Wert, mit dessen Hilfe die Daten bezogen auf ein Merkmal in zwei  Teilgruppen aufgeteilt werden. Das nennt man auch Datensplit (kurz: Split).  Eine Gruppe enthält die Lebensmittel deren Ausprägung des Merkmals kleiner  oder gleich dem Schwellenwert ist und die andere Gruppe diejenigen deren  Ausprägung größer als der Schwellenwert ist. Dabei ist die Zielstellung,  einen Wert zu finden, der die Daten in möglichst homogene Teilgruppen  aufteilt, also beispielsweise, dass unterhalb und bis zum Schwellenwert  möglichst viele Objekte einsortiert sind, die als ‘eher empfehlenswert’  klassifiziert sind und alle Objekte, deren Ausprägung größer als der  Schwellenwert sind, als ‘eher nicht empfehlenswert’ klassifiziert sind. Auf  beiden Seiten wird eine Mehrheitsentscheidung getroffen, um einen  Entscheidungswert festzulegen. So hat man dann eine Entscheidungsregel  basierend auf einem Merkmal und einem Schwellenwert. Z.B.: Lebensmittel mit  bis zu einschließlich 5 g Fett sind eher empfehlenswert und Lebensmittel mit  über 5 g Fett sind eher nicht empfehlenswert. Die Güte dieser Entscheidungsregel  kann daran bemessen werden, für wie viele Objekte im Datensatz diese  Zuordnung falsch ist. (Anzahl der Fehlklassifikationen)
 
 
Reflexion:
 
·       Für  ein Merkmal haben wir ausprobiert/herausgefunden, wie wir durch Ausprobieren  und Vergleichen zu einer „guten” Regel kommen.
 
·       Der  Computer kann alle Schwellenwerte ausprobieren und die “beste” Regel  für das gewählte Merkmal so ganz schnell finden.
 
·       Außerdem  probiert der Computer alle Merkmale und alle denkbaren Schwellenwerte durch,  um so eine noch bessere Regel zu finden.
 
·       Eine  Entscheidungsregel ist schon ein kleiner Entscheidungsbaum mit nur einer  Ebene (Aber: Der Baum ist noch nicht sehr gut, da er noch einige Fehler  macht)
 
·       Reicht  noch nicht: Mit mehr als einer Regel wird es besser.
 
 
Hausaufgabe
 
AB3_GrößerKleinerZeichen
 
Mathematische Wiederholung <, >, ≤, ≥ Zeichen!!
 
Übungen mit der  Baumdarstellung
 
(z.B. <nowiki>https://anton.app/de/lernen/mathematik-5-klasse/thema-01-natuerliche-und-ganze-zahlen/uebungen-04-zahlen-ordnen-vergleichen/</nowiki>)
 
 
Begriffe: '''Schwellenwert''', '''Datensplit'''
|
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Datenbasiert Entscheidungsregeln  aufstellen
 
 
Einführung des Datensplit  als Grundkonzept von Entscheidungsbäumen
 
 
Einführung des Schwellenwerts  als Möglichkeit Daten-splits herzustellen
 
 
 
<br />
|Datenkarten
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Präsentation2 Einführung  Datensplit
 
 
 
 
 
 
 
 
 
Lebendige Statistik
 
 
Rumpfdatensatz.csv
 
(in einer Variante für 22 oder  28 SuS)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Dokumentation an der Tafel und  als Strukturierungshilfe den Schülerinnen und Schülern zur Verfügung stellen
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Plenum
 
 
 
 
 
 
 
 
 
 
 
Arbeitsblatt 3
 
 
 
 
 
 
|-
|'''5. Einstufige  Entscheidungsbäume erstellen'''
 
(1-2 U-Std.)
|Motivation:
 
Die SuS wissen nun, wie  man eine Entscheidungsregel aufstellen kann. Bisher wurden aber nur ein  Merkmal und drei Schwellenwerte ausprobiert. Um den resultierenden Entscheidungsbaum  zu verbessern und noch mehr Lebensmittelkarten richtig zu klassifizieren,  wird in dieser Stunde erarbeitet, wie man systematisch nach guten  Entscheidungsregeln suchen kann. Dabei werden verschiedene Merkmale  einbezogen und ein strategisches Vorgehen beim Suchen des Schwellenwertes  erarbeitet.
 
 
Einführung der  Linealmethode
 
Die  Lineal-/Bleistiftmethode (s. u.) kann in zunächst im Plenum erläutert und  dann anhand von Arbeitblatt 4 in Einzelarbeit eingeübt werden, um die Methode  danach in Kleingruppen mit den Datenkarten anzuwenden.
 
 
'''Die Linealmethode/Bleistiftmethode:'''
 
·       Die  Gruppen sortieren die gelabelten blauen Karten aufsteigend nach ihrem Merkmal  auf dem Tisch (ggf. 2 Tische aneinanderschieben)
 
·       Ein  Lineal oder Bleistift wird als symbolischer Schwellenwert in die Verteilungen  gelegt (zwischen zwei Karten) und dann wird ausgezählt, wie viele Karten  richtig klassifiziert sind. Es wird auf beiden Seiten der Mehrheitswert  (hier: links grün & rechts rot) gebildet und abweichende Karten gelten  als falsch klassifiziert (hier: Nudeln auf der rechten Seite)
 
(Beispiel Linealmethode)
 
'''Schwellenwert per  Augenmaß:'''
 
·       Man  kann einen ersten Schwellenwert per Augenmaß auswählen, um von da ausgehend  verschiedene zu vergleichen. Die Karten müssen dafür auf jeden Fall nach  einem Merkmal sortiert sein
 
·       Es  können verschieden Strategien genutzt werden:
 
o    Es kann der Wert gewählt werden, der von links  betrachtet zwischen den ersten beiden verschieden gelabelten Karten liegt (im  Bild oben zwischen Brotscheibe und Pommes).
 
o    Alternativ kann dies auch vom rechten Ende her  gemacht werden.
 
o    Alternativ kann ein Wert gewählt werden, bei  dem links und rechts vom Schwellenwert möglichst homogene Teildatensätze (rot  oder grün) entstehen. Dies erfordert schon ein gewisses Augemaß, dass aber  mit der Zeit aufgebaut werden kann.
 
·        Von dem gewählten Schwellenwert ausgehend  kann man dann den Schwellenwert etwas nach links oder rechts verschieben und  prüfen, ob sich die Anzahl der falsch klassifizierten Karten dadurch  verringert. Diese Strategie kann sukzessive nach links und rechts angewendet  werden.
 
·       So  wird der beste Schwellenwert aus einer Menge betrachteter Schwellenwerte  ermittelt. Alle Schwellenwerte zu testen (wie es ein Computer machen würde)  ist bei einer großen Anzahl von Karten zu mühsam, aber es sollten mit  Augenmaß und etwas ausprobieren versucht werden den besten Schwellenwert zu  finden gemessen an der Anzahl der Fehlklassifikationen.
 
 
Besprechung von  Arbeitsblatt 4:
 
Neben den Ergebnissen  der SuS sollte auf folgende Aspekte Wert gelegt werden:
 
·       Was  ist ein Kriterium für einen „besten“ Schwellenwert? (Vergleichsweise wenig  falsch klassifizierte Karten)
 
·       Welcher  ist der beste Schwellenwert für das jeweilige Merkmal?
 
 
Aktivität:
 
Jede Zweiergruppe  arbeitet mit ihrem Kartensatz und bekommt ein Merkmal zugeteilt, für das eine  Entscheidungsregel gesucht wird. Alle Gruppen können mit unterschiedlichen  Merkmalen arbeiten. Dabei sollen mehrere Schwellenwerte in Betracht gezogen  werden und es soll begründet der beste Schwellenwert unter den in Betracht  gezogenen ausgewählt werden.  Um die  global beste Entscheidungsregel zu finden, müssten sehr viele verschiedene  Schwellwerte ausprobiert werden, was sehr mühsam und daher für die SuS wenig  praktikabel ist (ein Computer geht allerdings so vor). Deshalb “genügt” es,  wenn die SuS einige Schwellenwerte ausprobieren.
 
 
Es wird eine Strategie  eingeführt, die das Suchen von Entscheidungsregeln erleichtert. Die  “Linealmethode” basiert auf dem Sortieren der Karten nach einem Merkmal,  einer Wahl eines ersten Schwellenwerts per Augenmaß mit einer Visualisierung  durch z. B. ein Lineal und ein anschließendes Vergleichen mit weiteren  Schwellenwerten.
 
 
„Findet für euer  Merkmal einen Schwellenwert, bei dem möglichst viele Karten richtig  klassifiziert werden, indem ihr verschiedene Schwellenwerte ausprobiert und  denjenigen wählt, bei dem am wenigstens Fehlklassifikationen auftreten.!“
 
 
Hintergrundinformationen:
 
Das Sortieren der  Karten im Hinblick auf ein ausgewähltes Merkmal ist ein zentrales Element zum  Finden eines guten Schwellenwerts, weil auf diese Weise schnell ein guter  Überblick über die Verteilung gewonnen werden kann. Man erkennt schnell, wie  viele Lebensmittel über und unter dem Schwellenwert als empfehlenswert bzw.  nicht empfehlenswert gekennzeichnet sind. Nur so ist es möglich, per Augenmaß  einen günstigen Schwellenwert zu finden. Andernfalls bleibt nur das  Ausprobieren von zufälligen Werten. Dies ist nur für das manuelle Suchen von  Schwellenwerten wichtig und sollte deshalb als Strategie im Unterricht  zentral thematisiert werden. Ein Computer probiert einfach alle in Frage  kommenden Schwellenwerte aus, da er nicht über Augenmaß verfügt. Dazu ist es  wichtig, von Anfang an die Anzahl der falsch klassifizierten Karten zu  notieren. Bei dieser Anzahl der falsch klassifizierten Karten handelt es sich  um das Kriterium, mit dem verschiedene Schwellenwerte im Hinblick auf ihre  Güte miteinander verglichen werden können.
|
 
 
 
 
 
 
 
 
 
Heuristik zum finden  von Entscheidungsregeln verstehen (Linealmethode + Schwellenwert per  Augenmaß)
 
 
 
Anzahl der falsch  klassifizierten Karten als Gütekriterium für eine Entscheidungsregel nutzen
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Datenkarten nach einem  Merkmal aufsteigend sortieren
 
 
Finden eines „besten“  Schwellenwerts
 
 
Anwenden der  „Linealmethode/Bleistiftmethode“
<br />
|
 
 
 
 
 
 
 
 
 
Plenum
 
 
 
 
Einzelarbeit
 
Arbeitsblatt 4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Plenum
 
 
 
 
 
 
Partnerarbeit
 
Arbeitsblatt 5
 
 
Spielplan 1 (optional)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
|-
|'''6. Mehrstufige  Entscheidungsbäume erstellen'''
 
 
1 U-Std.
|Motivation:
 
Nachdem die SuS  systematisch nach guten Entscheidungsregeln gesucht haben, ist zu erkennen,  dass man mit einer Entscheidungsregel allein nicht alle Lebensmittel korrekt  klassifizieren kann. Es wird offensichtlich, dass man ein mehrstufiges  Regelsystem benötigt. Deshalb werden in dieser Stunde basierend auf der  ersten Regel weitere Merkmale einbezogen, um Entscheidungsregeln in der  zweiten Stufe des Baums zu erstellen. Je nachdem wie schnell die SuS  arbeiten, können sie zwei- oder mehrstufige Entscheidungsbäume erstellen.
 
 
Hintergrundinformationen:
 
Beim Erstellen eines  mehrstufigen Entscheidungsbaums geht es darum, dass weitere Regeln erstellt  werden, die hierarchisch auf die erste Regel folgen, um die Anzahl der  falschen Klassifikation sukzessive zu verringern. Die weiteren Regeln werden  basierend auf den Teildatensätzen erstellt, die durch die erste  Entscheidungsregel entstanden sind. So wird in jedem Ast des Baums mit einem  anderen Teildatensatz weitergearbeitet, um weitere Entscheidungsregeln  aufzustellen. Im Unterricht muss explizit darauf geachtet werden, dass  jeweils nur mit den Karten einer Teilgruppe weitergearbeitet wird, wenn ein  weiterer Split erstellt wird. Ein typischer SuS-Fehler ist es, mit allen  Karten in einem Ast weiterzuarbeiten, obwohl nur mit einer Teilgruppe  gearbeitet werden darf.
 
 
Anleitung
 
Es ist wichtig den SuS zu  verdeutlichen, dass nur mit einem Teildatensatz weitergearbeitet werden darf  in der nächsten Stufe des naums. Das kann entweder im Plenum besprochen  werden oder optional durch eine weitere Aktivität in der lebendigen Statistik  veranschaulicht werden. Zur Besprechung im Plenum kann die beigelegte  Lehrpräsentation „Präsentation3_Zweiter_Datensplit“ genutzt werden. Dort kann  man auch die Dokumentation eines mehrstufigen Baums gemäß Arbeitsblatt 6  vorbesprechen.
 
 
Optionale  Aktivität:
 
In zweiter Stufe das  Merkmal Eiweiß (oder Zucker) ausprobieren.
 
Vorgehen:
 
·        Jeder Schüler nimmt wieder eine Datenkarte
 
·        Noch einmal bezüglich Energie und dem  gewählten Schwellenwert in zwei Schülergruppen (Teildatensätze) aufteilen
 
·        „In der Gruppe mit der höheren Kalorienanzahl  befinden sich jetzt noch sowohl eher empfehlenswerte als auch eher nicht  empfehlenswerte Lebensmittel. Diese wollen wir jetzt noch besser  klassifizieren, indem wir einen weiteren Split durchführen.“ Dazu: Jetzt in  der Gruppe (Teildatensatz) mit der Kalorienanzahl über dem Schwellenwert  einen weiteren Datensplit durchführen (z.B. eignet sich das Merkmal Eiweiß  mit Schwellenwert 11 g)
 
·        Explizit darauf hinweisen, dass nur mit einem  Teildatensatz gearbeitet wurde für den zweiten Datensplit
 
·        Fazit: Jetzt sind wir näher dran am  ‚perfekten‘ Baum
 
 
Auswertung der  lebendigen Statistik (des fertigen Baums):
 
An der Tafel  dokumentieren: Ergebnis: Tafelbild mit Baumdiagramm wie auf AB5 ('''Achtung''',  dieser fertige Baum wird später noch benötigt, also dauerhaft konservieren,  z.B. auf Plakat).
 
 
Partnerphase:
 
Wieder in  Partnerarbeit: Basierend auf den Entscheidungsregeln, die in Phase 5  erarbeitet wurden, folgt nun die zweite Stufe des Entscheidungsbaums für jede  Gruppe. Jede Gruppe wählt hierzu frei ein weiteres Merkmal und probiert dies  aus auf Spielplan Teil 2.
 
1.       Beide  Teildatensätze aus dem Ersten Datensplit passend auf dem Spielplan Teil 1  ablegen
 
2.       Jetzt  die erste Teilgruppe nehmen (z.B. linken Teilkartenstapel, NICHT alle Karten)  und nach einem weiteren Merkmal die Karten aufsteigend auf dem Tisch ordnen (Merkmal  frei ausprobieren). Die nicht genutzten Karten können so lange auf dem  Spielplan verwahrt werden.
 
3.       Einen  Schwellenwert mit der „Linealmethode” finden und die Karten auf dem Spielplan  Teil 2 ablegen
 
4.       Jetzt  die zweite Teilgruppe nehmen (NICHT alle Karten) und ggf. ein anderes oder  das gleiche Merkmal wie in 2. nehmen
 
5.       Einen  Schwellenwert mit der Linealmethode für die zweite Teilgruppe finden (kann  der gleiche oder ein anderer Wert sein wie in 3.) und auf dem Spielplan Teil  2 auslegen
 
6.       Den  fertigen Baum auf AB 5 dokumentieren
 
 
Zur Differenzierung für  schnelle Gruppen:
 
·       Weitere  Merkmale im zweiten Split ausprobieren
 
·       Dritte  Stufe möglich machen (Hierfür kann Spielplan Teil 2 genutzt werden, indem  „einzelne Datensplits” durch Zerschneiden von Spielplan Teil 2 ausgelegt  werden)
 
·       Optional:  Entscheidungsregeln formulieren (AB 6)
 
 
Diskussion der  erstellten Bäume
 
Jede Gruppe stellt  ihren Baum vor:
 
1.       Welche  Merkmale wurden benutzt? Und welche Schwellenwerte?
 
2.       Wörtlich  die Entscheidungsregeln formulieren
 
3.       Wie  viele Lebensmittel wurden damit richtig klassifiziert?
 
 
Anschließend:
 
4.        Welcher Baum hat die meisten Lebensmittel richtig  klassifiziert?
 
 
Punkt 4 wird noch  einmal mit den sogenannten Testdaten in der nächsten Stunde überprüft,  möglicherweise ändert sich die Bewertung der Bäume dann.
 
 
Für die nächste  Aktivität werden die Entscheidungsbäume in der Klasse aufgehängt (bzw. durch  Lehrkraft eingesammelt). Diese werden in der nächsten Stunde nochmal  benötigt.
 
 
Reflexion:
 
·       Nun  haben wir weitere Entscheidungsregel(n) gefunden, diese sind mehrstufig.
 
·       Für  ein Merkmal haben wir ausprobiert/herausgefunden, wie wir eine  Entscheidungsregel begründet auswählen.
 
·       Wenn  ein Entscheidungsbaum automatisiert durch den Computer erstellt wird, so  werden alle Schwellenwerte ausprobiert und die beste Regel ganz schnell  gefunden und alle Merkmale ausprobiert.
 
 
Hausaufgabe:
 
Jeder füllt eine  Blankokarte (Arbeitsblatt 8 vorher passend zurechtschneiden) für ein  Lebensmittel zu Hause aus. Diese soll in der nächsten Stunde mit den  erstellten Bäumen klassifiziert werden.
 
 
Optional kann  Arbeitsblatt 7 noch als weitere Übung für das Ausformulieren der  Entscheidungsregeln genutzt werden.
|
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Einführung in den  zweiten Datensplit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Mehrstufige  Entscheidungsregeln als Baumstruktur erkennen
 
 
Entscheidungsregeln  passend zum Baum verbal ausformulieren
 
 
Auszählen, wie viele  Karten ein Baum richtig klassifiziert
 
 
|
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Plenum
 
Präsentation3_Zweiter_Datensplit
 
 
 
 
 
 
Zweiter Teil lebendige  Statistik
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Spielplan Teil 2
 
 
Arbeitsblatt 6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Plenum
 
 
 
 
 
 
 
 
 
AB 6 einsammeln oder aufhängen
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Arbeitsblatt 7 (opt.)
 
Arbeitsblatt 8
|-
|'''7.  Entscheidungsbäume anhand einer Lebensmittelkarte testen'''
 
(1/2 U-Std.)
|Motivation:
 
Nachdem verschiedene  Gruppen von SuS unterschiedliche Entscheidungsbäume erstellt haben, werden  diese Bäume auf neue Lebensmittel angewendet, die die SuS auf Blankokarten  selbst mitgebracht haben. Die selbst mitgebrachten Lebensmittel werden mit  allen Bäumen klassifiziert. Dadurch wird offensichtlich, dass in den  Entscheidungsbäumen auch Unsicherheiten stecken, da einige Lebensmittel  falsch klassifiziert werden.
 
 
Aktivität:
 
Die Bäume (als  ausgefüllte AB 6 aus der verherigen Stunde) liegen als Stationen in der  Klasse, zusammen mit neuen roten und grünen Büroklammern. Jeder Schüler/jede  Schülerin geht mit seiner ausgefüllten Blankokarte (AB 8) von Station zu  Station. An jeder Station durchläuft er mit der Karte den jeweiligen Baum und  heftet am Ende eine farbige Büroklammer an die Karte (je nachdem, ob der Baum  das Lebensmittel als eher empfehlenswert oder eher nicht empfehlenswert  klassifiziert)
 
 
Mit einem  Beispiellebensmittel kann vorher demonstriert werden, wie das Durchlaufen  eines Baumes funktioniert! Optional kann dies mit der Lehrpräsentation  „Präsentation4_Baum_Anwenden“  vernanschaulicht werden.
 
 
Reflexion:
 
Hierbei geht es um das  Thema Unsicherheit, das bei Entscheidungsbäumen (und beim Arbeiten mit Daten)  immer eine wichtige Rolle spielt.
 
Hier geschieht die  Auswertung, ob das Lebensmittel eher empfehlenswert oder eher nicht  empfehlenswert ist anhand des Auszählens der farbigen Büroklammern.
 
Diskussion: Was  bedeutet es, dass an manchen Lebensmitteln unterschiedliche Klammern hängen?
 
1.       Die  Entscheidung eines Entscheidungsbaums ist mit Unsicherheit behaftet.
 
2.       Unterschiedliche  Bäume können unterschiedliche Entscheidungen liefern, wir können aber  überprüfen, welcher Baum zuverlässig ist (welcher Baum die meisten Objekte  richtig klassifiziert), indem wir Testdaten nutzen – das kommt in der  nächsten Phase.
 
3.       Entscheidungen  eines Entscheidungsbaums müssen mit gesundem Menschenverstand beurteilt  werden.
 
Entscheidungen basieren  auf unserem Trainingsdatensatz, der nur eine kleine Auswahl an Lebensmitteln  beinhaltet und subjektiv klassifiziert wurde.
|
 
 
 
 
 
 
 
 
 
 
Entscheidungsbäume auf  ein neues Lebensmittel anwenden
 
 
 
„Unsicherheit“ im  Regelsystem erkennen
<br />
|
 
 
 
 
Stationenarbeit mit den  erstellten Entscheidungsbäumen aus der vorherigen Stunde
 
 
 
 
Präsentation4_Baum_Anwenden
 
 
 
 
Plenum
|-
|'''7.  Entscheidungsbäume anhand von mehreren Testkarten überprüfen'''
 
(1/2 U-Std.)
|Motivation:
 
Um die Unsicherheiten  in Entscheidungsbäumen systematisch weiter zu untersuchen, testet in dieser  Stunde jede Gruppe ihren Entscheidungsbaum mit den 15 Testkarten, die im  Katenspiel als gelbe Karten gekennzeichnet sind. So wird es möglich, die  Performance der Entscheidungsbäume miteinander zu vergleichen.
 
 
Aktivität:
 
Einführung Testkarten  im Plenum
 
1.       Testkarten  labeln mit Hilfe von AB9.
 
2.       Jetzt  mit Testdaten den Baum der eigenen Gruppe (Ergebnis aus der vorherigen Stunde  auf AB6) prüfen.
 
3.       Jede  Testkarte nehmen und entsprechend des vorgegebenen Baums ausprobieren.  Dokumentieren, wie viele Karten der Baum “richtig” und “falsch” klassifiziert.
 
4.       Auf  AB 6 folgenden Satz ergänzen: „Mit diesem Baum wurden von den Testdaten ___  Lebensmittel richtig klassifiziert und ____ Lebensmittel falsch  klassifiziert.”
 
 
Reflexion:
 
·        Vergleichen, wie gut die Bäume jeweils mit  Testdaten abschneiden.
 
·        Welcher Baum hat die meisten Lebensmittel von  den Testdaten richtig klassifiziert?
 
Computer könnte noch  schneller noch viel mehr Bäume erstellen, vergleichen und den „besten” Baum  auswählen.
|
 
 
 
 
 
Testkarten zum Prüfen  eines Baums nutzen
 
 
Einen Entscheidungs-baum  mit Testdaten bewerten
 
 
 
 
 
 
 
 
Verschiedene Bäume  anhand von Tesdaten gegenüberstellen und bewerten
<br />
|
 
 
 
 
 
Partnerarbeit
 
Testkarten
 
Arbeitsblatt 9
 
Arbeitsblatt 6
 
 
 
 
 
 
 
 
Plenum
|-
|'''8. Wie erstellt ein  Computer einen Entscheidungsbaum (optional)'''
 
(1-2 U-Std.)
|Motivation:
 
Wie wird mit Hilfe  eines Computers ein Entscheidungsbaum erstellt? Anknüpfend an die letzten  Stunden können Schülerinnen und Schüler in dieser Stunde einen  Entscheidungsbaum zu den Lebensmitteldaten mit Hilfe eines Computers  automatisiert erstellen lassen. Sie können dabei auch die Daten verändern und  die Auswirkungen auf den Entscheidungsbaum beobachten. Abschließend wird noch  einmal reflektiert, wie mit Hilfe des Computers aus Daten Entscheidungsbäume  erstellt werden, welche Vor- und Nachteile dies hat und wo die SuS solche  Entscheidungsmodelle in ihrem Alltag wiederfinden.
 
 
Aktivität:
 
1. Um noch einmal zu  verstehen, wie ein Computer algorithmisch vorgeht, um Schwellenwerte zu  finden, wird zunächst AB 10 ausgefüllt.
 
2. Auf der Website <nowiki>https://go.upb.de/auto-baum</nowiki>  gibt es ein vorbereitetes Jupyter Notebook, das per „Click and play“ benutzt  werden kann.
 
Im Jupyter Notebook  (dieses ist für SuS (fast) selbsterklärend):
 
1.        Alle SuS „labeln“ zunächst den Trainingsdatensatz wie  in Stunde 2 (mit Hilfe von AB 2).
 
2.        Anschließend wird durch den Computer automatisch ein  Entscheidungsbaum erstellt.
 
3.        Verschiedene Bäume (mit unterschiedlicher Anzahl an  Stufen) können hinsichtlich ihrer Fehlklassifikationsanzahl bzgl. der  Trainingsdaten besprochen werden.
 
4.        Der automatisch erstellte Baum kann mit den Testdaten  überprüft werden.
 
5.        Am Ende können Daten für ein neues Lebensmittel  eingegeben werden und durch den Baum klassifiziert werden.
 
 
Anmerkung:
 
Sollte im Jupyter  Notebook versehentlich der Code einer Zelle angezeigt werden, so kann das  “Ausführen” dieser Zelle durch die Tastenkombination Shift+Enter den Code  wieder verbergen und die “schöne” Ansicht wiederhergestellt werden.
 
 
Vertiefungsmöglichkeit:
 
Zum Vertiefen können  die Ausgangsdaten im Jupyter Notebook unterschiedlich gelabelt werden.  Dadurch lässt sich erkennen, welchen Einfluss die Daten bzw. Die Modellierung  der Daten (hier der menschliche Einfluss durch Vergabe der Label) auf die Ergebnisse  hat. Z. B. kann die anfängliche Vergabe der Label so verändert werden, dass  sie willkürlich ist und dann wird auch als Ergebnis ein Entscheidungsbaum  erstellt, der inhaltlich keinen Sinn ergibt. Dies verdeutlicht, dass die  Qualität der Daten(-modellierung) entscheidend für Qualität eines  Regelsystems ist, das durch maschinelles Lernen erstellt wird.
 
 
Reflexion:
 
·        Was hat der Computer im Hintergrund gemacht?  (schnell sortieren, alle Schwellenwerte probieren, alle Merkmale probieren)
 
·        Vergleich der automatisch erstellten KI-Bäume  und der händisch in der Klasse erstellten Bäume – wie gut sind die händisch  erstellten Bäume?
<br />
|
 
 
 
 
 
 
Einen Entscheidungs-baum  maschinell erstellen lassen
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Einfluss von Daten auf  das Ergebnis untersuchen
|
 
 
 
 
 
 
 
 
Einzelarbeit oder  Partnerarbeit
 
Arbeitsblatt 10
 
Computer oder Tablet
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Plenum
|-
|'''9. Reflexion Daten'''
 
(1/2 - 1 U-Std.)
|'''Was hat uns das Erstellen des  Entscheidungsbaums gebracht?'''
 
·       Wir haben nun Erkenntnisse über die  Rolle verschiedener Merkmale von Lebensmitteln erlangt. Zum Beispiel über die  Merkmale Fett und Kalorien. An dieser Stelle kann auf konkrete  Entscheidungsbäume aus der Unterrichtsreihe eingegangen werden.
 
·       Frage: Welche Hinweise geben uns  unsere Bäume? (Bezug zu formulierten Regeln) (z.B. verschiedene Merkmale  müssen einbezogen werden, nicht nur eins allein)
 
 
'''Welche Schwächen kann der Entscheidungsbaum haben?'''
 
·       Ein resultierender Entscheidungsbaum  ist KEIN absolut gültiges Regelsystem für empfehlenswerte Lebensweise, ABER  er kann uns trotzdem gute Hinweise geben.
 
·       Gründe Schwächen:
 
1.        Wir  haben die Daten intuitiv gelabelt (Zuordnung von eher empfehlenswert/eher  nicht empfehlenswert war manchmal zweifelhaft)
 
2.        Vielleicht  haben wir ein wichtiges Merkmal der Lebensmittel gar nicht erhoben. (Zum  Beispiel Ballaststoffe)
 
3.        Eine  empfehlenswerte Ernährung ist in erster Linie vielseitig und nicht eins zu  eins durch einen Entscheidungsbaum abzudecken.
 
 
Welche Schritte haben wir absolviert, um den  Entscheidungsbaum zu erstellen?
 
·        Karten  sortieren
 
·        Schwellenwerte  ausprobieren
 
·        Richtige  und falsche Klassifikationen abhängig von den Schwellenwerten auswerten und  damit Schwellenwerte/Entscheidungsregeln vergleichen
 
 
'''Zentrale Erkenntnis:'''
 
Ein Entscheidungsbaum ist das, was man KI nennt. Durch  einen Entscheidungsbaum wird eine Entscheidung vorgeschlagen. Der  Entscheidungsbaum gibt aus, ob etwas eher empfehlenswert oder nicht ist. Der  Computer ist aber nicht “intelligent”, sondern wurde anhand von Daten auf das  entsprechende Regelsystem trainiert. Das heißt nicht, dass der Computer  „weiß” oder „verstanden” hat, was empfehlenswert ist, sondern nur, dass er  Daten auswertet und basierend darauf Klassifikationen vorgenommen werden  (können).
 
 
Wofür haben wir den Entscheidungsbaum genutzt?
 
·        Um  neue Lebensmittel zu klassifizieren
 
·        Um  zu erklären, was “eher empfehlenswert” und “eher nicht empfehlenswert” bei  Lebensmitteln ist
 
 
Was kann ein Computer besonders gut, wenn er  Entscheidungsbäume erstellt?
 
·       Schnell sortieren, um verschiedenen  Merkmale auszuprobieren
 
·       alle Schwellenwerte ausprobieren und  die Anzahl der Fehlklassifikationen bestimmen, um so die besten Splits zu  finden
 
·       Verschiedene Kombinationen von  Merkmalen und Schwellenwerten ausprobieren und so den besten Baum finden
 
Vertiefung:
 
·       Für  welche Situationen können Entscheidungsbäume hilfreich sein? Gib ein Beispiel  an. (z.B. personalisierte Werbung, Vorschläge auf online Plattformen)
 
·       Welche  Daten werden dafür benötigt?
<br />
|Prozess beim Erstellen  eines Entscheidungs-baums rekapitulieren
 
 
Ergebnisse kritisch  beurteilen
 
 
Modellierung durch  Daten aufgreifen
 
 
 
<br />
|Plenum
|-
|'''Evaluation'''
 
(1/2 U-Std.)
|Bitte als Abschluss der  Unterrichtsreihe den Schülerinnen und Schülern das Arbeitsblatt 11 Evaluation  (Rückmeldung) geben mit dem Hinweis, dass dies eine anonyme Rückmeldung an  die „Erfinder“ der Unterrichtsreihe ist. Die „Erfinder“ sind sehr daran  interessiert zu erfahren, wie die Reihe den Schülerinnen und Schülern  gefallen hat.
 
Das Arbeitsblatt findet  sich auch digitalisiert auf einem Server datenschutzrechtlich unbedenklich  der Universität Paderborn.
 
Die eingescannten  Arbeitsblätter schicken Sie bitte per E-Mail an [[Mailto:podworny@math.upb.de|podworny@math.upb.de]]; alternativ kann  die anonyme Evaluation unter <nowiki>https://go.upb.de/ev-lebensmittel</nowiki>  von den SuS ausgefüllt werden.
 
 
Herzlichen Dank dafür!
|·        Rückmeldung geben
|Arbeitsblatt 11  
 
Oder digital:
 
<nowiki>http://go.upb.de/ev-lebensmittel</nowiki>
<br />
|}
'''Glossar'''
 
'''Ast''' Ein Ast innerhalb eines Entscheidungsbaums ist eine von mehreren Abzweigungen, die von einem Regelknoten zu einem nächsten Knoten führt.
 
'''Ausprägung/Merkmalsausprägung''' Die Werte, die ein Merkmal annehmen kann, nennt man Merkmalsausprägung.
 
'''Beispiel (im Kontext von KI)''' Ein Beispiel ist ein Objekt (z. B. Lebensmittel), das durch bestimmte Merkmale (z. B. Nährstoffe) beschrieben wird und mit einem Label (z. B. „eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist.
 
'''Blattknoten''' Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Die Knoten am Ende eines Entscheidungsbaums nennt man Blattknoten und in ihnen ist immer eine Entscheidung für eine Ausprägung des Zielmerkmals eingetragen.
 
'''Datenkarte''' Eine Datenkarte repräsentiert ein Objekt, indem darauf die Ausprägungen einer Liste von Merkmalen dargestellt sind (z. B. ein Lebensmittel durch Nährwertangaben zu einer Liste von Nährstoffen). Eine Datenkarte kann digital oder analog repräsentiert sein.
 
'''Datensplit''' Ein Datensplit ist die Aufteilung von Daten in Teildatensätze basierend auf den Ausprägungen eines Merkmals, z. B. durch einen Schwellenwert.
 
'''Entscheidungsbaum''' Ein Entscheidungsbaum ist ein (übersichtliches, in gewissen Grenzen nachvollziehbares) Regelsystem, das als Baumdiagramm dargestellt werden kann. Ein solcher Entscheidungsbaum veranschaulicht hierarchisch aufeinanderfolgende Entscheidungsregeln, an deren Ende immer eine Entscheidung für eine bestimmte Fragestellung steht.
 
'''Fehlklassifikation''' Eine Objekt, das durch einen Klassifikator einer falschen Klasse zugeordnet wird nennt man Fehlklassifikation.
 
'''Klasse (im Kontext von KI)''' Eine Klasse ist eine Ausprägung eines kategorialen Zielmerkmals beim überwachten maschinellen Lernen.
 
'''Klassifikation''' Mit einem Entscheidungsbaum kann man Ausprägungen eines (mit einer gewissen Wahrscheinlichkeit) Merkmals vorhersagen. Anders formuliert kann man also ein Objekt einer Klasse zuordnen. Eine solche regelgeleitete Zuordnung zu einer Klasse nennt man Klassifikation.
 
'''Klassifikator''' Ein Klassifikator ist ein Regelsystem (z. B. Entscheidungsbaum), das bestimmte Objekte anahand von Prädiktormerkmalen klassifizieren kann.
 
'''Klassifizieren''' Das Klassifizieren eines Objekts entspricht dem Zuordnen eines Objekts zu einer Klasse (aus einer Menge möglicher Klassen). Klassen können auch als Merkmalsausprägungen eines kategorialen Merkmals verstanden werden.
 
'''Künstliche Intelligenz (KI)''' Künstlicher Intelligenz befasst sich mit der Frage, wie man Computer dazu bringen kann, Dinge zu tun, die Menschen bisher besser beherrschen. Dazu gehören verschiedenste Anwendungen, u. A. die Fähigkeit in verschiedenen Szenarios Vorhersagen zu treffen oder Klassifikationen vorzunehmen die mit einer hohen Rate korrekt sind. Somit zählen leistungsfähige Klassifikatoren (z.B. Entscheidungsbäume) zu den Anwendungen von Künstlicher Intelligenz.
 
'''Label''' Ein Label gibt die Klassenzugehörigkeit eines Objekts an. Das Label kann als Ausprägung eines Merkmals (Zielmerkmal) verstanden werden.
 
'''Maschinelles Lernen''' Maschinelles Lernen bezeichnet Verfahren, in denen eine Lernaufgabe automatisiert durch Lernalgorithmen basierend auf Daten gelöst wird. Maschinelles Lernen unterscheidet verschiedene Arten von Lernaufgaben. Typischerweise wird zwischen drei Arten von Lernaufgaben unterschieden: überwachtes Lernen, unüberwachte Lernen und bestärkendes Lernen. Beim überwachten Lernen geht es darum, die Ausprägung eines Zielmerkmals für eine bestimmte Art von Objekten vorherzusagen. Beim unüberwachten Lernen geht es darum, Objekte anhand bestimmter Merkmale in Gruppen ähnlicher Objekte zusammenzufassen und beim bestärkenden Lernen geht es darum, sogenannte „Agenten“ (z.B. Roboter) zum Handeln zu bringen. Bei allen Lernaufgaben kommen unterschiedlichste Lernalgorithmen zum Einsatz.
 
'''Merkmal''' Merkmale charakterisieren Objekte und können verschiedene Ausprägungen annehmen. Es gibt numerische und kategoriale Merkmale.
 
'''Objekt'''  Objekte sind Merkmalsträger jeglicher Art. D. h. Objekte können durch Merkmale beschrieben werden (Z. B. Lebensmittel werden durch Nährwerte beschrieben, Menschen durch charakterisierende Eigenschaften wie Haarfarbe oder Körpergröße). Dabei ist nicht festgelegt welche Merkmale zum beschreiben eines Objektes herangezogen werden.
 
'''Pfad''' Ein Pfad innerhalb eines Entscheidungsbaums ist eine Abfolge von Ästen, die im Wurzelknoten beginnt und in einem Blattknoten endet.
 
'''Prädiktormerkmal''' Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Zielmerkmals vorherzusagen. Für die Vorhersage wird ein Regelsystem basierend auf weiteren Merkmalen erstellt. Diese weiteren Merkmale, auf denen also die Vorhersage beruht nennt man Prädiktormerkmale.  
 
'''Regelknoten''' Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Zu Beginn stehen immer Regelknoten, die anhand von Prädiktormerkmalen gebildete Entscheidungsregeln repräsentieren. Alle Knoten in einem Entscheidungsbaum, bis auf die jeweils letzten Knoten weines Pfades, sind Regelknoten.
 
'''Schwellenwert''' Ein Schwellenwert ist eine Ausprägung, die zu einem numerischen Merkmal gewählt werden kann, um Objekte in Teildatensätze zu gruppieren. Die Teildatensätze ergeben sich aus den Objekten, deren jeweilige Ausprägung kleiner oder gleich dem Schwellenwert ist und denjenigen, deren jeweilige Ausprägung größer als der Schwellenwert ist.
 
'''Trainingsdaten''' Trainingsdaten sind ein Satz von Daten, die genutzt werden, um mit Hilfe von maschinellem Lernen einen Klassifikator (z. B. Entscheidungsbaum) zu erstellen.
 
'''Testdaten''' Testdaten sind ein weiterer Satz von Daten, mit denen ein erstellter KLassifikator getestet wird. Trainings- und Testdaten sind disjunkt.
 
'''Zielmerkmal''' Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Merkmals vorherzusagen. Das betreffende Merkmal nennt man Zielmerkmal.  
 
'''Überwachtes maschinelles Lernen''' Damit überwachtes maschinelles Lernen (engl.: supervised learning) angewandt werden kann, benötigt man zuerst digitale Repräsentationen von Objekten in Form von Daten. Mit diesen digitalen Repräsentationen können Lernalgorithmen im Hinblick auf eine bestimmte Zielstellung (z.B. Klassifizieren in “eher empfehlenswert” und “eher nicht empfehlenswert”) trainiert werden. Diesen “Lernprozess” nennt man auch Trainingsprozess und die Daten, die dafür genutzt werden, nennen wir Trainingsdaten. Die digitale Repräsentation der Objekte basiert auf verschiedenen Merkmalen (z.B. Nährwertangaben eines Lebensmittels). Zusätzlich müssen für alle Objekte die gewünschten Klassenzugehörigkeit (z.B. eher empfehlenswert/eher nicht empfehlenswert) in Form eines Labels bekannt sein. Die Merkmale eines Objekts nennt man auch Prädiktormerkmale und die Label sind die Ausprägungen eines Zielmerkmals. Eine Sammlung von Beispielobjekten, denen Werte von Prädiktormerkmalen und Labeln zugeordnet werden, werden so zu einem Satz von Daten, der modellhaft eine ganze Klasse an Objekten repräsentiert.  Hierbei werden die Daten zum Erstellen eines Regelsystems (z.B. Entscheidungsbaum) für eine KI verarbeitet. Die KI soll dann später den verschiedenen Objekten, bei denen die Klassenzugehörigkeit nicht bekannt ist, anhand ihrer digitalen Repräsentation das passende Label automatisiert zuordnen. Das Verarbeiten der Daten in diesem gesamten Trainingsprozess kann man als “überwachtes maschinelles Lernen” bezeichnen und dabei wird das Regelsystem immer besser an die vorliegenden Daten angepasst, bis am Ende möglichst wenig Fehler bei der Zuordnung (Fehlklassifikationen) passieren. Im Anschluss wird eine KI mit neuen Objekten bzw. Daten getestet und evaluiert. Dann spricht man von Testdaten. Der Begriff „überwacht“  wird in diesem Zusammenhang genutzt, da für alle verwendeten Objekte in den Daten die Klassenzugehörigkeit bekannt ist und daher genau überwacht werden kann wie gut der erstellte Klassifikator für die Daten funktioniert. 


4
4

Version vom 12. April 2022, 08:35 Uhr

Auf dieser Seite werden nach und nach die Inhalte der Unterrichtsreihe „Entscheidungsbäume mit Datenkarten“ eingefügt.

Apfel oder Popcorn? Eine enaktive Einführung in Entscheidungsbäume, maschinelles Lernen und KI mit Datenkarten


Überblick

In dieser Unterrichtsreihe geht es darum Schülerinnen und Schülern (SuS) eine Vorstellung von maschinellem Lernen und Künstlicher Intelligenz zu vermitteln. Dies wird anhand von datenbasierten Entscheidungsbäumen erarbeitet. Die Umsetzung in dieser Reihe basiert hauptsächlich auf unplugged Materialien, die das Lernen auf enaktiver Ebene ermöglichen. Dies wird ergänzt durch eine digitale Lernumgebung, die zum Ende der Reihe flexibel einsetzbar ist. Der ausgewählte Kontext „Lebensmittel“ ist für alle SuS relevant und insbesondere auch für jüngere SuS geeignet.  

Lebensmittel kann man anhand von Nährwertangaben als “eher empfehlenswert” oder “eher nicht empfehlenswert” klassifizieren. Dabei müssen mehrere Merkmale wie Fettgehalt, Zuckergehalt und Kalorien berücksichtigt werden. Ein mehrstufiges Regelsystem, mit dem solche Klassifikationen durchgeführt werden können, sind sogenannte Entscheidungsbäume. Solche Entscheidungsbäume kann man basierend auf Daten erstellen. Mit Daten ist hier gemeint: Man geht von einer Menge von Lebensmitteln aus, zu dem Nährwertangaben bekannt sind, und zu denen man weiß, ob sie eher empfehlenswert oder nicht empfehlenswert sind. Darauf aufbauend kann man “manuell” schrittweise Entscheidungsbäume erstellen, die die Lebensmittel zunehmend fehlerfreier klassifizieren.  Dieser Erstellungsprozess kann auch automatisiert werden, um nach bestimmten Kriterien optimale Entscheidungsregeln zu finden. Die Automatisierung erfordert, jedes Lebensmittel als “Datenkarte” - das ist eine Liste von Zahlenwerten zu den verschiedenen Nährwertmerkmalen - digital zu repräsentieren. Ein maschinelles Lernverfahren entwickelt zu diesen Daten einen passenden (daten-basierten) Entscheidungsbaum. In der Praxis sind neben Entscheidungsbäumen auch andere Typen von Klassifikatoren - z.B. neuronale Netze - im Gebrauch, mit darauf angepassten maschinellen Lernverfahren.

Entscheidungsbäume haben den Vorteil, dass sie als Regelsystem von SuS verstanden werden können, ebenso können die Erstellungsverfahren eines Baumes zunächst manuell erarbeitet und dann am Computer automatisiert werden. Im Unterricht werden Lebensmittel zunächst als reale Datenkarten modellhaft repräsentiert und die SuS können Karten sortieren und klassifizieren, um sich auf einer enaktiven Ebene Verfahren anzueignen. Der Anspruch ist, einen Einblick “in den Maschinenraum” des maschinellen Lernens zu gewinnen und nicht nur vorgegebene Systeme, die eine völlige Black-Box bleiben, als Klassifikatoren mit Daten zu trainieren.

In dieser Unterrichtsreihe wird in ca. 9 Unterrichtsstunden in die sogenannten datenbasierten Entscheidungsbäume (engl. decision trees), eingeführt. Dabei steht im Vordergrund, wie ein Entscheidungsbaum aufgebaut ist und wie die passenden Entscheidungsregeln datenbasiert hergeleitet werden. Dieser systematische, datenbasierte Erstellungsprozess kann dann als eine Methode des maschinellen Lernens automatisiert erfolgen und ein resultierender Entscheidungsbaum kann als eine Form künstlicher Intelligenz bezeichnet werden. Dazu erstellen SuS manuell mit Hilfe von Datenkarten Entscheidungsbäume, um zu verstehen, erstens wie ein Entscheidungsbaum als Regelsystem aufgebaut ist, und zweitens wie man systematisch bei der Konstruktion vorgehen kann, um Entscheidungsbäume mit möglichst geringer Fehlklassifikationsanzahl zu erhalten. Ergänzend gibt es eine vorbereitete digitale Lernumgebung, in der SuS Entscheidungsbäume automatisiert erstellen können. Dabei lernen sie etwas über Künstliche Intelligenz und maschinelles Lernen, welche Rolle Daten dabei spielen und welche Fehler passieren können.

Auf fachlicher Basis der deutschen Gesellschaft für Ernährung (DGE) wird das Thema Ernährung aufgegriffen, welches in der Sekundarstufe I behandelt werden sollte, aber aktuell in den Lehrplänen der verschiedenen Fächer unterrepräsentiert ist. Auf diese Weise wird das Thema maschinelles Lernen mit einem bildungsrelevanten Sachthema verknüpft.

Lernvoraussetzungen

·      Nährwerte und Nährwertangaben (kann zu Beginn der Reihe thematisiert werden, Vorschlag s.u.)

Ziele

Bezogen auf Entscheidungsbäume:              

Die SuS...

·      begreifen einen Entscheidungsbaum als Regelsystem, das zum Klassifizieren von Objekten genutzt werden kann.

·      erstellen Entscheidungsregeln zum Klassifizieren von Objekten hinsichtlich eines Zielmerkmals systematisch basierend auf anderen Merkmalen der Objekte, deren Ausprägungen als Daten erfasst sind.

·      wenden einen Entscheidungsbaum auf ein neues, zu klassifizierendes Objekt an.

·      präsentieren und reflektieren eigene Entscheidungsbäume angemessen.

·      verstehen die Rolle von Daten als Grundlage für die Erstellung von Entscheidungsbäumen.

·      verstehen, dass Entscheidungsbäume Prognosen liefern sollen (Klassifikationen neuer Objekte) und deshalb mit neuen Daten getestet werden müssen und dass dabei Fehler (in Form falscher Prognosen) auftreten können.

·      nutzen als Qualitätskriterium zum Bewerten von Entscheidungsbäumen die Anzahl falsch klassifizierter Objekte.

·      beschreiben, wie ein Computer Entscheidungsbäume automatisiert erstellen kann und identifizieren diesen Vorgang als maschinelles Lernen.

Bezogen auf den Inhalt Lebensmittel:

SuS...

·      lernen die Bedeutung einzelner Nährwertangaben (Merkmale) bei Lebensmitteln und ihre Relevanz für die Qualitätsbewertung von Lebensmitteln kennen.

·      leiten aus den gegebenen Nährwertdaten ein Regelsystem ab, das Prognosen trifft darüber, ob ein (neues) Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist.

Eignung von Ernährung als Thema

·      Anbindung an die Erfahrungswelt aller SuS (unabhängig von Alter, Geschlecht, etc.)

·      Viele Anknüpfungsmöglichkeiten (z. B. Biologieunterricht)

·      Beitrag zu allgemeinbildendem Unterricht

Leitfragen

·      Wie kann man anhand der Nährwertangaben einen Entscheidungsbaum konstruieren, der die Beurteilung unterstützt, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist?

·      Wie kann man einen Entscheidungsbaum für dieses Problem automatisiert (durch maschinelles Lernen) erstellen lassen?

Zum Umgang mit dem Material

Das Thema KI und Entscheidungsbäume wird in diesem Unterrichtsvorschlag anhand des Themas Lebensmittel erarbeitet, das die Schülerinnen und Schüler aus ihrer Lebenswelt kennen. Dabei wird ein Kartenspiel mit entsprechenden Datenkarten genutzt, um Entscheidungsbäume zunächst unplugged, enaktiv und altersgerecht zu behandeln.

Abbildung 1: Beispiel Lebensmittelkarten

Mit einem Spielkartensatz zu Lebensmitteln wird anhand der „Big 7“ der Nährwerte (Energie, Fett, gesättigte Fettsäuren, Eiweiß, Kohlenhydrate, Zucker, Salz) ein Regelsystem mit der Methode der datenbasierten Entscheidungsbäume erarbeitet.

Man bezeichnet dabei das Merkmal, für das eine Klassifikation erstellt werden soll, als Zielmerkmale und die übrigen Merkmale (hier Nährwertangaben), mit deren Hilfe Regeln aufgestellt werden, als Prädiktormerkmale.

Mithilfe von Spielkarten wie in Abb. 1 über Lebensmittel mit den zugehörigen Nährwertangaben (pro 100 g) erarbeiten Schülerinnen und Schüler von Hand nach und nach erst einstufige, später zwei- oder mehrstufige Entscheidungsbäume. Diese Entscheidungsbäume werden mit Testkarten validiert. Das dabei aufgebaute Wissen wird genutzt, um zu verstehen, wie Entscheidungsbäume als Regelsysteme basierend auf Daten (systematisch) erstellt und anschließend genutzt werden können. Das dabei angewandte Vorgehen kann in Grundzügen auf das maschinelle Lernen (wie es ein Computer macht) übertragen werden. In der letzten Unterrichtsstunde wird ein Entscheidungsbaum automatisch durch den Computer mit Hilfe eines Jupyter Notebooks generiert und in der Klasse diskutiert (optional durch die SuS selbst oder in einer Präsentation durch die Lehrkraft).

Material

·      55 Karten, davon

o  40 Trainingskarten (blau),

o  15 Testkarten (gelb)

·      50 grüne und 50 rote Büroklammern zum Labeln

·      Arbeitsblätter

·       PowerPoint Präsentationen als Grundlage für Besprechungsphasen im Unterricht

Die blauen Trainingskarten werden verwendet, um die Entscheidungsbäume unplugged zu erarbeiten. In einem ersten Schritt werden die Karten mit Unterstützung durch die Ernährungspyramide der Deutschen Gesellschaft für Ernährung (DGE) gelabelt. Eher empfehlenswerte Lebensmittelkarten bekommen eine grüne Büroklammer angeheftet, eher nicht empfehlenswerte Lebensmittel bekommen eine rote Büroklammer.

Schülerinnen und Schüler vergeben zunächst die Label für die Lebensmittel als “eher empfehlenswert” oder “eher nicht empfehlenswert” in Partnerarbeit. Anschließend wird dies im Plenum diskutiert und ein einheitlicher Konsens getroffen, sodass nach der Diskussion alle Schülerinnen und Schüler einen Kartensatz mit identischen Labeln vorliegen haben. Beim Labeln können zudem 10 Karten ausgewählt werden, bei denen Uneinigkeit für das Klassifizieren herrscht. Es ist günstig etwa 10 Karten auszusortieren, da das Arbeiten später mit maximal 30 Karten angenehmer ist. Diese Karten bleiben ohne Büroklammer und können später mithilfe der fertigen Bäume klassifiziert werden. Durch das Labeln entstehen Modelle der Realität, die möglicherweise von der Realität abweichen.

Differenzierung/Einsatz in Klasse 5 oder 6

Wir empfehlen den Einsatz der Unterrichtsreihe in Klasse 6.

Eine vereinfachte, realitätsnahe und funktionierende Variante des Kartendatensatzes stellt die Variante „Lebensmittel light“ dar. Dieser vereinfachte Datensatz enthält:

·      22 Trainingskarten (blau) mit ganzzahligen Werten

·      10 Testkarten (gelb)

·      50 grüne und 50 rote Büroklammern

·      Arbeitsblätter (wie oben)

·      Präsentationen (wie oben)

Unterrichtsverlauf

Auf den folgenden Seiten wird ein möglicher Unterrichtsverlauf beschrieben. Eine U-Stunde ist dabei mit 45 Minuten geplant. Aus Sicht der Autorinnen und Autoren dieser Reihe (und in vielen Erprobungen) hat es sich als sinnvoll herausgestellt, die Reihe im Ganzen durchzuführen. Sollte jedoch Zeitknappheit herrschen, ist es möglich, die als optional gekennzeichneten (graue Schrift) Stunden verkürzt zu unterrichten.

Kurzübersicht zur Unterrichtsreihe

Phase Thema


Inhalt
1

1 U.-Std.

Was ist eine KI? In dieser Phase wird als Einstieg ein fertiges KI-System exploriert. Dabei werden Vorkenntnisse aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen gewonnen.
2

1 U.-Std.

Exkurs: Lebensmittel In dieser Stunde erfolgt ein Einstieg in den Datenbegriff und das Thema Lebensmittel. Dazu begreifen wir Nährwertangaben als Ausprägungen von Merkmalen zu Lebensmitteln.
3

1 U.-Std.

Daten vorbereiten: Labeln des Datensatzes Die zu entwickelnde künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür Beispiele für eher empfehlenswerte oder eher nicht empfehlenswerte Lebensmittel benötigt. In dieser Stunde werden solche Beispiele in Form von Daten mit Hilfe der Datenkarten hergestellt.
4

1 U.-Std.

Einführung: Aufstellen einer Entschei-dungsregel Ziel innerhalb der Unterrichtsreihe ist es, ein mehrstufiges Regelsystem zur Klassifikation von Lebensmitteln zu erstellen. Dafür lernen die SuS in dieser Stunde zunächst Entscheidungsregeln (einstufige Entscheidunsgbäume) aus den Daten abzuleiten. Dies wird mit dem Konzept des Datensplits umgesetzt, das in dieser Stunde eingeführt wird. Dabei werden die Datenkarten anhand eines Merkmals und eines sogenannten Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel mit bis zu 10 g Fett und über 10 g Fett). Die Entscheidungsregeln werden in dieser Stunde exemplarisch mit Hilfe des Merkmals Energie erstellt.
5

2 U.-Std.

Einstufige Entscheidungs-bäume selbst erstellen Die SuS wissen nun, wie man eine Entscheidungsregel aufstellen kann. Bisher wurden aber nur ein Merkmal und drei Schwellenwerte ausprobiert. Um den resultierenden Entscheidungsbaum zu verbessern und noch mehr Lebensmittelkarten richtig zu klassifizieren, wird in dieser Stunde erarbeitet, wie man systematisch nach guten Entscheidungsregeln suchen kann. Dabei werden verschiedene Merkmale einbezogen und ein strategisches Vorgehen beim Suchen des Schwellenwertes erarbeitet.
6

1 U.-Std.

Mehrstufige Entscheidungs-bäume erstellen Nachdem die SuS systematisch nach guten Entscheidungsregeln gesucht haben, ist zu erkennen, dass man mit einer Entscheidungsregel nicht alle Lebensmittel korrekt klassifizieren kann. Es wird offensichtlich, dass man ein mehrstufiges Regelsystem benötigt. Deshalb werden in dieser Stunde basierend auf der ersten Regel weitere Merkmale einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu erstellen. Je nachdem wie schnell die SuS arbeiten, können sie zwei- oder mehrstufige Entscheidungsbäume erstellen.

                         

7

1 U.-Std.

Entscheidungs-bäume mit neuen Daten testen Nachdem verschiedene Gruppen von SuS unterschiedliche Entscheidungsbäume erstellt haben, werden diese Bäume auf neue Lebensmittel angewendet, die die SuS auf Blankokarten selbst mitgebracht haben. Die selbst mitgebrachten Lebensmittel werden mit allen Bäumen klassifiziert. Dadurch wird offensichtlich, dass in den Entscheidungsbäumen auch Unsicherheiten stecken, da einige Lebensmittel falsch klassifiziert werden.
8

1 U.-Std.

Automatisiert Entscheidungs-bäume mit dem Computer erstellen Um die Unsicherheiten in Entscheidungsbäumen systematisch weiter zu untersuchen, testet in dieser Stunde jede Gruppe ihren Entscheidungsbaum mit den 15 Testkarten, die im Katenspiel als gelbe Karten gekennzeichnet sind. So wird es möglich, die Performance der Entscheidungsbäume miteinander zu vergleichen.
9

1 U.-Std.

Reflexion Wie wird mit Hilfe eines Computers ein Entscheidungsbaum erstellt? Anknüpfend an die letzten Stunden können Schülerinnen und Schüler in dieser Stunde einen Entscheidungsbaum zu den Lebensmitteldaten mit Hilfe eines Computers automatisiert erstellen lassen. Sie können dabei auch die Daten verändern und die Auswirkungen auf den Entscheidungsbaum beobachten. Abschließend wird noch einmal reflektiert, wie mit Hilfe des Computers aus Daten Entscheidungsbäume erstellt werden, welche Vor- und Nachteile dies hat und wo die SuS solche Entscheidungsmodelle in ihrem Alltag wiederfinden.

Möglicher Unterrichtsverlauf:

Phase Inhalt Ziele Sozialform & Material
1. Was ist eine KI?

(1 U-Std.)

Motivation:

In dieser Phase wird als Einstieg ein fertiges KI-System exploriert. Dabei werden Vorkenntnisse aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen gewonnen.


Aktivität: Auprobieren eines fertigen KI-Systems

Google Quick Draw (https://quickdraw.withgoogle.com/).

Die Webseite ist nach Aufrufen des Links selbsterklärend. Alle Schülerinnen und Schüler probieren Google Quick Draw aus – jede:r malt 10 Objekte, die automatisch von der Software vorgegeben werden. Die KI erkennt diese Objekte, wenn sie passend gezeichnet werden. Anschließend wird automatisch eine Übersicht angezeigt, was erkannt bzw. nicht erkannt wurde. Außerdem werden einige Beispiele gezeigt, die andere Personen zum gleichen Objekt gemalt haben, um die Datenbasis zu veranschaulichen, auf deren Grundlage die gemalten objekte erkannt wurden.

Hieran kann diskutiert werden, dass der Computer eine passende Datenbasis benötigt, um bestimmte Objekte einer “Klasse” zu erkennen. Dazu benötigt man für jede Klasse digital repräsentierte Beispiele mit dem passenden Label. Google Quick Draw ist schon anhand sehr vieler Beispiele ‘vorgelernt’, daher sieht man hier Klassifikationen mit nur wenigen Fehlern. Eine untrainierte KI würde am Anfang viele Fehler machen.


Mögliche Diskussiongrundlage:

Mit Hilfe von KI-Systemen können u. A. Bilder klassifiziert werden, zum Beispiel, ob ein Hund oder eine Katze zu sehen ist. Maschinelles Lernen ermöglicht das Erstellen solcher KI-Systeme auf der Basis von Trainingsdaten mit Hunde und Katzenbildern.

Mögliche Metapher: Man kann gewisse Parallelen zwischen maschinellem Lernen und dem Lernprozess kleiner Kinder erkennen. Kinder lernen dadurch, dass wir ihnen Objekte zeigen, die Namen dazu sagen und alles so lange wiederholen, bis sie Hunde von Katzen unterscheiden können. Z. B. wird bei der Begegnung von Hunden „Hund“ und bei Katzen „Katze“ von Erwachsenen oft genug gesagt, so dass das Kind irgendwann lernt, was eine Katze ist und was ein Hund. Durch Vorsagen und Korrektur.

Das Vorgeben von Beispielen und der passenden Lösung wird auch beim maschinellen Lernen genutzt. Die Beispiele werden als Daten gespeichert (z. B. Fotos von Hunden bzw. Katzen) und mit einem passenden Label versehen, das die richtige Lösung enthält.

Hintergrundinformationen

Bei dieser Form maschinellen Lernens (überwachtes Lernen) zur Klassifikation von Objekten wird wie folgt vorgegangen. Es werden verschiedene Beispielobjekte erfasst und mit Labeln gekennzeichnet.  Ein Label ist ein Etikett, das anzeigt welcher Klasse dieses Beispiel angehört. Z. B. erhalten Fotos von Katzen das Label „Katze“ und die von Hunden das Label „Hund“, je nachdem was auf dem Bild erkannt werden soll. Jedes Foto hat außerdem verschiedene, digital repräsentierte Eigenschaften, die durch Merkmale beschrieben werden und verschieden ausgeprägt sein können. (Anmerkung: Die Eigenschaften, die ein Mensch einem Foto zuweist, unterscheiden sich von den digitalen Merkmalen. Ein Foto besitzt Merkmale, wie z.B. Farbwerte einzelner Pixel, die in einem mL-Prozess zum Erstellen eines Regelsystems genutzt werden. Vereinfachend sprechen wir mit Schülerinnen und Schülern nur von “dem“ Foto). Durch maschinelles Lernen wird anhand der Merkmale der Objekte ein Regelsystem erstellt, das die Objekte den passenden, vorgegebenen Labeln zuordnet. Ein solch fertiges Regelsystem bezeichnet man als KI oder KI-System. Einen automatisierten Erstellungsprozess der KI nennt man dann maschinelles Lernen. Passendes Video:

https://www.youtube.com/watch?v=HmUzceKCI9I&list=PL4puIg9yEU6yn_XR0TiSLroYO3KAlZmYY&t=1s


Reflexion Mit Schülern:

Damit durch maschinelles Lernen eine KI zur Klassifikation erstellt werden kann, müssen zunächst Beispiele geliefert werden. Ein Beispiel ist jeweils ein Objekt, das durch bestimmte Merkmale beschrieben wird und mit einem Label versehen ist, das die Zugehörigkeit zu einer “Klasse” kennzeichnet.


Aber wie genau funktioniert dieses maschinelle Lernen? Dies wird in den folgenden Stunden an der Methode Entscheidungsbäume thematisiert. “Es ist cool, was mit dem Computer gemacht werden kann, allerdings mysteriös, wie es funktioniert. Dem gehen wir in den folgenden Stunden nach.”


Die Google Quickdraw KI hat auch Fehler gemacht und Zeichnungen teilweise nicht richtig erkannt. Die Funktionen von einer KI sind begrenzt und hängen von den Trainingsdaten ab. D. h. eine KI macht auch Fehler in Form falscher Klassifikationen.


Begriffe: KI, Machinelles Lernen, Objekt, Klasse, Label, Merkmal




Aktivierung von Vorkenntnissen über KI aus dem Alltag


KI-Systeme können Dinge einer Klasse zuordnen (klassifizieren)


Für maschinelles Lernen benötigt man Beispiele mit dem passenden Label einer Klasse (Trainingsdaten)






https://quickdraw.withgoogle.com/


Präsentation1_Quickdraw












2. Exkurs: Lebens-mittel

(1 U-Std.)

(optional)

Motivation:

Es existiert ein Ampelsystem für Ernährung, zum Beispiel im Supermarkt (diese basieren i. d. R. nicht auf maschinellem Lernen) – Ein Ziel innerhalb der Unterrichtsreihe ist es ein ähnliches Regelsystem mit Methoden des maschinellen Lernens zu erstellen.

In dieser Stunde erfolgt dafür ein Einstieg in den Datenbegriff und das Thema Lebensmittel. Dazu begreifen wir Nährwertangaben als Ausprägung von Merkmalen von Lebensmitteln. Die Ausprägungen der Merkmale sind für einzelne Lebensmittel als Zahlen erfasst worden. Grundlage dafür, ob ein Lebensmittel “empfehlenswert” ist, kann zum Beispiel die Ernährungspyramide der DGE sein.


Aktivität:

-         Verschiedene Lebensmittel(-verpackungen) präsentieren (Knäckebrot, Chips, Gummibärchen, Salami, etc.) „Welche Daten findet ihr hier?“ - Dann: „Welche Rolle können Daten für unsere Ernährung spielen?“

-         Optionaler Input: Nährstoffgruppen: Man braucht verschiedene Nährstoffgruppen, am besten täglich, Bezug zur Ernährungspyramide. Hier vor allem Kohlenhydrate, Eiweiß, Fett, Ballaststoffe, Salz, Zucker, Was ist worin enthalten, wovon sollte man eher viel oder eher weniger essen?

-         Warum stehen diese Daten auf allen Lebensmittelverpackungen?

Material 3D Ernährungspyramide:

https://www.dge.de/fileadmin/public/doc/fs/3dlmp/200714-DGE-Arbeitsblaetter-03-formular.pdf


Begriffe: Objekt, Merkmal, Merkmalsausprägung,  Daten, Klassifikation





Nährwertangaben verstehen


Èinführung in Begrifflichkeiten rund um Daten




Verpackte Lebensmittel mit Nährwertangaben


Arbeitsblatt 1 (z.B. als Hausaufgabe)


„3D-Ernaehrungspyramide.pfd (zum Basteln für die SuS)


3. Labeln des Datensatzes

(1 U-Std.)

Motivation

Die zu entwickelnde künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür Beispiele für eher empfehlenswerte oder eher nicht empfehlenswerte Lebensmittel benötigt. In dieser Stunde werden solche Beispiele in Form von Daten mit Hilfe der Datenkarten hergestellt.


Aktivität

Die SuS modellieren den Datensatz mit dem später gearbeitet wird, um basierend darauf Entscheiodungsbäume zu erstellen. Dafür vergeben sie zunächst in Partnerarbeit die Label „eher empfehlenswert“ oder „eher nicht empfehlenswert“ für alle blauen Karten (blaue Karten = Trainingsdaten), um anschließend im Klassenverband die Label zu diskutieren und sich zu einigen. (jeweils 2 SuS haben ein Arbeitsblatt 2 zur Verfügung):

„Überlegt für jedes Lebensmittel, ob ihr das Label “eher empfehlenswert” oder “eher nicht empfehlenswert” vergeben wollt. Dabei könnt ihr euch an der Lebensmittelpyramide und an eurem Alltagswissen über Lebensmittel orientieren.“


Besprechung der Aktivität

Allgemeinen Konsens herstellen, welche Nahrungsmittel welches Label erhalten werden. Zwei Möglichkeiten:

·       Abstimmung im Plenum, Diskussion bei Uneinigkeit, gemeinsames anheften der Label an die Karten

·       Abstimmung in Onlineumfrage, Diskussion im Plenum bei Uneinigkeit, gemeinsames Anheften der Label an die Karten

Die Lehrkraft kann die Diskussionen im Plenum moderieren und ggf. bei groben Fehleinschätzungen (z.B. Gurke als “eher nicht empfehlenswert”) eingreifen.  Eine Orientierung liefert die Datei Rumpfdatensatz_28.csv, in der die besonders eindeutig zuzuordnenden Lebensmittel zu finden sind. Einzelne Abweichungen von diesem Vorschlag sind aber nicht weiter schlimm, d.h. die Diskussion muss nicht strikt geleitet werden. In vielen Unterrichtserprobungen hat sich gezeigt, dass per Mehrheitsvotum der Großteil der Lebensmittel wie im Vorschlag zugeordnet wird. Alternativ zur Plenumsdiskussion kann eine Onlineabstimmung durchgeführt werden. Dies ist auch als Hausaufgabe umzusetzen und kann den Unterricht zeitlich entlasten, da dann nur noch über kritische Lebensmittel diskutiert werden muss.


Möglicher Ablaufplan für das gemeinsame vergeben der Label im Plenum

Als Ziel: Ein Datensatz mit identischen Labeln für alle SuS mit etwa 30 blauen Karten (etwa 10 Karten können offenbleiben, wenn keine Einigung gefunden wird. Zur Weiterarbeit empfehlen sich ca. 30 Karten mit Label.) Die Karten aus Rumpfdatensatz_28.csv sollten größtenteils enthalten sein, um in der Weiterarbeit gute Ergebnisse zu erzielen. Das sind aber auch erfahrungsgemäß diejenigen Karten, die die SuS sehr eindeutig einem Label zuordnen können.

1.       SuS bilden Zweier- oder Dreiergruppen

2.       Jede Schüler:innengruppe bekommt ein Kartenspiel (die Karten auf jeden Fall in der Reihenfolge lassen, wie sie in der Schachtel sind, damit alle SuS die Karten in der gleichen Reihenfolge vorliegen haben)

3.       Gemeinsam wird besprochen und festgelegt, welches Label die erste blaue Karte (Haselnussschnitte) bekommen soll. Zunächst wird einfach abgestimmt. Wenn keine klare Mehrheit zustande kommt, wird diskutiert.

4.       Falls auch nach der Diskussion keine Einigkeit erzielt wird, kann die Karte beiseitegelegt werden. Andernfalls stecken alle Schüler eine passend farbige Büroklammer an die Karte (Haselnussschnitte).

5.       3. und 4. werden für die weiteren Karten wiederholt – die Lehrkraft hat dabei den Rumpfdatensatz im Blick und versucht die Diskussion so zu leiten, dass nicht zu viele grobe Fehleinschätzungen passieren und dass nur etwa 10 Karten beiseitegelegt werden.

6.       Jede Schülergruppe und die Lehkraft haben einen nach Klassenkonsens mit Labeln versehenen Datensatz.

(Arbeitsblatt 2 kann im späteren Unterrichtsverlauf als Erinnerung dienen, welche Karte in welcher Farbe gelabelt wurde, falls zwischen den Unterrichtsstunden Label abgefallen sind.)


Hintergrundinformation:

Damit ein Entscheidungsbaum wie durch einen Computer erstellt werden kann, müssen wir ihm Beispiele liefern. Ein Beispiel ist jeweils ein Objekt (Lebensmittel), das durch bestimmte Merkmale (Nährstoffe) beschrieben wird und mit einem Label („eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist. Eine Sammlung und Darstellung solcher Beispiele bezeichnen wir als Daten für das zu erstellende KI-System. Wir demonstrieren mit diesen Daten, was unsere künstliche Intelligenz als eher empfehlenswert oder als eher nicht empfehlenswert erkennen soll.

Begriffe: Daten, Beispiel, Objekt, Merkmal






Maschinellen Lernprozess vorbereiten durch Herstellen eines geeigneten Trainingsdatensatzes


Labeln von Lebensmittelkarten = Modellierung der Realität


Plenum

Diskussion





Partnerarbeit

Arbeitsblatt 2 (unbedingt in Farbe ausdrucken!)


Plenum

Rumpfdatensatz_28.csv





4. Einführung: Aufstellen einer Entscheidungsregel

(1 U-Std.)

Motivation:

Ziel innerhalb der Unterrichtsreihe ist es, ein mehrstufiges Regelsystem zur Klassifikation von Lebensmitteln zu erstellen. Dafür lernen die SuS in dieser Stunde zunächst Entscheidungsregeln (einstufige Entscheidunsgbäume) aus den Daten abzuleiten. Dies wird mit dem Konzept des Datensplits umgesetzt, das in dieser Stunde eingeführt wird. Dabei werden die Datenkarten anhand eines Merkmals und eines sogenannten Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel mit bis zu 10 g Fett und über 10 g Fett). In beiden Teilgruppen wird dann geschaut, ob die Mehrheit eher Empfehlenswert oder eher nicht empfehlenswert ist. Wenn in den Teilgruppen unterschiedliche Label zu finden sind (was in den allermeisten Fällen so ist), gibt es in beiden Teilgruppen Lebensmittel, die von der Mehrheitsentscheidung abweichen. Diese werden als Fehler oder Fehlklassifikationen bezeichnet. Es gilt deshalb den Schwellenwert zu finden, der möglichst wenige Fehler hervorbringt. Die Entscheidungsregeln werden in dieser Stunde exemplarisch mit Hilfe des Merkmals Energie erstellt.


Formulierung der Zielstellung für die SuS (Erstellen einer Entscheidungsregel): Um eine gute Regel zu finden, ist es sinnvoll, dass auf einer Seite des Schwellenwerts möglichst nur eher nicht empfehlenswerte Lebensmittel zu finden sind und auf der anderen Seite nur eher empfehlenswerte. Dann hätte man eine Regel, um eher empfehlenswerte und eher nicht empfehlenswerte Lebensmittel zu unterscheiden. Eine solch perfekte Regel findet man meistens nicht, aber vielleicht kommt man möglichst nah dran, sodass möglichst wenige Lebensmittel falsch klassifiziert werden. Im weiteren Verlauf des Unterrichts werden weitere Stufen des Baums erstellt, um komplexere Regelsysteme zu erhalten, die mehr Lebensmittel richtig klassifizieren.


Aktivität:

Lebendige Statistik durchführen, um Schwellenwert zu thematisieren

1.       Jede/r SuS geht nach vorne und holt sich eine gelabelte Karte ab und repräsentiert nun das Lebensmittel auf der Karte

2.       Die Lehrkraft erläutert zunächst, dass nun eine Entscheidungsregel gesucht wird und formuliert die Zielstellung (s.o.). Nun gibt sie ein Merkmal und einen Schwellenwert vor (z.B. Energie, 350 kcal) und dann wird der Datensplit in der Klasse am Merkmal Energie durchgeführt. Das bedeutet: Alle, die eine Karte mit einem Energiewert ≤ 350 haben, gehen nach links, alle mit einem Energiewert >350 gehen nach rechts. Daraus entstehen zwei Teildatensätze.

3.       Nun wird per Handzeichen erhoben, wie die Anzahlen von ‚eher empfehlenswert‘ und ‚eher nicht empfehlenswert‘ in den Teildatensätzen sind und an der Tafel festhalten

4.       Den Baum an der Tafel mitzeichnen als Strukturierungshilfe für SuS

5.       Diskussion: In welcher Teilgruppe befinden sich eher empfehlenswerte Lebensmittel? (Mehrheitsentscheidung (Durchzählen) – Ziel: eher empfehlenswerte Lebensmittel haben eher weniger Energie)

6.       Vorgeben eines weiteren Schwellenwertes und Wiederholen der Prozedur (z.B. Minimum der eher nicht empfehlenswerten Lebensmittel)

7.       Vergleich der beiden Datensplits (Welcher ist näher an unserer Zielstellung möglichst wenige Fehler beim Klassifizieren zu erzeugen?)

8.       Diskussion: Geben eines weiteren Schwellenwerts und Wiederholen der Prozedur

9.       Vergleich der drei Datensplits (Welcher ist besonders nah an unserer Zielstellung?)

Tafelbild zum Festhalten des Schwellenwerts und der jeweiligen Häufigkeitsverteilung. Besprechung: Welcher ist der beste Schwellenwert für das Merkmal Energie? Dokumentation an der Tafel wie AB3


Hinweis zur Durchführung der lebendigen Statistik

Man kann aufgrund der begrenzten Anzahl an SuS meist nicht alle Karten für die lebendige Statistik verwenden. Man sollte dabei darauf achten, dass keine ungünstigen Stichproben der Karten genutzt werden. Manche Stichproben vereinfachen das Problem zu stark, sodass man zu schnell perfekte Regeln findet. Wir schlagen dafür einen Rumpfdatensatz vor, mit dem die Phase gut durchgeführt werden kann. Vorschläge für Rumpfdatensätze verschiedener Größe finden sich in den Dateien „Rumpfdatensatz_22.csv“ und „Rumpfdatensatz_28.csv“. Leichte Abweichungen von den Rumpfdatensätzen sind kein Problem.


Hintergrundinformationen

Es sollen Entscheidungsregeln anhand der Merkmale der Lebensmittel definiert werden. Die Merkmale (Nährstoffe) haben in unserem Beispiel jeweils eine numerische Ausprägung, die die jeweiligen Nährwertangabe als Menge pro 100 g angibt. Um eine Entscheidungsregel aufzustellen, suchen wir zu einem Merkmal einen Schwellenwert.

Ein Schwellenwert ist ein Wert, mit dessen Hilfe die Daten bezogen auf ein Merkmal in zwei Teilgruppen aufgeteilt werden. Das nennt man auch Datensplit (kurz: Split). Eine Gruppe enthält die Lebensmittel deren Ausprägung des Merkmals kleiner oder gleich dem Schwellenwert ist und die andere Gruppe diejenigen deren Ausprägung größer als der Schwellenwert ist. Dabei ist die Zielstellung, einen Wert zu finden, der die Daten in möglichst homogene Teilgruppen aufteilt, also beispielsweise, dass unterhalb und bis zum Schwellenwert möglichst viele Objekte einsortiert sind, die als ‘eher empfehlenswert’ klassifiziert sind und alle Objekte, deren Ausprägung größer als der Schwellenwert sind, als ‘eher nicht empfehlenswert’ klassifiziert sind. Auf beiden Seiten wird eine Mehrheitsentscheidung getroffen, um einen Entscheidungswert festzulegen. So hat man dann eine Entscheidungsregel basierend auf einem Merkmal und einem Schwellenwert. Z.B.: Lebensmittel mit bis zu einschließlich 5 g Fett sind eher empfehlenswert und Lebensmittel mit über 5 g Fett sind eher nicht empfehlenswert. Die Güte dieser Entscheidungsregel kann daran bemessen werden, für wie viele Objekte im Datensatz diese Zuordnung falsch ist. (Anzahl der Fehlklassifikationen)


Reflexion:

·       Für ein Merkmal haben wir ausprobiert/herausgefunden, wie wir durch Ausprobieren und Vergleichen zu einer „guten” Regel kommen.

·       Der Computer kann alle Schwellenwerte ausprobieren und die “beste” Regel für das gewählte Merkmal so ganz schnell finden.

·       Außerdem probiert der Computer alle Merkmale und alle denkbaren Schwellenwerte durch, um so eine noch bessere Regel zu finden.

·       Eine Entscheidungsregel ist schon ein kleiner Entscheidungsbaum mit nur einer Ebene (Aber: Der Baum ist noch nicht sehr gut, da er noch einige Fehler macht)

·       Reicht noch nicht: Mit mehr als einer Regel wird es besser.


Hausaufgabe

AB3_GrößerKleinerZeichen

Mathematische Wiederholung <, >, ≤, ≥ Zeichen!!

Übungen mit der Baumdarstellung

(z.B. https://anton.app/de/lernen/mathematik-5-klasse/thema-01-natuerliche-und-ganze-zahlen/uebungen-04-zahlen-ordnen-vergleichen/)


Begriffe: Schwellenwert, Datensplit


















Datenbasiert Entscheidungsregeln aufstellen


Einführung des Datensplit als Grundkonzept von Entscheidungsbäumen


Einführung des Schwellenwerts als Möglichkeit Daten-splits herzustellen



Datenkarten











Präsentation2 Einführung Datensplit





Lebendige Statistik


Rumpfdatensatz.csv

(in einer Variante für 22 oder 28 SuS)













Dokumentation an der Tafel und als Strukturierungshilfe den Schülerinnen und Schülern zur Verfügung stellen




















Plenum






Arbeitsblatt 3




5. Einstufige Entscheidungsbäume erstellen

(1-2 U-Std.)

Motivation:

Die SuS wissen nun, wie man eine Entscheidungsregel aufstellen kann. Bisher wurden aber nur ein Merkmal und drei Schwellenwerte ausprobiert. Um den resultierenden Entscheidungsbaum zu verbessern und noch mehr Lebensmittelkarten richtig zu klassifizieren, wird in dieser Stunde erarbeitet, wie man systematisch nach guten Entscheidungsregeln suchen kann. Dabei werden verschiedene Merkmale einbezogen und ein strategisches Vorgehen beim Suchen des Schwellenwertes erarbeitet.


Einführung der Linealmethode

Die Lineal-/Bleistiftmethode (s. u.) kann in zunächst im Plenum erläutert und dann anhand von Arbeitblatt 4 in Einzelarbeit eingeübt werden, um die Methode danach in Kleingruppen mit den Datenkarten anzuwenden.


Die Linealmethode/Bleistiftmethode:

·       Die Gruppen sortieren die gelabelten blauen Karten aufsteigend nach ihrem Merkmal auf dem Tisch (ggf. 2 Tische aneinanderschieben)

·       Ein Lineal oder Bleistift wird als symbolischer Schwellenwert in die Verteilungen gelegt (zwischen zwei Karten) und dann wird ausgezählt, wie viele Karten richtig klassifiziert sind. Es wird auf beiden Seiten der Mehrheitswert (hier: links grün & rechts rot) gebildet und abweichende Karten gelten als falsch klassifiziert (hier: Nudeln auf der rechten Seite)

(Beispiel Linealmethode)

Schwellenwert per Augenmaß:

·       Man kann einen ersten Schwellenwert per Augenmaß auswählen, um von da ausgehend verschiedene zu vergleichen. Die Karten müssen dafür auf jeden Fall nach einem Merkmal sortiert sein

·       Es können verschieden Strategien genutzt werden:

o   Es kann der Wert gewählt werden, der von links betrachtet zwischen den ersten beiden verschieden gelabelten Karten liegt (im Bild oben zwischen Brotscheibe und Pommes).

o   Alternativ kann dies auch vom rechten Ende her gemacht werden.

o   Alternativ kann ein Wert gewählt werden, bei dem links und rechts vom Schwellenwert möglichst homogene Teildatensätze (rot oder grün) entstehen. Dies erfordert schon ein gewisses Augemaß, dass aber mit der Zeit aufgebaut werden kann.

·        Von dem gewählten Schwellenwert ausgehend kann man dann den Schwellenwert etwas nach links oder rechts verschieben und prüfen, ob sich die Anzahl der falsch klassifizierten Karten dadurch verringert. Diese Strategie kann sukzessive nach links und rechts angewendet werden.

·       So wird der beste Schwellenwert aus einer Menge betrachteter Schwellenwerte ermittelt. Alle Schwellenwerte zu testen (wie es ein Computer machen würde) ist bei einer großen Anzahl von Karten zu mühsam, aber es sollten mit Augenmaß und etwas ausprobieren versucht werden den besten Schwellenwert zu finden gemessen an der Anzahl der Fehlklassifikationen.


Besprechung von Arbeitsblatt 4:

Neben den Ergebnissen der SuS sollte auf folgende Aspekte Wert gelegt werden:

·       Was ist ein Kriterium für einen „besten“ Schwellenwert? (Vergleichsweise wenig falsch klassifizierte Karten)

·       Welcher ist der beste Schwellenwert für das jeweilige Merkmal?


Aktivität:

Jede Zweiergruppe arbeitet mit ihrem Kartensatz und bekommt ein Merkmal zugeteilt, für das eine Entscheidungsregel gesucht wird. Alle Gruppen können mit unterschiedlichen Merkmalen arbeiten. Dabei sollen mehrere Schwellenwerte in Betracht gezogen werden und es soll begründet der beste Schwellenwert unter den in Betracht gezogenen ausgewählt werden.  Um die global beste Entscheidungsregel zu finden, müssten sehr viele verschiedene Schwellwerte ausprobiert werden, was sehr mühsam und daher für die SuS wenig praktikabel ist (ein Computer geht allerdings so vor). Deshalb “genügt” es, wenn die SuS einige Schwellenwerte ausprobieren.


Es wird eine Strategie eingeführt, die das Suchen von Entscheidungsregeln erleichtert. Die “Linealmethode” basiert auf dem Sortieren der Karten nach einem Merkmal, einer Wahl eines ersten Schwellenwerts per Augenmaß mit einer Visualisierung durch z. B. ein Lineal und ein anschließendes Vergleichen mit weiteren Schwellenwerten.


„Findet für euer Merkmal einen Schwellenwert, bei dem möglichst viele Karten richtig klassifiziert werden, indem ihr verschiedene Schwellenwerte ausprobiert und denjenigen wählt, bei dem am wenigstens Fehlklassifikationen auftreten.!“


Hintergrundinformationen:

Das Sortieren der Karten im Hinblick auf ein ausgewähltes Merkmal ist ein zentrales Element zum Finden eines guten Schwellenwerts, weil auf diese Weise schnell ein guter Überblick über die Verteilung gewonnen werden kann. Man erkennt schnell, wie viele Lebensmittel über und unter dem Schwellenwert als empfehlenswert bzw. nicht empfehlenswert gekennzeichnet sind. Nur so ist es möglich, per Augenmaß einen günstigen Schwellenwert zu finden. Andernfalls bleibt nur das Ausprobieren von zufälligen Werten. Dies ist nur für das manuelle Suchen von Schwellenwerten wichtig und sollte deshalb als Strategie im Unterricht zentral thematisiert werden. Ein Computer probiert einfach alle in Frage kommenden Schwellenwerte aus, da er nicht über Augenmaß verfügt. Dazu ist es wichtig, von Anfang an die Anzahl der falsch klassifizierten Karten zu notieren. Bei dieser Anzahl der falsch klassifizierten Karten handelt es sich um das Kriterium, mit dem verschiedene Schwellenwerte im Hinblick auf ihre Güte miteinander verglichen werden können.





Heuristik zum finden von Entscheidungsregeln verstehen (Linealmethode + Schwellenwert per Augenmaß)


Anzahl der falsch klassifizierten Karten als Gütekriterium für eine Entscheidungsregel nutzen




















Datenkarten nach einem Merkmal aufsteigend sortieren


Finden eines „besten“ Schwellenwerts


Anwenden der „Linealmethode/Bleistiftmethode“





Plenum



Einzelarbeit

Arbeitsblatt 4


















Plenum




Partnerarbeit

Arbeitsblatt 5


Spielplan 1 (optional)














6. Mehrstufige Entscheidungsbäume erstellen


1 U-Std.

Motivation:

Nachdem die SuS systematisch nach guten Entscheidungsregeln gesucht haben, ist zu erkennen, dass man mit einer Entscheidungsregel allein nicht alle Lebensmittel korrekt klassifizieren kann. Es wird offensichtlich, dass man ein mehrstufiges Regelsystem benötigt. Deshalb werden in dieser Stunde basierend auf der ersten Regel weitere Merkmale einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu erstellen. Je nachdem wie schnell die SuS arbeiten, können sie zwei- oder mehrstufige Entscheidungsbäume erstellen.


Hintergrundinformationen:

Beim Erstellen eines mehrstufigen Entscheidungsbaums geht es darum, dass weitere Regeln erstellt werden, die hierarchisch auf die erste Regel folgen, um die Anzahl der falschen Klassifikation sukzessive zu verringern. Die weiteren Regeln werden basierend auf den Teildatensätzen erstellt, die durch die erste Entscheidungsregel entstanden sind. So wird in jedem Ast des Baums mit einem anderen Teildatensatz weitergearbeitet, um weitere Entscheidungsregeln aufzustellen. Im Unterricht muss explizit darauf geachtet werden, dass jeweils nur mit den Karten einer Teilgruppe weitergearbeitet wird, wenn ein weiterer Split erstellt wird. Ein typischer SuS-Fehler ist es, mit allen Karten in einem Ast weiterzuarbeiten, obwohl nur mit einer Teilgruppe gearbeitet werden darf.


Anleitung

Es ist wichtig den SuS zu verdeutlichen, dass nur mit einem Teildatensatz weitergearbeitet werden darf in der nächsten Stufe des naums. Das kann entweder im Plenum besprochen werden oder optional durch eine weitere Aktivität in der lebendigen Statistik veranschaulicht werden. Zur Besprechung im Plenum kann die beigelegte Lehrpräsentation „Präsentation3_Zweiter_Datensplit“ genutzt werden. Dort kann man auch die Dokumentation eines mehrstufigen Baums gemäß Arbeitsblatt 6 vorbesprechen.


Optionale Aktivität:

In zweiter Stufe das Merkmal Eiweiß (oder Zucker) ausprobieren.

Vorgehen:

·       Jeder Schüler nimmt wieder eine Datenkarte

·       Noch einmal bezüglich Energie und dem gewählten Schwellenwert in zwei Schülergruppen (Teildatensätze) aufteilen

·       „In der Gruppe mit der höheren Kalorienanzahl befinden sich jetzt noch sowohl eher empfehlenswerte als auch eher nicht empfehlenswerte Lebensmittel. Diese wollen wir jetzt noch besser klassifizieren, indem wir einen weiteren Split durchführen.“ Dazu: Jetzt in der Gruppe (Teildatensatz) mit der Kalorienanzahl über dem Schwellenwert einen weiteren Datensplit durchführen (z.B. eignet sich das Merkmal Eiweiß mit Schwellenwert 11 g)

·       Explizit darauf hinweisen, dass nur mit einem Teildatensatz gearbeitet wurde für den zweiten Datensplit

·       Fazit: Jetzt sind wir näher dran am ‚perfekten‘ Baum


Auswertung der lebendigen Statistik (des fertigen Baums):

An der Tafel dokumentieren: Ergebnis: Tafelbild mit Baumdiagramm wie auf AB5 (Achtung, dieser fertige Baum wird später noch benötigt, also dauerhaft konservieren, z.B. auf Plakat).


Partnerphase:

Wieder in Partnerarbeit: Basierend auf den Entscheidungsregeln, die in Phase 5 erarbeitet wurden, folgt nun die zweite Stufe des Entscheidungsbaums für jede Gruppe. Jede Gruppe wählt hierzu frei ein weiteres Merkmal und probiert dies aus auf Spielplan Teil 2.

1.       Beide Teildatensätze aus dem Ersten Datensplit passend auf dem Spielplan Teil 1 ablegen

2.       Jetzt die erste Teilgruppe nehmen (z.B. linken Teilkartenstapel, NICHT alle Karten) und nach einem weiteren Merkmal die Karten aufsteigend auf dem Tisch ordnen (Merkmal frei ausprobieren). Die nicht genutzten Karten können so lange auf dem Spielplan verwahrt werden.

3.       Einen Schwellenwert mit der „Linealmethode” finden und die Karten auf dem Spielplan Teil 2 ablegen

4.       Jetzt die zweite Teilgruppe nehmen (NICHT alle Karten) und ggf. ein anderes oder das gleiche Merkmal wie in 2. nehmen

5.       Einen Schwellenwert mit der Linealmethode für die zweite Teilgruppe finden (kann der gleiche oder ein anderer Wert sein wie in 3.) und auf dem Spielplan Teil 2 auslegen

6.       Den fertigen Baum auf AB 5 dokumentieren


Zur Differenzierung für schnelle Gruppen:

·       Weitere Merkmale im zweiten Split ausprobieren

·       Dritte Stufe möglich machen (Hierfür kann Spielplan Teil 2 genutzt werden, indem „einzelne Datensplits” durch Zerschneiden von Spielplan Teil 2 ausgelegt werden)

·       Optional: Entscheidungsregeln formulieren (AB 6)


Diskussion der erstellten Bäume

Jede Gruppe stellt ihren Baum vor:

1.       Welche Merkmale wurden benutzt? Und welche Schwellenwerte?

2.       Wörtlich die Entscheidungsregeln formulieren

3.       Wie viele Lebensmittel wurden damit richtig klassifiziert?


Anschließend:

4.       Welcher Baum hat die meisten Lebensmittel richtig klassifiziert?


Punkt 4 wird noch einmal mit den sogenannten Testdaten in der nächsten Stunde überprüft, möglicherweise ändert sich die Bewertung der Bäume dann.


Für die nächste Aktivität werden die Entscheidungsbäume in der Klasse aufgehängt (bzw. durch Lehrkraft eingesammelt). Diese werden in der nächsten Stunde nochmal benötigt.


Reflexion:

·       Nun haben wir weitere Entscheidungsregel(n) gefunden, diese sind mehrstufig.

·       Für ein Merkmal haben wir ausprobiert/herausgefunden, wie wir eine Entscheidungsregel begründet auswählen.

·       Wenn ein Entscheidungsbaum automatisiert durch den Computer erstellt wird, so werden alle Schwellenwerte ausprobiert und die beste Regel ganz schnell gefunden und alle Merkmale ausprobiert.


Hausaufgabe:

Jeder füllt eine Blankokarte (Arbeitsblatt 8 vorher passend zurechtschneiden) für ein Lebensmittel zu Hause aus. Diese soll in der nächsten Stunde mit den erstellten Bäumen klassifiziert werden.


Optional kann Arbeitsblatt 7 noch als weitere Übung für das Ausformulieren der Entscheidungsregeln genutzt werden.











Einführung in den  zweiten Datensplit

















Mehrstufige Entscheidungsregeln als Baumstruktur erkennen


Entscheidungsregeln passend zum Baum verbal ausformulieren


Auszählen, wie viele Karten ein Baum richtig klassifiziert











Plenum

Präsentation3_Zweiter_Datensplit




Zweiter Teil lebendige Statistik












Spielplan Teil 2


Arbeitsblatt 6













Plenum





AB 6 einsammeln oder aufhängen








Arbeitsblatt 7 (opt.)

Arbeitsblatt 8

7. Entscheidungsbäume anhand einer Lebensmittelkarte testen

(1/2 U-Std.)

Motivation:

Nachdem verschiedene Gruppen von SuS unterschiedliche Entscheidungsbäume erstellt haben, werden diese Bäume auf neue Lebensmittel angewendet, die die SuS auf Blankokarten selbst mitgebracht haben. Die selbst mitgebrachten Lebensmittel werden mit allen Bäumen klassifiziert. Dadurch wird offensichtlich, dass in den Entscheidungsbäumen auch Unsicherheiten stecken, da einige Lebensmittel falsch klassifiziert werden.


Aktivität:

Die Bäume (als ausgefüllte AB 6 aus der verherigen Stunde) liegen als Stationen in der Klasse, zusammen mit neuen roten und grünen Büroklammern. Jeder Schüler/jede Schülerin geht mit seiner ausgefüllten Blankokarte (AB 8) von Station zu Station. An jeder Station durchläuft er mit der Karte den jeweiligen Baum und heftet am Ende eine farbige Büroklammer an die Karte (je nachdem, ob der Baum das Lebensmittel als eher empfehlenswert oder eher nicht empfehlenswert klassifiziert)


Mit einem Beispiellebensmittel kann vorher demonstriert werden, wie das Durchlaufen eines Baumes funktioniert! Optional kann dies mit der Lehrpräsentation  „Präsentation4_Baum_Anwenden“ vernanschaulicht werden.


Reflexion:

Hierbei geht es um das Thema Unsicherheit, das bei Entscheidungsbäumen (und beim Arbeiten mit Daten) immer eine wichtige Rolle spielt.

Hier geschieht die Auswertung, ob das Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist anhand des Auszählens der farbigen Büroklammern.

Diskussion: Was bedeutet es, dass an manchen Lebensmitteln unterschiedliche Klammern hängen?

1.       Die Entscheidung eines Entscheidungsbaums ist mit Unsicherheit behaftet.

2.       Unterschiedliche Bäume können unterschiedliche Entscheidungen liefern, wir können aber überprüfen, welcher Baum zuverlässig ist (welcher Baum die meisten Objekte richtig klassifiziert), indem wir Testdaten nutzen – das kommt in der nächsten Phase.

3.       Entscheidungen eines Entscheidungsbaums müssen mit gesundem Menschenverstand beurteilt werden.

Entscheidungen basieren auf unserem Trainingsdatensatz, der nur eine kleine Auswahl an Lebensmitteln beinhaltet und subjektiv klassifiziert wurde.






Entscheidungsbäume auf ein neues Lebensmittel anwenden


„Unsicherheit“ im Regelsystem erkennen



Stationenarbeit mit den erstellten Entscheidungsbäumen aus der vorherigen Stunde



Präsentation4_Baum_Anwenden



Plenum

7. Entscheidungsbäume anhand von mehreren Testkarten überprüfen

(1/2 U-Std.)

Motivation:

Um die Unsicherheiten in Entscheidungsbäumen systematisch weiter zu untersuchen, testet in dieser Stunde jede Gruppe ihren Entscheidungsbaum mit den 15 Testkarten, die im Katenspiel als gelbe Karten gekennzeichnet sind. So wird es möglich, die Performance der Entscheidungsbäume miteinander zu vergleichen.


Aktivität:

Einführung Testkarten im Plenum

1.       Testkarten labeln mit Hilfe von AB9.

2.       Jetzt mit Testdaten den Baum der eigenen Gruppe (Ergebnis aus der vorherigen Stunde auf AB6) prüfen.

3.       Jede Testkarte nehmen und entsprechend des vorgegebenen Baums ausprobieren. Dokumentieren, wie viele Karten der Baum “richtig” und “falsch” klassifiziert.

4.       Auf AB 6 folgenden Satz ergänzen: „Mit diesem Baum wurden von den Testdaten ___ Lebensmittel richtig klassifiziert und ____ Lebensmittel falsch klassifiziert.”


Reflexion:

·       Vergleichen, wie gut die Bäume jeweils mit Testdaten abschneiden.

·       Welcher Baum hat die meisten Lebensmittel von den Testdaten richtig klassifiziert?

Computer könnte noch schneller noch viel mehr Bäume erstellen, vergleichen und den „besten” Baum auswählen.



Testkarten zum Prüfen eines Baums nutzen


Einen Entscheidungs-baum mit Testdaten bewerten





Verschiedene Bäume anhand von Tesdaten gegenüberstellen und bewerten



Partnerarbeit

Testkarten

Arbeitsblatt 9

Arbeitsblatt 6





Plenum

8. Wie erstellt ein Computer einen Entscheidungsbaum (optional)

(1-2 U-Std.)

Motivation:

Wie wird mit Hilfe eines Computers ein Entscheidungsbaum erstellt? Anknüpfend an die letzten Stunden können Schülerinnen und Schüler in dieser Stunde einen Entscheidungsbaum zu den Lebensmitteldaten mit Hilfe eines Computers automatisiert erstellen lassen. Sie können dabei auch die Daten verändern und die Auswirkungen auf den Entscheidungsbaum beobachten. Abschließend wird noch einmal reflektiert, wie mit Hilfe des Computers aus Daten Entscheidungsbäume erstellt werden, welche Vor- und Nachteile dies hat und wo die SuS solche Entscheidungsmodelle in ihrem Alltag wiederfinden.


Aktivität:

1. Um noch einmal zu verstehen, wie ein Computer algorithmisch vorgeht, um Schwellenwerte zu finden, wird zunächst AB 10 ausgefüllt.

2. Auf der Website https://go.upb.de/auto-baum gibt es ein vorbereitetes Jupyter Notebook, das per „Click and play“ benutzt werden kann.

Im Jupyter Notebook (dieses ist für SuS (fast) selbsterklärend):

1.       Alle SuS „labeln“ zunächst den Trainingsdatensatz wie in Stunde 2 (mit Hilfe von AB 2).

2.       Anschließend wird durch den Computer automatisch ein Entscheidungsbaum erstellt.

3.       Verschiedene Bäume (mit unterschiedlicher Anzahl an Stufen) können hinsichtlich ihrer Fehlklassifikationsanzahl bzgl. der Trainingsdaten besprochen werden.

4.       Der automatisch erstellte Baum kann mit den Testdaten überprüft werden.

5.       Am Ende können Daten für ein neues Lebensmittel eingegeben werden und durch den Baum klassifiziert werden.


Anmerkung:

Sollte im Jupyter Notebook versehentlich der Code einer Zelle angezeigt werden, so kann das “Ausführen” dieser Zelle durch die Tastenkombination Shift+Enter den Code wieder verbergen und die “schöne” Ansicht wiederhergestellt werden.


Vertiefungsmöglichkeit:

Zum Vertiefen können die Ausgangsdaten im Jupyter Notebook unterschiedlich gelabelt werden. Dadurch lässt sich erkennen, welchen Einfluss die Daten bzw. Die Modellierung der Daten (hier der menschliche Einfluss durch Vergabe der Label) auf die Ergebnisse hat. Z. B. kann die anfängliche Vergabe der Label so verändert werden, dass sie willkürlich ist und dann wird auch als Ergebnis ein Entscheidungsbaum erstellt, der inhaltlich keinen Sinn ergibt. Dies verdeutlicht, dass die Qualität der Daten(-modellierung) entscheidend für Qualität eines Regelsystems ist, das durch maschinelles Lernen erstellt wird.


Reflexion:

·       Was hat der Computer im Hintergrund gemacht? (schnell sortieren, alle Schwellenwerte probieren, alle Merkmale probieren)

·       Vergleich der automatisch erstellten KI-Bäume und der händisch in der Klasse erstellten Bäume – wie gut sind die händisch erstellten Bäume?




Einen Entscheidungs-baum maschinell erstellen lassen











Einfluss von Daten auf das Ergebnis untersuchen





Einzelarbeit oder Partnerarbeit

Arbeitsblatt 10

Computer oder Tablet










Plenum

9. Reflexion Daten

(1/2 - 1 U-Std.)

Was hat uns das Erstellen des Entscheidungsbaums gebracht?

·       Wir haben nun Erkenntnisse über die Rolle verschiedener Merkmale von Lebensmitteln erlangt. Zum Beispiel über die Merkmale Fett und Kalorien. An dieser Stelle kann auf konkrete Entscheidungsbäume aus der Unterrichtsreihe eingegangen werden.

·       Frage: Welche Hinweise geben uns unsere Bäume? (Bezug zu formulierten Regeln) (z.B. verschiedene Merkmale müssen einbezogen werden, nicht nur eins allein)


Welche Schwächen kann der Entscheidungsbaum haben?

·       Ein resultierender Entscheidungsbaum ist KEIN absolut gültiges Regelsystem für empfehlenswerte Lebensweise, ABER er kann uns trotzdem gute Hinweise geben.

·       Gründe Schwächen:

1.       Wir haben die Daten intuitiv gelabelt (Zuordnung von eher empfehlenswert/eher nicht empfehlenswert war manchmal zweifelhaft)

2.       Vielleicht haben wir ein wichtiges Merkmal der Lebensmittel gar nicht erhoben. (Zum Beispiel Ballaststoffe)

3.       Eine empfehlenswerte Ernährung ist in erster Linie vielseitig und nicht eins zu eins durch einen Entscheidungsbaum abzudecken.


Welche Schritte haben wir absolviert, um den Entscheidungsbaum zu erstellen?

·       Karten sortieren

·       Schwellenwerte ausprobieren

·       Richtige und falsche Klassifikationen abhängig von den Schwellenwerten auswerten und damit Schwellenwerte/Entscheidungsregeln vergleichen


Zentrale Erkenntnis:

Ein Entscheidungsbaum ist das, was man KI nennt. Durch einen Entscheidungsbaum wird eine Entscheidung vorgeschlagen. Der Entscheidungsbaum gibt aus, ob etwas eher empfehlenswert oder nicht ist. Der Computer ist aber nicht “intelligent”, sondern wurde anhand von Daten auf das entsprechende Regelsystem trainiert. Das heißt nicht, dass der Computer „weiß” oder „verstanden” hat, was empfehlenswert ist, sondern nur, dass er Daten auswertet und basierend darauf Klassifikationen vorgenommen werden (können).


Wofür haben wir den Entscheidungsbaum genutzt?

·       Um neue Lebensmittel zu klassifizieren

·       Um zu erklären, was “eher empfehlenswert” und “eher nicht empfehlenswert” bei Lebensmitteln ist


Was kann ein Computer besonders gut, wenn er Entscheidungsbäume erstellt?

·       Schnell sortieren, um verschiedenen Merkmale auszuprobieren

·       alle Schwellenwerte ausprobieren und die Anzahl der Fehlklassifikationen bestimmen, um so die besten Splits zu finden

·       Verschiedene Kombinationen von Merkmalen und Schwellenwerten ausprobieren und so den besten Baum finden

Vertiefung:

·       Für welche Situationen können Entscheidungsbäume hilfreich sein? Gib ein Beispiel an. (z.B. personalisierte Werbung, Vorschläge auf online Plattformen)

·       Welche Daten werden dafür benötigt?

Prozess beim Erstellen eines Entscheidungs-baums rekapitulieren


Ergebnisse kritisch beurteilen


Modellierung durch Daten aufgreifen



Plenum
Evaluation

(1/2 U-Std.)

Bitte als Abschluss der Unterrichtsreihe den Schülerinnen und Schülern das Arbeitsblatt 11 Evaluation (Rückmeldung) geben mit dem Hinweis, dass dies eine anonyme Rückmeldung an die „Erfinder“ der Unterrichtsreihe ist. Die „Erfinder“ sind sehr daran interessiert zu erfahren, wie die Reihe den Schülerinnen und Schülern gefallen hat.

Das Arbeitsblatt findet sich auch digitalisiert auf einem Server datenschutzrechtlich unbedenklich der Universität Paderborn.

Die eingescannten Arbeitsblätter schicken Sie bitte per E-Mail an [[1]]; alternativ kann die anonyme Evaluation unter https://go.upb.de/ev-lebensmittel von den SuS ausgefüllt werden.


Herzlichen Dank dafür!

·       Rückmeldung geben Arbeitsblatt 11  

Oder digital:

http://go.upb.de/ev-lebensmittel

Glossar

Ast Ein Ast innerhalb eines Entscheidungsbaums ist eine von mehreren Abzweigungen, die von einem Regelknoten zu einem nächsten Knoten führt.

Ausprägung/Merkmalsausprägung Die Werte, die ein Merkmal annehmen kann, nennt man Merkmalsausprägung.

Beispiel (im Kontext von KI) Ein Beispiel ist ein Objekt (z. B. Lebensmittel), das durch bestimmte Merkmale (z. B. Nährstoffe) beschrieben wird und mit einem Label (z. B. „eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist.

Blattknoten Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Die Knoten am Ende eines Entscheidungsbaums nennt man Blattknoten und in ihnen ist immer eine Entscheidung für eine Ausprägung des Zielmerkmals eingetragen.

Datenkarte Eine Datenkarte repräsentiert ein Objekt, indem darauf die Ausprägungen einer Liste von Merkmalen dargestellt sind (z. B. ein Lebensmittel durch Nährwertangaben zu einer Liste von Nährstoffen). Eine Datenkarte kann digital oder analog repräsentiert sein.

Datensplit Ein Datensplit ist die Aufteilung von Daten in Teildatensätze basierend auf den Ausprägungen eines Merkmals, z. B. durch einen Schwellenwert.

Entscheidungsbaum Ein Entscheidungsbaum ist ein (übersichtliches, in gewissen Grenzen nachvollziehbares) Regelsystem, das als Baumdiagramm dargestellt werden kann. Ein solcher Entscheidungsbaum veranschaulicht hierarchisch aufeinanderfolgende Entscheidungsregeln, an deren Ende immer eine Entscheidung für eine bestimmte Fragestellung steht.

Fehlklassifikation Eine Objekt, das durch einen Klassifikator einer falschen Klasse zugeordnet wird nennt man Fehlklassifikation.

Klasse (im Kontext von KI) Eine Klasse ist eine Ausprägung eines kategorialen Zielmerkmals beim überwachten maschinellen Lernen.

Klassifikation Mit einem Entscheidungsbaum kann man Ausprägungen eines (mit einer gewissen Wahrscheinlichkeit) Merkmals vorhersagen. Anders formuliert kann man also ein Objekt einer Klasse zuordnen. Eine solche regelgeleitete Zuordnung zu einer Klasse nennt man Klassifikation.

Klassifikator Ein Klassifikator ist ein Regelsystem (z. B. Entscheidungsbaum), das bestimmte Objekte anahand von Prädiktormerkmalen klassifizieren kann.

Klassifizieren Das Klassifizieren eines Objekts entspricht dem Zuordnen eines Objekts zu einer Klasse (aus einer Menge möglicher Klassen). Klassen können auch als Merkmalsausprägungen eines kategorialen Merkmals verstanden werden.

Künstliche Intelligenz (KI) Künstlicher Intelligenz befasst sich mit der Frage, wie man Computer dazu bringen kann, Dinge zu tun, die Menschen bisher besser beherrschen. Dazu gehören verschiedenste Anwendungen, u. A. die Fähigkeit in verschiedenen Szenarios Vorhersagen zu treffen oder Klassifikationen vorzunehmen die mit einer hohen Rate korrekt sind. Somit zählen leistungsfähige Klassifikatoren (z.B. Entscheidungsbäume) zu den Anwendungen von Künstlicher Intelligenz.

Label Ein Label gibt die Klassenzugehörigkeit eines Objekts an. Das Label kann als Ausprägung eines Merkmals (Zielmerkmal) verstanden werden.

Maschinelles Lernen Maschinelles Lernen bezeichnet Verfahren, in denen eine Lernaufgabe automatisiert durch Lernalgorithmen basierend auf Daten gelöst wird. Maschinelles Lernen unterscheidet verschiedene Arten von Lernaufgaben. Typischerweise wird zwischen drei Arten von Lernaufgaben unterschieden: überwachtes Lernen, unüberwachte Lernen und bestärkendes Lernen. Beim überwachten Lernen geht es darum, die Ausprägung eines Zielmerkmals für eine bestimmte Art von Objekten vorherzusagen. Beim unüberwachten Lernen geht es darum, Objekte anhand bestimmter Merkmale in Gruppen ähnlicher Objekte zusammenzufassen und beim bestärkenden Lernen geht es darum, sogenannte „Agenten“ (z.B. Roboter) zum Handeln zu bringen. Bei allen Lernaufgaben kommen unterschiedlichste Lernalgorithmen zum Einsatz.

Merkmal Merkmale charakterisieren Objekte und können verschiedene Ausprägungen annehmen. Es gibt numerische und kategoriale Merkmale.

Objekt  Objekte sind Merkmalsträger jeglicher Art. D. h. Objekte können durch Merkmale beschrieben werden (Z. B. Lebensmittel werden durch Nährwerte beschrieben, Menschen durch charakterisierende Eigenschaften wie Haarfarbe oder Körpergröße). Dabei ist nicht festgelegt welche Merkmale zum beschreiben eines Objektes herangezogen werden.

Pfad Ein Pfad innerhalb eines Entscheidungsbaums ist eine Abfolge von Ästen, die im Wurzelknoten beginnt und in einem Blattknoten endet.

Prädiktormerkmal Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Zielmerkmals vorherzusagen. Für die Vorhersage wird ein Regelsystem basierend auf weiteren Merkmalen erstellt. Diese weiteren Merkmale, auf denen also die Vorhersage beruht nennt man Prädiktormerkmale.  

Regelknoten Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Zu Beginn stehen immer Regelknoten, die anhand von Prädiktormerkmalen gebildete Entscheidungsregeln repräsentieren. Alle Knoten in einem Entscheidungsbaum, bis auf die jeweils letzten Knoten weines Pfades, sind Regelknoten.

Schwellenwert Ein Schwellenwert ist eine Ausprägung, die zu einem numerischen Merkmal gewählt werden kann, um Objekte in Teildatensätze zu gruppieren. Die Teildatensätze ergeben sich aus den Objekten, deren jeweilige Ausprägung kleiner oder gleich dem Schwellenwert ist und denjenigen, deren jeweilige Ausprägung größer als der Schwellenwert ist.

Trainingsdaten Trainingsdaten sind ein Satz von Daten, die genutzt werden, um mit Hilfe von maschinellem Lernen einen Klassifikator (z. B. Entscheidungsbaum) zu erstellen.

Testdaten Testdaten sind ein weiterer Satz von Daten, mit denen ein erstellter KLassifikator getestet wird. Trainings- und Testdaten sind disjunkt.

Zielmerkmal Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Merkmals vorherzusagen. Das betreffende Merkmal nennt man Zielmerkmal.  

Überwachtes maschinelles Lernen Damit überwachtes maschinelles Lernen (engl.: supervised learning) angewandt werden kann, benötigt man zuerst digitale Repräsentationen von Objekten in Form von Daten. Mit diesen digitalen Repräsentationen können Lernalgorithmen im Hinblick auf eine bestimmte Zielstellung (z.B. Klassifizieren in “eher empfehlenswert” und “eher nicht empfehlenswert”) trainiert werden. Diesen “Lernprozess” nennt man auch Trainingsprozess und die Daten, die dafür genutzt werden, nennen wir Trainingsdaten. Die digitale Repräsentation der Objekte basiert auf verschiedenen Merkmalen (z.B. Nährwertangaben eines Lebensmittels). Zusätzlich müssen für alle Objekte die gewünschten Klassenzugehörigkeit (z.B. eher empfehlenswert/eher nicht empfehlenswert) in Form eines Labels bekannt sein. Die Merkmale eines Objekts nennt man auch Prädiktormerkmale und die Label sind die Ausprägungen eines Zielmerkmals. Eine Sammlung von Beispielobjekten, denen Werte von Prädiktormerkmalen und Labeln zugeordnet werden, werden so zu einem Satz von Daten, der modellhaft eine ganze Klasse an Objekten repräsentiert.  Hierbei werden die Daten zum Erstellen eines Regelsystems (z.B. Entscheidungsbaum) für eine KI verarbeitet. Die KI soll dann später den verschiedenen Objekten, bei denen die Klassenzugehörigkeit nicht bekannt ist, anhand ihrer digitalen Repräsentation das passende Label automatisiert zuordnen. Das Verarbeiten der Daten in diesem gesamten Trainingsprozess kann man als “überwachtes maschinelles Lernen” bezeichnen und dabei wird das Regelsystem immer besser an die vorliegenden Daten angepasst, bis am Ende möglichst wenig Fehler bei der Zuordnung (Fehlklassifikationen) passieren. Im Anschluss wird eine KI mit neuen Objekten bzw. Daten getestet und evaluiert. Dann spricht man von Testdaten. Der Begriff „überwacht“  wird in diesem Zusammenhang genutzt, da für alle verwendeten Objekte in den Daten die Klassenzugehörigkeit bekannt ist und daher genau überwacht werden kann wie gut der erstellte Klassifikator für die Daten funktioniert.

4 1 U.-Std. Einführung: Aufstellen einer Entschei-dungsregel Ziel innerhalb der Unterrichtsreihe ist es, ein mehrstufiges Regelsystem zur Klassifikation von Lebensmitteln zu erstellen. Dafür lernen die SuS in dieser Stunde zunächst Entscheidungsregeln (einstufige Entscheidunsgbäume) aus den Daten abzuleiten. Dies wird mit dem Konzept des Datensplits umgesetzt, das in dieser Stunde eingeführt wird. Dabei werden die Datenkarten anhand eines Merkmals und eines sogenannten Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel mit bis zu 10 g Fett und über 10 g Fett). Die Entscheidungsregeln werden in dieser Stunde exemplarisch mit Hilfe des Merkmals Energie erstellt. 5 2 U.-Std. Einstufige Entscheidungs-bäume selbst erstellen Die SuS wissen nun, wie man eine Entscheidungsregel aufstellen kann. Bisher wurden aber nur ein Merkmal und drei Schwellenwerte ausprobiert. Um den resultierenden Entscheidungsbaum zu verbessern und noch mehr Lebensmittelkarten richtig zu klassifizieren, wird in dieser Stunde erarbeitet, wie man systematisch nach guten Entscheidungsregeln suchen kann. Dabei werden verschiedene Merkmale einbezogen und ein strategisches Vorgehen beim Suchen des Schwellenwertes erarbeitet.

6 1 U.-Std. Mehrstufige Entscheidungs-bäume erstellen Nachdem die SuS systematisch nach guten Entscheidungsregeln gesucht haben, ist zu erkennen, dass man mit einer Entscheidungsregel nicht alle Lebensmittel korrekt klassifizieren kann. Es wird offensichtlich, dass man ein mehrstufiges Regelsystem benötigt. Deshalb werden in dieser Stunde basierend auf der ersten Regel weitere Merkmale einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu erstellen. Je nachdem wie schnell die SuS arbeiten, können sie zwei- oder mehrstufige Entscheidungsbäume erstellen.

7 1 U.-Std. Entscheidungs-bäume mit neuen Daten testen Nachdem verschiedene Gruppen von SuS unterschiedliche Entscheidungsbäume erstellt haben, werden diese Bäume auf neue Lebensmittel angewendet, die die SuS auf Blankokarten selbst mitgebracht haben. Die selbst mitgebrachten Lebensmittel werden mit allen Bäumen klassifiziert. Dadurch wird offensichtlich, dass in den Entscheidungsbäumen auch Unsicherheiten stecken, da einige Lebensmittel falsch klassifiziert werden.

8 1 U.-Std. Automatisiert Entscheidungs-bäume mit dem Computer erstellen Um die Unsicherheiten in Entscheidungsbäumen systematisch weiter zu untersuchen, testet in dieser Stunde jede Gruppe ihren Entscheidungsbaum mit den 15 Testkarten, die im Katenspiel als gelbe Karten gekennzeichnet sind. So wird es möglich, die Performance der Entscheidungsbäume miteinander zu vergleichen.

9 1 U.-Std. Reflexion Wie wird mit Hilfe eines Computers ein Entscheidungsbaum erstellt? Anknüpfend an die letzten Stunden können Schülerinnen und Schüler in dieser Stunde einen Entscheidungsbaum zu den Lebensmitteldaten mit Hilfe eines Computers automatisiert erstellen lassen. Sie können dabei auch die Daten verändern und die Auswirkungen auf den Entscheidungsbaum beobachten. Abschließend wird noch einmal reflektiert, wie mit Hilfe des Computers aus Daten Entscheidungsbäume erstellt werden, welche Vor- und Nachteile dies hat und wo die SuS solche Entscheidungsmodelle in ihrem Alltag wiederfinden.