Data Science

Aus Unterrichtsmaterial
Wechseln zu:Navigation, Suche
Übersicht
Rolle2.png
Themenfeld Data Science
Autor Andyg
Editiert am 16.7.2021


Dies ist Baustein 1 von 2. Der zweite Baustein ist "Datenexploration mit CODAP".

Data Science (von englisch data „Daten“ und science „Wissenschaft“, im Deutschen auch Datenwissenschaft) bezeichnet generell die Extraktion von Wissen aus Daten. Innerhalb des interdisziplinären Wissenschaftsfeldes werden wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme verwendet, um sowohl aus strukturierten als auch aus unstrukturierten Daten Erkenntnisse, Muster und Schlüsse zu gewinnen. [1][2]

Curriculumsbezug

In Lehrplänen der Mathematik findet sich das Darstellen und Explorieren univariater und bivariater Daten, in Lehrplänen der Informatik wird die Unterscheidung von Daten und Information als wichtig angesehen.

Ablaufplan des Unterrichtsbausteins (Baustein 1)


Unterrichtseinheit Zeitumfang Inhalt
1 2 Schulstunden Einführung in das Thema „Big Data“ und „Data Science“

Erhebung von Schülervorstellungen zu

·         Big Data

·         Data Scientist

·         Daten und Informationen

·         Rolle von Big Data

2 1 Schulstunde Hinführung zum Lärmprojekt

·         Kennenlernen von Datenprofilen

·         Einführung in das Messinstrument SenseBox

3 3 Schulstunden Projektarbeitsphase:

Analyse, Modifikation, Visualisierung und Interpretation der Akustikdaten mit Hilfe eines vorbereiteten Jupyter-Notebooks

4 1 Schulstunde Abschluss des Datenprojektes

Sicherung und Reflexion der Projektergebnisse

Reflexion auf der Metaebene (Herausarbeitung des Models des Datenzyklus)

Inhaltliche Komponenten des ersten Bausteins

In diesem Abschnitt werden zunächst die Hauptkomponenten des Bausteins genauer beschrieben. Als erstes soll das Messinstrument, mit welchem die Lärmdaten gesammelt wurden, genauer beschrieben werden. Anschließend wird beschrieben wie die produzierten Daten aussehen und wie diese verarbeitet werden können. Als letztes soll das eingesetzte Jupyter-Notebook dargestellt werden. Dies dient im Baustein der Verarbeitung und Visualisierung der Daten.


Messinstrument: SenseBox

Es wurden von dem Vorbild der SenseBox aus Münster (https://sensebox.de/) folgende Elemente genutzt:

Abbildung 3: Aufbau des im Projektkurs genutzten Messinstruments


Wie in Abbildung 3 zu erkennen ist, besteht das Messinstrument aus vier wesentlichen Elementen:

·        Adruino Uno

·        Grove Sound Sensor

·        SD Karte

·        Schutzbox

Das Arduino UNO ist ein Open-Source-Mikrocontroller-Board auf Basis des ATmega328P-Mikrocontrollers und wurde von Arduino.cc entwickelt. Die Karte ist mit digitalen und analogen Ein-/Ausgangspins ausgestattet, die an verschiedene Erweiterungskarten (Shields) und andere Schaltungen angeschlossen werden können.

Der Grove Sound Sensor ist ein einfaches Mikrofon, welches Lautstärke der Umgebung aufnehmen kann. Konkret wird die Stromspannung gemessen. Dieser Wert wird in einen Bereich zwischen 0 und 1024 normiert.

Die SD Karte dient der Speicherung der gesammelten Akustikdaten.

Die Box schützt die SenseBox gegen äußere Beeinträchtigungen wie Regen oder Wind – hierzu wurde eine einfache Kabelbox aus dem Baumarkt genutzt.

Erklären der Akustikdaten

Der Grove Sound Sensor ist ein einfaches Mikrofon, welches Lautstärke der Umgebung aufnehmen kann. Konkret wird die Stromspannung gemessen und die elektrische Energie bestimmt. Dieser Wert wird in einen Wert zwischen 0 und 1024 umgerechnet.

Hierzu eine Erklärung. Seien die Messdaten des Grove-Sound Sensors die folgenden:

               x1   x2   x3   x4 ...  xn xn+1 ...  xm

Um die Daten zu verarbeiten und zu glätten (also das Rauschen herauszurechnen), betrachten wir immer Blöcke von Messdaten, also die Energie pro Block.

Zum Beispiel folgendes „SampleWindow“ von 300 Werten:

               x1   x2   x3   x4 ...  x300  x300+1 ...  xn

In dem Programm beträgt das SampleWindow circa 50 Millisekunden und die Anzahl der gesammelten Messwerte beträgt jedes Mal 300 Messdaten, wobei xi Werte aus [0,1024] annimmt.

Im Rahmen des Projekts sind wir an konkreten Lärmdaten interessiert. Somit ist unser Ziel, die Messdaten (also insgesamt 300 Messwerte aus einem SampleWindow) auf einen Wert in dB umzurechnen. Diese Umrechnung (kombiniert mit einer ersten Glättung) umfasst drei Aspekte:


Aspekt 1: Glättung der einzelnen Messwerte

Um das Rauschen in einem einzelnen Messwert abzuziehen, berechnen wir das arithmetische Mittel der Messwerte und subtrahieren dieses. Konkret wird hier zwischen einem lokalen Mittelwert und dem globalen unterschieden. Zu Beginn der Berechnung ist der globale Mittelwert 0 und wird im Laufe der gesamten Messung durch die folgende Formel approximiert:

GlobalMean = ß * GlobalMean + (1 - ß) * LokalerMittelwert

Der lokale Mittelwert wird in jedem SampleWindow durch die folgende Formel berechnet:

LokalerMittelwert = ( SUMME(xi) / 300 )

Somit wird ein einzelner Messwert folgendermaßen geglättet:

messwert = messwert - GlobalMean


Aspekt 2: Glättung der Energie in einem Block

Die Energie wird ebenfalls durch die zuvor genutzte Formel approximiert:

Glättung der Energie in einem Block

Zu beachten ist hier, dass (xi) ̇ der bereits geglättete Wert aus Aspekt 1 ist. Hier werden nicht mehr die Rohdaten des Sound Sensors genutzt.


Aspekt 3: Umrechnung der Messdaten in dB

Die Umrechnung gelingt durch die folgende Formel:

Umrechnung der Messdaten in dB
Umrechnung der Messdaten in dB

Falls die Werte der Energie kleiner als 0,001 sind, so scheint es sich hier um Messfehler (aufgrund der geringen Leistung des Sensors) zu handeln. Somit werden alle Werte mit auf 0 dB gesetzt.

Die Daten, die auf der SD Karte der jeweiligen SenseBox gespeichert werden, werden um die jeweilige Messzeit (in Sekunden nach Start der Box) ergänzt. So haben die Daten folgendes Format: „Zeit;Messwert \n“

Das konkrete Programm zu Berechnung der jeweiligen db-Werte und die zugehörigen Zeitstempel findet sich im Ordner zu dieser Dokumentation.

Jupyter Notebook

Für das Auswerten der Akustikdaten wurde für Baustein 1 ein Jupyter-Notebook vorbereitet, welches die Analyse, Modifikation, Visualisierung und Interpretation der Daten unterstützen und leiten sollte.

Da für die Lernenden sowohl der Umgang mit einem Juypter-Notebook als auch die Programmiersprache Python neu waren, wurde zunächst in einem kurzen Vortag das Juypter-Notebook und seine Funktionsweise erklärt. Anschließend wurde Hilfematerial mit Erklärungen und kleinen Beispielen für den Einstieg mit Python bereitgestellt. Anschließend sollte die Projektphase eigenständig mit dem vorbereiteten Juypter-Notebook geschehen.

Jupyter Notebooks wurden ursprünglich entwickelt, um den Arbeitsablauf des wissenschaftlichen Rechnens und der Analyse von Daten zu unterstützen. Das Projekt Jupyter entstand aus dem IPython-Projekt und versucht, Jupyter Notebooks einem größeren Anwenderkreis zugänglich zu machen. Jupyter verfolgt das Ziel, Open-Source-Tools für interaktives wissenschaftliches Rechnen und Datenwissenschaft in Forschung, Bildung und Industrie zu entwickeln, wobei der Schwerpunkt auf Benutzerfreundlichkeit, Kollaboration und Reproduzierbarkeit liegt. Ein Jupyter Notebook besteht aus Zellen, die individuell modifiziert und ausgeführt werden können. Dabei wird zwischen Markdown-Zellen und Code-Zellen unterschieden. Folgende Abbildung 4 zeigt den Aufbau eines Jupyter Notebooks:

Abbildung 4: Aufbau eines Jupyter Notebooks

Markdown-Zellen können unter anderem Text-Elemente, Grafiken und Videos enthalten. Diese wurden bei unserem Notebook für die Aufgaben Beschreibung und für Hinweise / Tipps genutzt. Auch wurden Grafiken verwendet, um zum Beispiel die Transformation von den Dateiformaten zu visualisieren.  Code-Zellen hingegen beinhalten den Programmcode, wobei die Ausgabe jeder Code-Zelle direkt darunter erscheint und als Teil des Dokuments gespeichert wird. Die Ausgabe kann dabei neben Text auch umfangreiche Elemente wie Diagramme, mathematische Gleichungen oder interaktive Elemente und Grafiken enthalten.

Der technische Zugriff auf Jupyter Notebooks funktioniert über einen Webbrowser. Sie können lokal über eine Desktop Anwendung (z.B. Anaconda) oder auf einem Remote Server ausgeführt werden.

In Abbildung 5 ist die Serverarchitektur grafisch dargestellt, welche wir bei der Durchführung des Projektkurses genutzt haben. Den Schülerinnen und Schülern musste nur noch Zugriff auf unseren Server gewährt werden. Anschließend konnten sie die Jupyter Notebooks in einem Webbrowser bearbeiten.

Abbildung 4.1: Technische Umsetzung Jupyter Hub (Grafik und technische Realisierung von Andreas Gödecke)

Inhaltlich lässt sich das verwendete Jupyter-Notebook in drei Abschnitte unterteilen:

·        Daten einlesen

·        Datenmodifikation und -verfeinerung

·        Datenvisualisierung

·        Überblick

Abschnitt 1: Daten einlesen

Das Jupyter-Notebook startet mit einer kurzen Einführung in das Lärmprojekt: Die Fragestellung und die vorliegenden Daten werden beschrieben und detailliert erklärt. Je nach Vorkenntnis und Interessenstand der Lerngruppe gibt es weitere Möglichkeiten, den Detailgrad der Informationen (zum Beispiel über die konkrete Berechnung der dB-Werte) zu modifizieren. Ein Teil der Beschreibung der Aufgabenstellung und der Lärmdaten findet sich in Abbildung 5.

Abbildung 5: Beschreibung des Lärmprojekts und der Lärmdaten


Anschließend werden Programmbausteine zum Einlesen einer CSV-Datei und die Speicherung einzelner Daten in dem Datenformat DataFrame detailliert beschrieben. Die Lernenden bekommen so alle notwendigen Informationen, um die Daten der verschiedenen Standorte einzulesen und abzuspeichern.

Abbildung 6: Das Dateneinlesen im Jupyter Notebook


Abschnitt 2: Datenmodifikation und -verfeinerung

Im Fokus dieses Abschnittes steht die Umrechnung des Zeitstempels in konkrete Uhrzeitangaben an den jeweiligen Tagen. Die Lernenden müssen ausgehend von der Startzeit der Messung den jeweiligen Zeitpunkt des Messwertes berechnen und diesen an den jeweiligen Messwert anhängen. Die Lösung kann im Juypter-Notebook ungefähr wie in Abbildung 7 aussehen:

Abbildung 7: Umrechnung des Zeitstempels


Abschnitt 3: Datenvisualisierung

Mit Hilfe der Bibliothek Matplotlib (https://matplotlib.org/api/pyplot_api.html) lassen sich die DataFrames, in denen die entsprechenden Lärmprofile mit jeweiligen Zeitstempeln gespeichert sind, wie in Abbildung 8 visualisieren.

Abbildung 8: Visualisierung eines Lärmprofils

Jedoch ist hier die Schwierigkeit, dass alle Daten des Datensatzes visualisiert werden. Spannender für eine Interpretation der Daten wäre eine Darstellung der Lärmdaten pro Tag. Durch ein paar Befehle können die Lernenden sich jeweilige Graphen pro Tag ausgeben lassen wie in Abbildung 9.

Abbildung 9: Darstellung der Lärmdaten für einen Tag


Wie bereits zu Beginn erklärt, wurden durch die SenseBox mehrere Messdaten pro Sekunde gemessen und gespeichert. Für die Interpretation der Daten ist die hohe Dichte der Daten jedoch eher hinderlich. Somit ist es sinnvoll, einzelne Daten zusammenzufassen und nur einen Messwert pro Minute/pro 5 Minuten/... zu betrachten. Die Zusammenfassung der Daten aus Abbildung 9 für jeweils eine Minute lässt den Graphen wie in Abbildung 10 erscheinen:

Abbildung 10: Zusammenfassung der Lärmdaten pro Minute


Die Lernenden haben mit Hilfe dieser strukturierten Hinführung die Möglichkeit die Daten genau zu analysieren und Hypothesen für eine mögliche Zuordnung zu generieren.

Abschnitt: Überblick

Im letzten Abschnitt werden die gelernten Befehle und Methoden noch einmal zusammengefasst und kurz beschrieben (Abbildung 11). Für die weiteren Bausteine, in denen Python und Jupyter-Notebooks immer wieder eingesetzt werden, dient dieser Abschnitt als Nachschlagewerk.

Abbildung 11: Überblick der verwendeten Befehle/Methoden in Baustein 1


Die Beschreibung des Jupyter-Notebooks und der einzelnen inhaltlichen Abschnitte stellt nur einen kleinen Einblick in die Datenanalyse dar.


Strukturierung des Unterrichts in Baustein 1

Im Folgenden wird der Ablauf der einzelnen Unterrichtseinheiten von Baustein 1 (Modul 1) beschrieben. Dabei werden zunächst die Lernziele und das Design dargestellt (inklusive der Aktivitäten der jeweiligen Unterrichtseinheit), der reale Ablaufplan wird vorgestellt und die jeweilige Unterrichtseinheit wird unter der Perspektive „Lessons learned“ reflektiert.

Ein kompletter Foliensatz zu den einzelnen Unterrichtseinheiten für die Unterrichtsgestaltung sowie Arbeitsblätter finden sich im Ordner zu dieser Dokumentation.

Phase 1: Einführung in das Thema „Big Data und Data Science“

Umfang: 2 Schulstunden

Lernziele der ersten Phase

In Phase 1 sollen die Schülerinnen und Schüler

·        die Möglichkeit bekommen, ihre Vorstellung zu den Themen Big Data und Data Science zu formulieren und sich darüber auszutauschen,

·        einen ersten Datensatz (Big Data, Lärmdaten) explorieren und analysieren

Design der ersten Phase

Diese Phase stellt den Einstieg in das gesamte Projekt dar, deshalb sollen zunächst die Vorstellungen der Lernenden erhoben werden, um daran anknüpfen zu können. Hierfür bekommen die Lernenden die Chance in Einzelarbeit sich zu vier Themenkomplexen Gedanken zu machen und diese stichpunktartig auf einem hierfür vorbereiteten Arbeitsblatt festzuhalten. Die vier Themen sind:

·        Was ist Big Data?

·        Was ist ein Data Scientist?

·        Was sind Daten? Was sind Informationen?

·        Was ist die Rolle von Big Data?

Anschließend werden durch ein Gruppenmixverfahren sich ständig ändernder Gruppen (eine Gruppe pro Thema) gebildet, in denen sich die Lernenden über ihre individuellen Vorstellungen austauschen. Die jeweiligen Ergebnisse werden auf einem Plakat festgehalten, durch die nächste Gruppe ergänzt und anschließend werden alle vier Plakate im Plenum diskutiert. Die Schülerinnen und Schüler stellen ihre Ergebnisse vor und mögliche Unklarheiten werden diskutiert. An dieser Stelle ist es wichtig, dass unterschiedliche oder auch zum Teil sich widersprechende Vorstellungen nicht komplett nivelliert werden müssen. Auf die Ergebnisse dieser Phase soll am Ende des Bausteins noch einmal eingegangen werden. Aspekte dieser vier Themenkomplexe spielen im weiteren Verlauf immer wieder eine Rolle und so sollen die Vorstellungen sukzessive während des gesamten Projektes immer wieder abgeglichen, modifiziert oder korrigiert werden.

Dennoch sollen am Ende dieser Diskussion vom Lehrenden die Begrifflichkeiten Daten, Informationen, Big Data und Data Science diskutiert werden (vgl. Abbildung 12). Dies sind wesentliche Begriffe der kommenden Einheiten und es sollte Klarheit bestehen, was unter diesen verstanden wird. Jedoch ist deutlich zu machen, dass in verschiedenen Kontexten zum Teil unterschiedliche Vorstellungen zu den Begriffen existieren und so generell kein einheitlicher Konsens besteht, was und wie diese Begriffe definiert oder verwendet werden. 

Abbildung 12: Folie zur Begriffsklärung


In dieser Datei [3]befindet sich der Foliensatz für diese Unterrichtsphase.


Am Ende dieser ersten Phase sollen die Vorstellungen an einem konkreten Beispiel „GoogleTrends“ gefestigt werden. Die Schülerinnen und Schüler sollen GoogleTrends am Beispiel des Suchbegriffs „Libori“ (berühmtes Volksfest der Stadt Paderborn) explorieren. Hierfür sollen sie in Partnerarbeit die Internetseite (https://trends.google.de/trends/explore?q=Libori&geo=DE) erkunden und sich zu den Fragen aus Abbildung 13 austauschen.

Abbildung 13: Arbeitsauftrag zu Google Trends Explorationen

In einem abschließenden Plenumsgespräch soll dann die Grafik aus Abbildung 14 diskutiert und die Ergebnisse der Partnerarbeit gesichert werden.

Abbildung 14: Grafik zum Suchbegriff Libori bei GoogleTrends


Ausgehend von der Frage „Was bedeutet der Datenpunkt (29. Juli – 4. August 2018; 100) soll die Diskussion im Plenum geöffnet werden. Ergebnisse dieser Diskussionen sollten die folgenden sein:

·        Aggregation von Intervallen

·        Lineares Verbinden von Punkten ist inhaltlich nicht sinnvoll (optische Bedeutung, um Entwicklung hervorzuheben – Zwischenwerte sind einzeln nicht interpretierbar)

·        Normierung auf 100%

·        Keine Darstellung von Rohdaten

·        Basisinformation vs. Informationen durch den relativen Vergleich einzelner Daten (vom lokalen zum globalen Blick)

Dieser Einschub der Exploration und Diskussion von GoogleTrends dient mehreren Zielen. Zum einen sollen die zuvor beschriebenen Vorstellungen und Begrifflichkeiten in ein reales Beispiel übertragen werden. Die Schülerinnen und Schüler haben so die Chance, Daten und Informationen im Kontext zu verstehen. Zum anderen dient diese Phase auch der Vorbereitung für die kommenden Einheiten. Die Kompetenz des Hinterfragens und Analysierens von Statistiken soll angeregt werden. Dies geschieht mit Hilfe von GoogleTrends und dem Suchbegriff Libori an einem alltagsnahen Big Data Beispiel.

Je nach Zeitplanung kann als Abschluss dieser Phase noch eine Anwendung des Gelernten durchgeführt werden. Hierfür teilt der Lehrende zum einen unbeschriftete GoogleTrends Grafiken und zum anderen Begriffe für Suchanfragen aus. Die Lernenden sollen dann die Grafiken den jeweiligen Suchbegriffen zuordnen. Hier sollen die Grafiken analysiert werden und mögliche Peaks in einem Sachzusammenhang interpretiert werden. Bei den Begriffen sollen erwartete Grafiken diskutiert werden, sodass aus den bestehenden Grafiken die richtige gewählt werden kann. Durch diese Phase kann das Gelernte angewandt und spielerisch gesichert werden. Besonders der Prozess des Hypothesengenerierens und Interpretierens wird hier erfahrbar. Abbildung 15 zeigt zwei Beispiele für Suchbegriff und zugehöriger Grafik.

Abbildung 15: Zuordnungen von Grafiken und Suchbegriffen von GoogleTrends


Tabellarischer Ablauf der ersten Phase

Abschnitt Inhalt Methode Material
Begrüßung

15 min

·         Vorstellen der Lehrenden

·         Vorstellen der Räumlichkeiten

·         Vorstellen des Kurses

·         Organisation des Kurses (Moodle/Email)

Einstieg

45 min

Erhebung der Vorstellung zu vier Begrifflichkeiten

·         Einzelarbeit: Notieren der individuellen Vorstellungen (5 min)

·         Gruppenarbeit: Pro Plakat werden Ergebnisse der Einzelarbeit besprochen und die wichtigsten Punkte auf dem Plakat festgehalten (5 min pro Plakat)

·         Plenum: Besprechung der Plakate und Sicherung der Ergebnisse (15 min)

Einzelarbeit: Brainstorming

Gruppenarbeit: Clustering

Einzelarbeit: Arbeitsblatt 1.1

Gruppenarbeit: Plakate

Erarbeitung

10 min

Exploration von GoogleTrends am Beispiel von „Libori“ Partnerarbeit Arbeitsblatt 1.2

Computer

Sicherung

10 min

Erkärung der Grafik von GoogleTrends Plenum Beamer

GoogleTrends

Anwendung

15 min

Zuordnen von weiteren GoogleTrends Grafiken und Suchbegriffen Gruppenarbeit
Hausaufgabe

Reflexion/Lessons learned der ersten Phase

Eine wesentliche Hauptbotschaft dieser Unterrichtseinheit (in Bezug auf Baustein 1) ist, dass die Phase der Erhebung der Vorstellungen sehr lehrreich für Lehrende und Lernende war. Sie diente dem gemeinsamen Einstieg und ermöglichte den intensiven Austausch über Vorstellungen und Erfahrungen. Die Schülerinnen und Schüler brachten viele verschiedene und anregende Ideen und Vorstellungen mit, die differenziert besprochen und diskutiert wurden. Die Kleingruppen haben die wesentlichen Aspekte eigenständig auf den Plakaten festgehalten und diskutiert. Die Methode des Clusterings in verschiedenen Gruppen zeigte sich als besonders hilfreich in dieser Phase. Eine Sicherung dieser Ergebnisse war notwendig, jedoch ist eine reine Besprechung ohne tatsächliche tiefgreifende Diskussion nicht unbedingt empfehlenswert. Alternativ sollte hier auf eine Sicherung im Plenum ggf. verzichtet werden. Die Definitionen von Daten, Informationen, Big Data und Data Science erwiesen sich als hilfreich. Auch die gewählten Definitionen bewiesen in den folgenden Stunden ihre Tragfähigkeit.

Die Thematisierung von GoogleTrends zeigte sich als spannend und sinnvoll. Die Lernenden hatten so die Chance, direkt zu Beginn mit wirklichen „Big Data“ Anwendungen in Berührungen zu treten und erste Erfahrungen zu sammeln. Die Schülerinnen und Schüler waren in der Lage, die Grafik zu explorieren und die erwarteten Ziele eigenständig in der Plenumsdiskussion anzubringen. Wünschenswert wäre hier eine tiefergehende Betrachtung der Daten gewesen. GoogleTrends bietet die Möglichkeit, die Daten herunterzuladen und weiter zu analysieren. Auch die Tatsache, dass nur die aggregierten Daten und nicht die Rohdaten zur Verfügung stehen, könnte diskutiert werden. Dies würde die Möglichkeit einer differenzierten Beleuchtung des Beispiels geben. Aufgrund der Zeitplanung wurde sich in dieser Durchführung jedoch gegen eine weitere, tiefergehende Auseinandersetzung entschieden. In der Durchführung war jedoch Potential für solch eine Phase zu erkennen.


Phase 2: Hinführung zum Lärmprojekt

Umfang: 1 Schulstunde

Lernziele der zweiten Phase

In der zweiten Unterrichtseinheit sollen die Schülerinnen und Schüler

·        eine Erwartungshaltung hinsichtlich Lärmprofile und ihre Darstellung aufbauen und diese diskutieren,

·        erste Visualisierungen von Lärmprofilen erzeugen, diskutieren, analysieren und bewerten,

·        beispielhaft erfahren, wie aus Visualisierungen Hypothesen generiert werden können und schlussendlich Schlussfolgerungen formuliert werden,

·        das Messinstrument „SenseBox“ kennenlernen.

Design der zweiten Phase

Die zweite Phase dient dem Einstieg in das Lärmprojektes. Inhaltlich stehen Datensätze von verschiedenen Lärmprofilen im Fokus des Projekts, so dass sich diesen inhaltlich in der Phase genähert werden soll.

Ausgehend von den Grafiken von GoogleTrends der ersten Phase sollen nun vermutete charakteristische Lärmprofile an einem aussagekräftigen Ort in Paderborn in Einzelarbeit gezeichnet werden. Bei den Grafiken von GoogleTrends haben die Lernenden bereits erste Charakteristika von Grafiken kennengelernt. In einigen Punkten ähneln sich die Grafiken von GoogleTrends und die der Lärmprofile, sodass diese auf dem Arbeitsblatt aus Abbildung 16 noch einmal wiederholt werden:

Abbildung 16: Arbeitsblatt zum Skizzieren von eigenen Lärmprofilen


Hinweis: Auf der x-Achse wird die jeweilige Tageszeit angegeben. Auf der y-Achse soll die relative Lautstärke, in Anlehnung an die Darstellung bei Google Trends, eingezeichnet werden. Hier soll die 100% den lautesten Zeitpunkt darstellen. Der Wert 50 bedeutet, dass der Lärm leiser (aber nicht notwendigerweise halb so laut) ist und der Wert 0 bedeutet, dass für diesen Zeitpunkt keine Lautstärkedaten produziert wurden.

Anschließend soll das Arbeitsblatt geknickt werden, sodass nur noch die Grafik zu erkennen ist. Diese Grafik soll dann durch den Sitznachbar analysiert werden und einem Ort zugeordnet werden. Die Schülerinnen und Schüler lernen so die Interpretation von Grafiken kennen. Durch den Dozenten wird darauf geachtet, dass Lärmprofile nur im relativen Vergleich über die gesamte Verteilung betrachtet werden. Der Vergleich zweier einzelner Datenpunkte verschiedener Grafiken ergibt aufgrund der relativen Lautstärkeangabe keinen Sinn und führt möglicherweise zu Missverständnissen.

Dieser Abschnitt dient der Annäherung der Thematik „Lärmprofile in Paderborn“. Die Lernenden entwickeln eine Erwartungshaltung bzgl. verschiedener Lärmprofile und lernen erste Interpretations- und Analyseprozesse spielerisch kennen. Der Lehrende kann diese Zielsetzung transparent machen und somit die nächste Phase einführen: In dieser sollen die vermuteten Lärmprofile durch tatsächlich aufgenommene Datenprofile ersetzt werden. Aufgabe ist es nun, genau wie in dieser Phase, sie zu analysieren und zuzuordnen.

Abschließend sollen die Schülerinnen und Schüler durch den Lehrenden dargestellt bekommen, wie die „tatsächlichen Datenprofile“ aufgenommen wurden. Für die Vorbereitung des Unterrichts wurden bereits im Vorfeld fünf SenseBoxen an unterschiedlichen Orten in Paderborn verteilt. Somit stehen bereits Lärmprofile für die kommenden Unterrichtsstunden zur Verfügung. Die Schülerinnen und Schüler sollen jedoch nachvollziehen, woher die Daten kommen, wie sie aufgenommen wurden und wie sie konkret berechnet und gespeichert wurden. Hierfür werden mit Hilfe einer Dokumentenkamera die einzelnen Komponenten der nachgebauten SenseBox (Abbildung 3) vorgestellt und so sukzessive das Messinstrument zusammengebaut. Zu nennende Komponenten sind:

·        Adruino Uno

·        Grove Sound Sensor

·        SD Karte

·        Schutzbox

Anschließend wird das Programm zur Datensammlung und Glättung abstrakt vorgestellt. Die einzelnen Schritte der Erhebung der Daten von dem Sensor zum gespeicherten dB-Wert wird mit Hilfe einer Flipchart wie in Abbildung 17 durch den Dozenten erklärt.

Abbildung 17: Erklärung der Datenerhebung mit der SenseBox


Bei Fragen hinsichtlich weiterer Details steht den Schülerinnen und Schüler der kommentierte Quelltext in der späteren Unterrichtsphase zur Verfügung (vgl. Anhang). Fragen wie

·        Was für Daten werden gesammelt?

·        Wie sehen die Daten aus?

·        Was heißt Lautstärke?

·        Was sind dB-Werte?

·        Wie werden die Zeitstempel erfasst?

sollten durch den Lehrenden in einem Vortrag geklärt werden. Zur Demonstration kann abschließend ein kleines Experiment durchgeführt werden. Hierfür wird das Programm gestartet und unterschiedlich laute Geräusche werden erzeugt. Im Plenum können dann die live ausgegeben Daten diskutiert werden. Dies unterstützt die Schülerinnen und Schüler später bei der Einschätzung der Daten in Hinblick auf die Interpretation der Lautstärke. Als didaktische Reserve wäre es möglich, dass die Lernenden jeweils in Kleingruppen eine SenseBox ausgehändigt bekommen und so individuell den Quelltext analysieren oder durch eigene Ideen das Programm testen können.

Tabellarischer Ablauf der zweiten Phase

Abschnitt Inhalt Methode Material
Überleitung

15 min

Diskussion: Wie laut ist es zu unterschiedlichen Tageszeiten an verschiedenen Orten in Paderborn?

Einzelarbeit: Erstellung des Graphen und anschließend wechselseitige Interpretation des Graphen (ggf. einige Graphen im Plenum besprechen)

Einzelarbeit

Partnerarbeit

Arbeitsblatt 1.3
Einführung

20 min

Vorstellung der SenseBox

·         Einzelne Komponenten werden präsentiert & eine fertige Box wird zusammengebaut.

·         Das Programm zur Sammlung von Akustikdaten wird gestartet und live-vorgeführt.

·         (Analyse des Programms)

·         Was für Daten werden gesammelt? Wie sehen die aus?

·         Was heißt „Lautstärke“?

·         Klatsch-Experiment: Wie sehen die Daten aus? Wie verändern sich die im Gegensatz zu realen Akustikdaten?

Ziel: Wir fokussieren nicht auf absolute Zahlen, sondern auf den relativen Vergleich der Daten im einzelnen Datensatz.

Ergänzung: SuS können die Box selber testen und Experimente durchführen.

Lehrervortrag Dokumentenkamera

SenseBox

Beamer

Programm

Hausaufgabe

Reflexion/Lessons learned zur zweiten Phase

Eine wesentliche Hauptbotschaft der zweiten Phase (in Bezug auf Baustein 1) ist, dass die eigene Anfertigung von Lärmprofilen mit vermuteten charakteristischen Merkmalen verschiedener Standorte hilfreich war, um eine Erwartungshaltung bei den Schülerinnen und Schülern zu erzeugen. In dieser Phase wurden zum einen erste Hypothesen und Ideen für eine sinnvolle Grafik und zum anderen mögliche Parameter für eine begründete Zuordnung eines Lärmprofil zu einem Standort diskutiert. Im Hinblick auf das folgende Lärmprojekt sollte jedoch die Wahl einer relativen y-Achse neu überdacht werden. Im Lärmprojekt sollen dB-Werte genutzt werden, um ein Lärmprofil zu erstellen. Somit ist der direkte Vergleich zu der relativen Skala den Lernenden nicht klar geworden. Ursprüngliche Intention war, dass die dB-Werte im Datenprojekt approximierte Werte darstellen und generell dB-Werte nicht direkt vergleichbar sind. Dies wurde in der kurzen Unterrichtsphase jedoch nicht deutlich, sodass hier eine direkte Wahl einer dB-Skala hilfreich gewesen wäre. Auch sollte bei der Arbeitsblatterstellung darauf geachtet werden, dass bei den selbstangefertigten Grafiken auch die zur Auswahl stehenden Orte sichtbar sind. Nach dem Knicken des Arbeitsblattes waren die Standorte nicht mehr sichtbar und die Lernenden hatten Schwierigkeiten sich zu merken, welche Standorte zur Auswahl standen.

Bei der Erklärung der SenseBox in dem Lehrervortrag erwies sich das angefertigte Plakat zur Erklärung der Erzeugung der dB-Werte als hilfreich. Die Schülerinnen und Schüler konnten den Kerngedanke gut nachvollziehen und waren so in der Lage, die Werte der SenseBox im Sachzusammenhang zu interpretieren.

Phase 3: Projektarbeitsphase

Umfang: 3 Schulstunden

Lernziele der dritten Phase

In der dritten Unterrichtsphase3 sollen die Schülerinnen und Schüler

·        die Lärmdaten der SenseBox analysieren, modifizieren, visualisieren und interpretieren,

·        das Arbeiten mit dem Jupyter Notebook erlernen,

·        die Programmiersprache Python kennenlernen und (geleitet) mit dieser die Datenverarbeitung durchführen,

·        erfahren, wie man Daten bereinigen und aufbereiten kann,

·        lernen, wie Domain-Wissen in die Dateninterpretation einfließt.

Design der dritten Phase

In der dritten Unterrichtsphase schlüpfen die Schülerinnen und Schüler in die Rolle eines Datendetektives. Hierfür wurden im Vorfeld bereits an fünf Standorten in Paderborn SenseBoxen aufgestellt und Daten gesammelt. In Abbildung 18 sind die Standorte auf einer Karte von GoogleMaps markiert.

Abbildung 18: Stadtkarte von Paderborn mit markierten Standorten, an denen Lärmdaten gesammelt wurden


Standort A ist die Riemekestraße 104b. Die Box stand im Erdgeschoss auf der Terrasse einer Einliegerwohnung. Der Garten der Wohnung grenzt an einem Fußweg und dem Schulhof der zwei Grundschulen Lutherschule und Riemeke-Theodor. Die Box wurde neben der Terrassentür platziert, so dass Geräusche durch das Öffnen und Schließen der Tür entstehen konnten, sowie durch Aufenthalte auf der Terrasse. Durch eine Katze des Haushalts konnte es des Weiteren auch zu Geräuschen zu ungewöhnlichen Zeiten kommen. Die Box hat Daten von Montag, den 02.07.2018 ab 20 Uhr bis den darauffolgenden Montag, den 09.07.2018 um 21:50 Uhr aufgenommen.

Der Standort B kennzeichnet die Marienstraße 9. Hier wurde die Box in der vierten Etage auf der Fensterbank in Richtung Königsplatz und Zentralstation aufgestellt. Es befand sich zum Zeitraum der Datenmessung direkt eine Baustelle unter der Wohnung, die von Montag bis Freitag für Lärm sorgte. Generell sind in dieser Paderborner Gegend viele Menschen unterwegs, da der Königsplatz zur Innenstadt gehört. Des Weiteren muss beachtet werden, dass sich der gesamte Königsplatz zur Zeit der Datenaufnahme ebenfalls in einem Umbau befand. Die Daten wurden von Donnerstag, den 26.07.2018 ab 23:32 Uhr bis Montag den 06.08.2018 um 0:18 Uhr aufgenommen. Zu beachten ist des Weiteren, dass im Zeitraum vom 26. Juli bis 5. August das Liborifest in Paderborn stattgefunden hat.

Standort C markiert den Liboriberg 23. Hier stand die Box im vierten Obergeschoss auf dem Balkon mit Ausrichtung zu den Schienen. Die Box befand sich außen neben der Balkontür. Das Haus befindet sich in der Kernstadt Paderborns und wird von einer dreispurigen Straße (Liboriberg/Innerer Ring) und den Gleisen eingeschlossen. Die Gleise führen zum Paderborner HBF und sind somit regelmäßig von Zügen befahren. Die Straße ist eine viel befahrene Straße, welche direkt zur Innenstadt Paderborn führt bzw. zur Innenstadt gehört. Die Datenmessung fand von Samstag, den 06.08.2018 ab 11 Uhr bis Sonntag, den 07.08.2018 4um :51 Uhr statt. Auch hier sollte das Liborifest bei der Analyse der Daten beachtet werden.

Standort D kennzeichnet das IMT Service Büro der Universität Paderborn (Warburger Straße 100, Unigebäude N5.344). Die Box stand auf dem Schreibtisch im Help-Deskbereich. Im IMT Service Büro werden Fragen rund um Informations- und Medientechnologien beantwortet. Hierfür stehen Mitarbeiter von Montag bis Freitag von 8.30-15.30 Uhr zur Verfügung. Die Daten wurden von Mittwoch, den 27.06.2018 ab 16 Uhr bis Freitag, den 06.07.2018 um 14:20 Uhr aufgenommen.

Der letzte Standort E stellt eine Tankstelle an der Warburger Straße 105 dar. Die Box stand direkt beim Schalter der Tankstelle, welche von Montag bis Samstag von 6 bis 23 Uhr geöffnet hat. An Sonn- und Feiertagen von 8 bis 23 Uhr. Da die Box direkt beim Schalter stand, hat sie dB-Werte bei den Kundengesprächen und dem Kassieren aufgenommen. Die Box hat von Mittwoch, den 22.08.2018 ab 12:30 Uhr bis Freitag den 24.08.2018 um 15:56 Uhr Daten aufgenommen.

Tabelle 2 zeigt einen Überblick über die Datensätze und die jeweiligen Standorte.

Tabelle 2: Standorte der Senseboxen

Standort Ort Größe Beginn der Messung Ende der Messung
A Riemekestr. 104b 111,9 MB Montag (2.7.18) 2000 Uhr Montag (9.7.18) 2150 Uhr
B Marienstraße 9 141,3 MB Donnerstag (26. 7.18) 2332 Uhr Montag (6. 8.18) 0018 Uhr
C Liboriberg 23 16,4 MB Samstag (6.8.18) 1100 Uhr Sonntag (7.8.18) 451 Uhr
D IMT Service 132,8 MB Mittwoch (27.6.18)  1600 Uhr Freitag (6.7.18) 1420 Uhr
E Tankstelle 42,1 MB Mittwoch (22.8.18)  1230 Uhr Freitag (24.8.18) 1556 Uhr

Da die Datensätze unterschiedliche Zeitfenster aufgenommen haben, sind die Datensätze unterschiedlich groß. Es ist somit darauf zu achten, dass den Schülerinnen und Schülern nur die Anfangszeiten der Messungen mittgeteilt werden. Ansonsten könnte man über die Größe der Dateien die Zuordnung vornehmen und müsste nicht die Daten selber analysieren. Die unterschiedliche Messdauer resultiert aus der Tatsache, dass die Datenmessung an den verschiedenen Orten nicht reibungslos stattgefunden hat und sie an einigen Standorten frühzeitig unterbrochen wurde.

Zu Beginn der Unterrichtseinheit soll noch einmal wiederholt werden, wie mit der SenseBox Daten erhoben werden und wie diese Daten aussehen. Anschließend soll durch den Lehrenden die zuvor geschehene Datenerhebung erklärt werden. Auch die Standorte sollen kurz in einem Vortrag vorgestellt werden. Die zuvor beschriebenen Informationen bekommen die Schülerinnen und Schüler in Form von kleinen Steckbriefen ausgehändigt. Abbildung 19: Steckbrief des Standorts A zeigt den Steckbrief zu Standort A. Dieser und die weiteren Steckbriefe befinden sich als Dateien im zugehörigen Ordner.


Abbildung 19: Steckbrief des Standorts A


Aufgabe der Lernenden ist es nun, die Datensätze (1) bis (5) zu den Standorten (A) – (B) zuzuordnen. Welcher Datensatz gehört zu welchem Standort? Neben den Steckbriefen zu den Standorten soll der Arbeitsauftrag für die Datenanalyse ebenfalls in Form eines Aufgabenblatts ausgeteilt werden. Abbildung 20 zeigt die ausformulierten Arbeitsaufträge für die Schülerinnen und Schüler.

Abbildung 20: Arbeitsauftrag zur Datenanalyse im Lärmprojekt


Die Lösung für die Zuordnung kann Tabelle 3 entnommen werden.

Tabelle 3: Zuordnung der Lärmdatensätze zu den Standorten

Standort Ort Datensatz
A Riemekestr. 104b 1
B Marienstraße 9 3
C Liboriberg 23 5
D IMT Service 2
E Tankstelle 4

Nach der Einführung durch den Lehrenden und der Verteilung der Materialien soll eine lange Arbeitsphase von 120 Minuten erfolgen. In dieser sollen die Lernenden in Partnerarbeit das Jupyter-Notebook durchführen und so folgende Schritte durchlaufen:

Einlesen der Daten: Die Daten der SenseBox liegen in Form einer csv-Datei vor und müssen im Jupyter-Notebook eingelesen und abgespeichert werden. Die Schülerinnen und Schüler nutzen hier ein DataFrame.

Bereinigung der Daten: Die Zeitstempel liegen in der Rohfassung nur in Sekunden seit Start der Aufnahme vor. Für die Analyse der Daten wird jedoch ein Zeitstempel im Form von TT.MM.YYYY HH:MM benötigt. Hierfür muss das DataFrame um eine weitere Spalte mit passendem Zeitstempel ergänzt werden. Des Weiteren sind in den Datensätzen mehrere Messwerte für eine Sekunde datiert. Hier müssen die Schülerinnen und Schüler sich eine sinnvolle Approximation der Daten überlegen und durchführen (zum Beispiel Berechnung es Mittelwert der Daten pro Sekunde).

Visualisierung der Daten: Die Schülerinnen und Schüler sollen mit Hilfe der Bibliothek Matplotlib die Daten visualisieren, sodass sie sich im Sachzusammenhang interpretieren lassen. Sinnvoll wäre somit jeweils ein Graph pro Tag pro Datensatz.

Während dieser Arbeitsphase steht der Lehrende den Schülerinnen und Schülern als Lerngebleiter zur Verfügung. Bei möglichen Unklarheiten sollen Hilfestellungen und Hilfe zur Selbsthilfe gegeben werden. Auch der Umgang mit dem Jupyter Notebook und mit der Programmiersprache Python ist für die Lernenden noch neu, sodass hier Schwierigkeiten auftreten können.

Da diese Arbeitsphase eine hohe Eigenständigkeit und einige Schwierigkeiten beinhaltet, sollten im Vorfeld mögliche Hilfestellungen geplant und schlussendlich angeboten werden. Hierfür kann im Vorfeld der Stunde durch den Lehrenden eine sogenannte „Hilfe-Theke“ errichtet werden. Hier werden zu verschiedenen Stolpersteinen Hinweise ausgelegt, die sich die Schülerinnen und Schüler je nach Selbsteinschätzung in verschiedenen Arbeitsphasen eigenständig nehmen können. In unserer Planung der Stunde werden folgende Hilfen angeboten (diese befinden sich als einzelne Dokumente im Ordner):

·        Hinweise zum Arbeiten im Jupyter-Notebook mit Python: Auf diesem Hinweis sind Tipps für den Umgang mit dem Jupyter-Notebook gegeben. Des weiteren können die Lernenden hier Tipps für den Einstieg in Python bekommen. Beispielcode und syntaktische Hinweise werden erläutert.

·        Hinweise zum Auslesen der Rohdaten: Auf diesem Hinweis sind Tipps für das Einlesen der Daten gegeben. Es wird das Vorgehen und einzelne Codestücke detailliert beschrieben.

·        Hinweise zur Ergänzung von Zeitangabe anstatt von Zeitstempeln: Auf diesem Hinweis sind Tipps für das Berechnen und Speichern der Zeitangabe gegeben. Es werde das Vorgehen und einzelne Codestücke detailliert beschrieben.

Die Hinweise zum Auslesen der Rohdaten und zur Ergänzung von Zeitangaben sind in zwei Stufen gestaffelt. Die erste stellt nur eine kleine Anregung für einen möglichen Lösungsweg dar. Der zweite Hinweis hingeben gibt den Lösungsweg ziemlich genau vor, sodass dieser nur durch die Lernenden im eigenen Code ergänzt werden muss.

Abbildung 21: Ausschnitt eines Hinweises zum Arbeiten mit dem Jupyter Notebook

Abbildung 21 zeigt einen kleinen Ausschnitt des Hinweises zum Umgang mit dem Jupyter-Notebook.


Während der Arbeitsphase kann und sollte der Dozent ebenfalls Hinweise zur Interpretation geben. Die Schülerinnen und Schüler sollen im Netz recherchieren, was erwartbare Lärmprofile der Standorte darstellen können. Die Ergebnisse der Interpretation können die Lernenden auf den Steckbriefen festhalten. Am Ende dieser Unterrichtseinheit soll jedes Partnerteam eine Präsentation vorbereitet haben, die die Ergebnisse der Zuordnung und auch den Prozess der Analyse zeigt.

Zwei mögliche Darstellungen und Zuordnungsbegründungen könnten die beiden folgenden sein.

Abbildung 22: Lärmprofil des Datensatzes von Standort C (Liboriberg) von Samstag, 6.8.18 mit einem Sampling auf 1 Minute
Abbildung 23: Lärmprofil des Datensatzes von Standort E (Tankstelle) von Donnerstag, 23.08.18 mit einem Sampling auf 1 Minute


Abbildung 22 zeigt eine mögliche Darstellung des Liboribergs. Durch die Recherche im Internet kann man herausfinden, dass am Samstag den 6.8.2018 das Volksfest Libori in Paderborn stattgefunden hat. Der Liboriberg liegt direkt am Berg, deren Karussells von 10 Uhr bis 23 Uhr geöffnet haben. Es ist deutlich zu erkennen, dass das Lärmprofil für diesen Zeitraum eine erhöhte Lautstärke zeigt. Nach 23 Uhr nimmt die Lautstärke wieder ab. Die Schülerinnen und Schüler lernen, wie Domain-Wissen (weitere Informationen über die Standorte und Zeiträume) hilft, Daten im Sachzusammenhang zu deuten und so Informationen zu gewinnen.

Betrachtet man den Standort E, so lässt sich erkennen, dass die Öffnungszeiten der Tankstelle zu dem Ausschlag des Lärmprofils passen. Im Zeitraum von 6 – 23 Uhr ist es deutlich lauter als in den verbleibenden Stunden (siehe Abbildung 23). Ähnlich sind die Öffnungszeiten des IMT auch im Profil zu erkennen.

Tabellarischer Ablauf der dritten Phase

Abschnitt Inhalt Methode Material
Einstieg

5 min

Wiederholung/Einstieg

Was war die Sensebox? Wie ist sie aufgebaut? Wie sehen die gesammelten Daten aus?

Plenum SenseBox
Einführung

10 min

Einstieg in das Arbeiten mit dem Jupyter Notebook:

·         Was ist ein Jupyter-Notebook

·         Was ist die dahinterliegende Server/Client Struktur?

Wie nutze ich ein Juypter Notebook?

Lehrervortrag

Demonstration

Beamer
Arbeitsphase

120 min

Datendetektive in Paderborn:

Die SuS bekommen 5 Datensätze und 5 mögliche Standorte in Paderborn (insgesamt sind alle Standorte verteilt). Ziel ist die Zuordnung der Daten zu den passenden Orten. Die Ergebnisse sollen anschließend mittels einer PowerPoint Präsentation vorgestellt werden. Im Fokus liegt ein Vergleich der Lautstärke-Profile der Orte und kein Vergleich der tatsächlichen Lautstärke. Vorgehen und Ergebnis soll im Jupyter Notebook festgehalten werden. Die Abschlusspräsentation sollen die SuS in einer PowerPointpräsentation vorbereiten und halten.

Partnerarbeit am Computer Computer

Jupyter Notebook

Datensätze

Arbeitsblatt 4

Steckbriefe zu den Standorten

Hausaufgabe Fertigstellung einer Präsentation in der Arbeitsschritte und Interpretationen der Daten vorgestellt werden.

Reflexion/Lessons learned zur dritten Phase

Eine wesentliche Erfahrung dieser Unterrichtseinheit stellt die Arbeit mit dem Juypter-Notebook dar. Das Arbeiten mit Jupyter Notebooks benötigt eine verlässliche technische Struktur, sodass hier keine unerwarteten Fehler auftreten. Der Unterricht wurde leider durch einen Server-Fehler unterbrochen, sodass die Lernenden Schwierigkeiten beim Zugriff auf das Notebook hatten. Dies hat viel Zeit gekostet, sodass der eigentliche Arbeitsprozess deutlich länger als erwartet dauerte. Generell ist jedoch zu erkennen gewesen, dass die Schülerinnen und Schüler großes Interesse und Motivation zeigten. Auch die Hindernisse im Umgang mit einer neuen Programmiersprache wurden souverän und mit einem großen Durchhaltevermögen absolviert. Generell ist die Kernbotschaft dieser Einheit: Wenn man die eigenständige Programmierung und Auswertung als Ziel setzt, sollte man für die Arbeit mit dem Notebook mindestens 2-3 Stunden von 45 Minuten einplanen. Die Lernenden benötigen Zeit um sich mit der neuen Umgebung und der Programmiersprache vertraut zu machen. Alternativ könne man auch diese Phase kürzen: Die Erstellung von den Zeitstempeln und Grafiken könnte in Methoden verpackt werden, sodass die Lernenden nur noch durch Betätigen einer vorbereiteten Nutzungsschnittstelle, welche durch die Lehrperson vorher programmiert wird, die Auswertung und Visulisierung der Daten durchführen. So würde die Arbeit mit den Daten auf eine Einheit von 45 Minuten gekürzt werden können.

Aufgrund der technischen Probleme in dem Kurs wurde nach 60 Minuten die Arbeit unterbrochen. Die Ergebnisse bis zu diesem Zeitpunkt wurden im Plenum besprochen, sodass anschließend Gruppen von circa 4 - 5 Schülerinnen und Schülern gebildet wurden. In den Gruppen wurden die zum Teil fertigen Auswertungen besprochen und sich anschließend nur noch auf die Zuordnung von zwei Datensätzen konzentriert (Datensatz 4 und 5 – diese sind aufgrund der sehr prägnanten Profile relativ intuitiv zuzuordnen). Hier benötigten die Lernenden circa 30 weitere Minuten.

Die unterschiedlich großen Lärmdatensätze erzeugten kein Problem in dem Lärmprojekt selber. Vielmehr eher einen Vorteil, da so die Lernenden auch den Umgang mit unterschiedlich großen Datenmengen übten. Erste Versuche der Auswertung wurden somit mit dem Datensatz des Standortes E gemacht, da so die Zeit der Verarbeitung, die der Rechner brauchte, kürzer war. Die Schülerinnen und Schüler konnten so Fehler bei dem Umgang mit Python im Juypter-Notebook schnell beheben, da mögliche Fehlermeldung schnell zurückgegeben wurden.


Phase 4: Abschluss des Lärmprojektes

Umfang: 1 Schulstunde

Lernziele der vierten Unterrichtsphase

In der vierten Phase sollen die Schülerinnen und Schüler

·        ihre Analysen darstellen und reflektieren,

·        ihre Analysen und Ergebnisse auf einer Metaebene diskutieren und verallgemeinern,

·        den PPDAC – Datenzyklus kennen lernen und die einzelnen Phasen verstehen.

Design der 4. Phase

Zunächst soll in einem kurzen Rückblick zur letzten Wochen besprochen werden, was die Aufgabe des Projekts war. Anschließend bekommen die Gruppen noch einmal ein paar Minuten Zeit, um sich auf die anstehende Präsentation vorzubereiten. Anschließend sollen die Ergebnisse durch die Gruppen vorgestellt und anschließend im Plenum diskutiert werden.

Nachdem erste Gruppen vorgestellt haben, sollen die folgenden Gruppen nur noch Unterschiede oder Ergänzungen vorstellen anhand der Fragen „Können wir im Vergleich zur vorherigen Präsentation der Ergebnisse neue Informationen gewinnen oder sogar Unklarheiten beseitigen?“ „Sind wir bei der Analyse der Daten und der Zuordnung anders vorgegangen?“. Diese Phase dient der Würdigung der Schülerergebnisse und soll der Sicherung der Projektphase dienen. Die Lernenden haben anhand des Projekts erste Erfahrungen bzgl. einer Datenauswertung, Bereinigung und Interpretation gemacht.

Abschließend soll das Projekt auf der Metaebene reflektiert werden. Dazu dienen folgende Fragen:

·        Was für Schritte sind wir bei der Datenauswertung gegangen?

·        Was war die Rolle von Daten?

·        Wie sah das Messinstrument aus? Was für Einflüsse hat dies?

·        Was waren Annahmen, die wir vorausgesetzt haben und die wir bei der Interpretation der Daten gemacht haben?

·        Was war die Rolle von Domain-Wissen im Prozess der Datenauswertung?

·        Kritische Reflexion: Was für eine Macht haben die Daten? Welche Interpretationen lassen sie auf privater Ebene zu?

Dies dient der Verallgemeinerung der Erfahrungen und soll am Ende durch den Dozenten durch den Datenzyklus resümiert und zusammengefasst werden. Als Abschluss könnte der PPDAC-Datenzyklus dienen, welcher in Abbildung 24 mit den Phasen des Projektes zusammengebracht wird.

Abbildung 24: Reflexion des ersten Bausteins


Für die weitere Entwicklung und Auswertung sollen die Schülerinnen und Schüler individuelles Feedback geben. Hierfür kann eine Umfrage mit offenen und geschlossenen Fragen im LimeSurvey angelegt werden. Folgende Items sind in der Umfrage enthalten:

Geschlossene Fragen (5 Likert-Skala):

·        Situationales Interesse:

o  Ich fand die Einheit „Datendetektive in Paderborn“ spannend.  (catch – emotional)

o  Über Teile der Einheit „Datendetektive in Paderborn“ möchte ich gerne mehr erfahren. (hold – epi)

·        Inhaltliches Verständnis:

o  Ich konnte die gestellten Anforderungen gut bewältigen.

o  Ich habe viel gelernt.

·        Tool:

o  Der Umgang mit dem Tool ist mir leicht gefallen.

o  Der Umgang mit dem Tool hat mir gut gefallen.

o  Das Tool ist auch für andere SchülerInnen interessant.

o  Ich möchte mehr über das Tool lernen.

·        Soziale Relevanz/Potential

o  Das, was ich in der Einheit „Datendetektive in Paderborn“ gelernt habe, ist für mich persönlich wichtig.

o  Das, was ich in der Einheit „Datendetektive in Paderborn“ gelernt habe, ist für andere wichtig.

·        Offene Fragen:

o  Folgendes hat mir besonders gut gefallen:

o  Folgendes könnte man verbessern:

Tabellarischer Ablauf der dritten Phase

Abschnitt Inhalt Methode Material
Einstieg

5 min

Wiederholung/Einstieg

·         Was haben wir für ein Projekt durchgeführt?

·         Wie sahen unsere Ergebnisse aus?

Plenum
Besprechung

30 min

Präsentation und Besprechung der Ergebnisse Plenum Beamer

Präsentationen

Sicherung

10 min

Reflexion des Projekts

·         Welche Phasen haben wir durchgeführt?

·         Hinführung zum PPDAC-Zyklus

Lehrervortrag Beamer
Reflexion Die Schülerinnen und Schüler füllen den LimeSurvey Fragebogen aus Einzelarbeit PC

LimeSurvey


Literatur

  1. Dhar, V. (2013): Data science and prediction. Communications of the ACM 56 (12): 64.
  2. Jeff Leek (12. Dezember 2013): The key word in "Data Science" is not Data, it is Science. Simply Statistics.
  3. https://www.dropbox.com/s/gxt3yu9nml0p6yj/Folien_Modul1_komplett.pptx?dl=0

download this page as a PDF file