Sag' mir wie du lernst und ich sag' dir, wer du wirst. Datenanalysen sollen Schüler schon zu Schulbeginn bewerten. Foto: iStockphoto

Software will Abschlüsse von Schülern vorhersagen - und verbessern

Im Educational Data Mining analyiseren Programme, wie erfolgreich Schüler oder Studenten später abschließen werden. Das birgt jedoch erhebliche Risiken.

Im Büro von Bettermarks hängen schwarze Monitore an den Wänden, darauf zu sehen sind viele bunte Datenkurven, die zeigen, wie fleißig die Kunden des Unternehmens aus Kreuzberg gerade sind. Sie lösen Matheaufgaben, freiwillig und online, denn das Lernbuch der Zukunft, so sind die Gründer von Bettermarks überzeugt, besteht nicht mehr aus geordneten Kapiteln, Seiten und Aufgaben in Papierform. Sondern es ist eine interaktive Plattform, bei der jeder Schüler nach eigenem Wissen und Tempo Aufgaben lösen kann. Das soll nicht nur das Lernen erleichtern, sondern auch Aussagen darüber ermöglichen, wie erfolgreich ein Schüler oder Student künftig sein wird.

Educational Data Mining wird die Methode genannt, bei der große Datenmengen – meistens automatisiert – genutzt und gespeichert werden. Die Daten fallen beispielsweise bei digitalen Plattformen, Lern-Apps, Online-Vorlesungen oder -Tutorien an. In den USA werden diese Informationen bereits seit Jahren sehr genau analysiert. Doch auch Berliner Forscher und Start-ups arbeiten inzwischen an der digitalen Revolution im Klassenzimmer.

400 000 Fehler

Große Datenmengen, das bedeutet bei dem auf Matheaufgaben spezialisierten Bettermarks, dass Schüler aus zehn Ländern jede Woche zwei Millionen Aufgaben lösen. Dabei machen sie 400 000 Fehler. Genau das sind die eigentlich spannenden Daten, erklärt York Xylander, IT-Chef des Unternehmens: „Wir können dadurch analysieren, bei welchen Aufgaben besonders viele Fehler gemacht werden, welche Lernpfade besonders erfolgversprechend sind und wo eventuell Vorwissen fehlt.“ Der Mathe-Graph mit seinen 10 000 Aufgabentypen und 100 000 einzelnen Aufgabenstellungen für die Klassenstufen vier bis zehn ist wie eine Stadtkarte mit vielen Gassen, Abzweigungen und begehbaren Wegen. Je mehr Schüler sich durch diese virtuellen Lernpfade arbeiten, umso mehr lernt das System, welche Routen zum besten Ergebnis führen – in diesem Fall zu den besten Schulnoten.

Das alles funktioniert nur mit Computern, die jeden Fehler, jeden Lernerfolg und die Zeit, die Schüler mit dem System und bestimmten Aufgaben verbringen, detailliert auswerten. Denn: „Gerade beim Thema Mathematik ist Fleiß wichtig“, sagt Xylander. Die dabei entstehenden Daten helfen dem System wiederum, für die Schüler automatisiert Hilfen und Hinweise bereitzustellen. Das erhöht die Erfolgsquote: „70 Prozent der zweiten Versuche sind erfolgreich“, sagt Xylander.

Aber der Einsatz computerisierter Analysen beschränkt sich nicht mehr nur auf die Datenspuren des Lernens selbst. Das Berliner Unternehmen Idalab hat beispielsweise einen Algorithmus entwickelt, der ab diesem Jahr im Bezirk Tempelhof-Schöneberg den Zuschnitt der Einzugsgebiete für Grundschulen optimiert. Mithilfe der „Intelligent Zoning Engine“ analysiert Idalab Adressdaten, aber auch Daten über sozio-ökonomische Strukturen wie die Einkommensverhältnisse und bringt diese mit Daten über die Kapazitäten der Schulen zusammen. Dadurch sollen die Verwaltungen entlastet werden.

Wie im zweiten Jahr die Abschlussnote von Studenten berechnet wird

Wie erfolgreich nicht Schüler, sondern Studenten ihre Schul- und Bildungslaufbahn einmal abschließen werden, ist das Spezialgebiet von Agathe Merceron. Die Informatik-Professorin widmet sich an der Berliner Beuth Hochschule für Technik ganz der Erforschung von Educational Data Mining. „Wir wollen wissen, wie früh sich erkennen lässt, mit welcher Note Studenten ihr Studium abschließen werden“, erzählt die Wissenschaftlerin.

Um das herauszufinden, haben Merceron und ihr Team Daten von 350 Studenten der Universität Karatschi in Pakistan ausgewertet. Anhand der Abitur- und ersten Universitätsnoten der Studenten konnten die Forscher bereits im zweiten Universitätsjahr die Abschlussnoten des vierjährigen Studiums relativ präzise vorhersagen. Immerhin bei acht von zehn Studierenden lagen die Wissenschaftler richtig. „Wir hatten die Hypothese, dass wir, ohne sozioökonomische Faktoren einzubeziehen, gute Vorhersagen über die zukünftigen Leistungen machen können“, sagt Merceron. Daten über Herkunft, Wohnort oder die Bildung der Eltern blieben außen vor. Ausgewertet wurden nur die Daten, die sich bereits auf den Servern der Universität befanden.

Wie lässt sich vorhersagen, ob jemand ein Studium abbrechen wird? Welche Inhalte erinnern Lerner und welche nicht? Welche Fehler sind häufig und wie gut ist bestimmtes Lehrmaterial? Oder welche Aufgaben können künstlich intelligente Tutoren-Systeme überspringen, weil die Übenden sie sowieso richtig beantworten werden?

Frühwarnsysteme auf Basis vom Demografie

Damit Algorithmen fähig sind, solche Prognosen zu treffen, füttern die Forscher sie erst mit vollständigen Datensätzen – im Fall der Karatschi-Studie mit Abitur-, Zwischen- und den Abschlussnoten der Studenten. Nach einer gewissen Zeit lernen die Programme, welche Abitur- und Zwischennoten zu welchen Endnoten gehören. Künftige Studenten können mithilfe dieser Schemata klassifiziert werden – Jahre bevor sie ihr Abschlusszeugnis erhalten. Dabei sind die Analysen der Pakistan-Studie im internationalen Vergleich vergleichsweise harmlos. An der US-amerikanischen Purdue Universität gibt es seit Jahren ein Frühwarnsystem, das auf Basis von Demografie-Daten, Online-Engagement und früheren Leistungen den Studierenden bereits in der zweiten Kurswoche mitteilt, ob ihr aktuelles Verhalten von Erfolg gekrönt sein wird. Mithilfe eines per Mail zugesandten Ampelsystems – grün steht für gut, gelb für mittel, rot für schlecht – konnte die Abschlussrate laut der Universität um gut 20 Prozent gesteigert werden.

Michael Caulfield, Direktor für vernetztes Lernen an der Washington State University kritisierte die Behauptung, das Ampelsystem namens Course Signals hätte die gesteigert. Eigentlich habe die Studie, die von der Universität selbst durchgeführt wurde, nur gezeigt, dass Studenten mehr Signals-Kurse belegten. Kurz gesagt: Studenten, die einen Signals-Kurs belegen schaffen nicht wahrscheinlicher einen Abschluss. Aber Studenten, die einen Abschluss geschafft haben, hatten zuvor wahrscheinlicher mindestens einen Signals-Kurs belegt. So fasst Alfred Essa, Vizepräsident der Data Science-Abteilung des amerikanischen Lernmaterialienherstellers McGraw-Hill Education, die statistische Fehlinterpretation zusammen.

Neue Dimensionen im Datenschutz

Und was passiert, wenn solche Daten in die falschen Hände geraten? Und wenn damit Lernschwachen Schülern womöglich schon im Vorfeld Wege verbaut werden. „Datenschutz spielt bei der datengetriebenen Lernanalyse eine große Rolle – besonders in Deutschland wird er zum Wettbewerbsfaktor“, sagt Niels Pinkwart, Informatik-Professor an der Berliner Humboldt-Universität. Pinkwart forscht unter anderem darüber, wie Sensoren für die Analyse von Lernprozessen eingesetzt werden können. Mit Sensoren, wie sie sich in Smartphones oder Tablets befinden, könnten nicht nur Lernzeiten, sondern auch die Konzentrationsfähigkeit und Stimmung der Lernenden gemessen werden: LISA, Learning Analytics für sensorbasiertes adaptives Lernen, heißt das vom Bundesministerium für Bildung und Forschung (BMBF) geförderte Projekt. Wie sich der Hautwiderstand oder die Herzfrequenz während des Lernens ändert, kann plötzlich außerordentlich aussagekräftig sein. Deshalb ist es besonders kritisch, diese sensiblen persönlichen Informationen in Datenbanken zu speichern. Das ist auch den Forschern bewusst: „Je sensibler die Daten sind, desto mehr muss man sich damit beschäftigen“, sagt Pinkwart.

Darauf verweist auch Christina Brüning vom BMBF. „Erkenntnisse, die durch Learning Analytics gewonnen wurden, können helfen, um pädagogische und bildungspolitische Prozesse effizienter zu steuern“, sagt sie. Hierbei müsse aber immer der Mensch im Mittelpunkt stehen. Deshalb müssten die Daten vorsichtig ausgewertet werden: „Es ist völlig klar, dass es sich gerade im Falle von Schülerinnen und Schülern oder von Studierenden um hoch sensible Daten handelt.“

Entscheidend sei, keine personalisierten Daten zu speichern und zu übermitteln, sondern pseudonymisierte. Bei diesem Verfahren vereint das System alle Informationen eines Schülers nicht unter dessen Klarnamen, sondern nutzt ein Pseudonym. In Zeiten riesiger Datensätze ist das allerdings keine Garantie für Sicherheit: Forscher haben in der Vergangenheit bereits mehrfach gezeigt, dass große, pseudonymisierte Datensätze im Nachhinein wieder mit tatsächlichen Personen verbunden werden können – je nachdem, wie detailreich die Informationen sind. Ein Dilemma, denn das System muss genau wissen, wer was tut – sonst würde es nicht funktionieren. „Bei allen Bildungsanbietern sollte sichergestellt sein, dass Lernende über den Verbleib ihrer persönlichen Daten selbst entscheiden können“, sagt Brüning.

Sollte der Staat die Daten verwalten?

Auch Unternehmen wie Bettermarks denken über Datenschutzfragen nach. Zum Beispiel sollen Lehrer und Eltern die Schüler anregen, nur Pseudonyme für die Plattform zu verwenden, sagt Xylander. „Vielleicht sollte man solche Daten aber perspektivisch auch staatlich verwalten“, schlägt er vor. Aber egal, wer die Daten verwaltet. Eine absolute Sicherheit gegen Hacker-Angriffe und Datenleaks gibt es kaum.

Auf den Bildschirmen in dem Kreuzberger Großraumbüro zeigt York Xylander nun auf einen Knick in der Datenkurve: „Hier kann man sehen, dass die Kinder in Südamerika am Sonntag nicht üben – in Deutschland ist das anders, da ist das ein klassischer Hausaufgabentag.“ Und der Lernalgorithmus? Der braucht keine Pause.