Educational Data Mining


Nachdem wir uns bereits im Beitrag Learning Analytics in Forschung und Wissenschaft dem Thema Learning Analytics gewidmet haben, sehen wir uns heute Data Mining im Bildungsbereich genauer an, z.B. welche Daten auf welche Weise analysiert werden und welche Schlüsse man daraus ziehen kann.

Learning Analytics und Educational Data Mining sind dabei zu unterschieden: Beim Data Mining werden automatisierte Verfahren angewendet, bei den Learning Analytics liegt der Fokus auf der hypothesengeleiteten Analyse. Im Folgenden werden hauptsächlich automatisierte Verfahren vorgestellt, die allerdings auch in den Learning Analytics Anwendung finden können.

Predictive Analytics

Unter Predictive Analytics versteht man bestimmte Verfahren, mit denen man relevante Variablen vorhersagen kann. Vorhergesagt werden unter anderem Größen von Interesse wie z.B. der Kurs- bzw. Studienabbruch oder die erreichte Prüfungsnote. Zur Vorhersage werden beispielweise Messungen der bisherigen Studienperformance, Selbsteinschätzungen, psychometrische Tests oder Feldbeobachtungen verwendet.

Methoden dafür sind unter anderem sogenannte Classifier oder Regressors. Der Unterschied besteht darin, dass Classifier meist binäre oder kategoriale Variablen vorhersagen, während mit dem Regressor metrische Größen vorhergesagt werden. Damit sind diese Verfahren linearen oder logistischen Regressionen, die in der Statistik Anwendung finden sehr ähnlich. Allerdings ist im Data Mining Bereich weniger relevant welche Faktoren zur Erklärung der interessierenden Größe beitragen, sondern, dass die Größe möglichst exakt vorhergesagt werden kann. Die Modelle werden dabei meist mit einem Datensatz „trainiert“, um sie anschließend auf weitere Datensätze, z.B. eine neue Studierendenkohorte automatisiert anwenden zu können.

Neuronale Netzwerke oder Support Vector Machines sind im bildungsspezifischen Data Mining weniger gebräuchlich als in anderen Disziplinen. Das liegt daran, dass in Bildungsdaten oft mehr „Rauschen“ vorliegt, das heißt die Messungen sind etwas ungenauer und weisen eine größere Streuung auf. Dafür sind konservativere Algorithmen, wie die oben genannten, geeigneter.

Strukturen entdecken

Unter Data Mining versteht man auch das Suchen und Finden von Strukturen in Daten, die man nicht a priori erwartet oder antizipiert hat. Damit sind diese Data Mining Verfahren von Predictive Analytics abzugrenzen.

Solche Strukturen kann man bspw. mittels Cluster- oder Faktorenanalysen identifizieren.

Clustering findet Datenpunkte, die „natürlicherweise“ Gruppen bilden. Clustering ist u.a. dann sinnvoll, wenn nicht bekannt ist, in welche Kategorien sich die Daten aufteilen. Auch Faktoranalysen sind ein ähnliches Verfahren. Sinn einer Faktorenanalyse ist es, verschiedene Variablen zu finden, die zusammengehören, weil sie gemeinsam das gleiche (latente) Konstrukt abbilden, dass man so nicht beobachten bzw. nicht einfach abfragen kann.

Relationship Mining

Beim Relationship Mining sollen Beziehungen zwischen einzelnen Variablen identifiziert werden. Das Correlation Mining ist eine relativ klassische statistische Vorgehensweise: Dabei werden positive oder negative Zusammenhänge zwischen Variablen identifiziert. Es gibt allerdings noch weitere Formen: So können z.B. beim Sequential Pattern Mining temporäre Zusammenhänge zwischen zwei Ereignissen aufgezeigt werden. Beispielsweise wie das Muster an Gruppenarbeiten mit einem gelungenen Projekt zusammenhängt.

 

Quelle: Baker, R. S., & Inventado, P. S. (2014). Educational data mining and learning analytics. In Learning analytics (pp. 61-75). Springer, New York, NY.

 

Mehr zur Autorin auf Twitter: @SonjaHerrmann1