Was haben Kühe mit Data Science zu tun?

Probleme früh erkennen: Automatische Klassifikation auf Datenbasis leistet oft mehr als das menschliche Urteilsvermögen

Bei Automatisierung und Data Science denkt man schnell an hoch technisierte Produktionsumgebungen oder an Maschinenbau. Aber auch in der Landwirtschaft kann die intelligente Analyse und Nutzung von Daten enorme Mehrwerte zutage fördern. Ein Beispiel aus der Praxis: Bei Milchkühen etwa helfen Algorithmen, die auf Sensordaten basieren, Infektionen vorherzusagen – lange, bevor der Landwirt sie wahrnimmt. So lassen sich Ansteckungen und folglich auch wirtschaftlicher Schaden im Voraus vermeiden.

Katharina Kober, Data Scientist bei connyun, erzählt uns mehr darüber: „Unser Kunde nutzt vollautomatische Melksysteme, auch Melkroboter genannt. Die Kühe können sich frei im Stall bewegen und bei Bedarf in die Melkbox gehen. Das Ansetzen der Maschine an den Euter erfolgt ohne menschliche Beteiligung. Das ist komfortabel für die Kühe und den Landwirt, hat aber einen Haken: Mögliche Eutererkrankungen wie die Mastitis werden nicht zeitnah durch den Landwirt erkannt.“

Und das kann teuer werden, denn Eutererkrankungen beeinträchtigen nicht nur das Wohlbefinden der Kühe, sondern auch die Milchmenge und -qualität. Die Milch erkrankter Tiere weist eine erhöhte Zellzahl auf, was zu geringeren Milchpreisen durch die Molkereien führt. Laut Landwirtschaftskammer Oberösterreich beträgt der Verlust pro erkrankter Kuh über 600 Euro. „Data Science erlaubt uns, die Überwachung der Tiere datenbasiert statt visuell durchzuführen“, schildert die Datenexpertin, „und schützt die Landwirte vor Verlusten.“ Der Auftrag lautete also: Einerseits sollen erkrankte Tiere frühzeitig erkannt werden, um Ansteckungen auf die ganze Herde zu vermeiden. Andererseits sollen möglichst wenige Fehlalarme ausgelöst werden.

Wertvolle Daten: Direkt aus der Milch

Zur frühzeitigen Erkennung von Euterentzündungen führen Sensoren am Melkroboter Messungen auf der Milch durch. Die Zellzahl – der wichtigste Indikator für eine Entzündung – lässt sich damit leider nicht direkt bestimmen. Messbar sind hingegen Milchtemperatur, Milchmenge oder die Leitfähigkeit der Milch. „Und hier kommt dann Data Science ins Spiel: Wir können mithilfe der gemessenen Daten die Zellzahl vorhersagen.“

Gesund oder krank: Komplexe Entscheidungen treffen per Klassifikation

Zur Analyse und Auswertung der Daten nutzen die connyun Data Science Experten das Klassifikationsverfahren Random Forest. Warum Klassifikation? Katharina Kober erläutert die Hintergründe. „Ein bekanntes Klassifikationsproblem ist beispielsweise der Spamfilter unserer E-Mail-Postfächer. Anhand der Wörter in E-Mails mit unbekanntem Absender unterscheiden Algorithmen die Klassen Spam und Nicht-Spam. Auch bei den Kühen haben wir es mit einem Klassifikationsproblem zu tun. Hier ist die Frage, ob die Daten von Milchtemperatur, Milchmenge und Leitfähigkeit auf eine erhöhte Zellzahl und damit auf eine Erkrankung hinweisen.“

Random Forest: Viele Entscheidungsbäume sind klüger als einer

Wie jeder Wald besteht auch ein Random Forest aus Bäumen, in diesem Fall aus Entscheidungsbäumen. „Entscheidungsbäume sind Algorithmen, mit denen wir Datenobjekte automatisch klassifizieren. Ein Entscheidungsbaum soll uns also sagen: Liegt diese Milchtemperatur vor und kommen diese Milchmenge und diese Leitfähigkeit hinzu, dann liegt die Zellzahl voraussichtlich in diesem Bereich.“

Ein Random Forest steigert die Präzision dieser Klassifikation: Denn statt nur einem Entscheidungsbaum kommt ein ganzer Wald zum Einsatz. Die Besonderheit: „Hier kommt Machine Learning zum Einsatz: Die einzelnen Entscheidungsbäume im Random Forest wachsen. Sie variieren – dank der sogenannten Randomisierung – im Aufbau und sind nicht miteinander verbunden. Somit klassifiziert jeder Baum etwas anders“, beschreibt die Datenexpertin. „Die endgültige Klassifikation des Random Forests erfolgt dann nach dem Prinzip der Schwarmintelligenz: Der Random Forest trifft die Entscheidung, die von den Bäumen am häufigsten geschätzt wurde.“

Schärfer als das menschliche Auge: Früherkennung per Data Science

Zurück zu den Kühen und zur Praxis. Im ersten Schritt bereinigen die connyun Data Science Experten die gemessenen Daten. Mithilfe von Outlier Detection werden verfälschte Werte, etwa durch Melkunterbrechungen oder falsch angesetzte Melkbecher, korrigiert oder entfernt. Danach wird auf diese Daten ein Random Forest Classifier angewendet, der den jeweiligen Melkungen eine Zellklasse zuordnet: je niedriger die Zellzahl, desto niedriger die Zellklasse.

Die Ergebnisse sind sehr aufschlussreich: „Mit Sensormessungen und Machine-Learning-Algorithmen erkennen wir Eutererkrankungen, bevor sie optisch sichtbar sind“, so Katharina Kober. „Ein Anstecken der kompletten Herde kann somit eher verhindert werden als bei der rein visuellen Überprüfung durch den Landwirt.“

Das Prinzip lässt sich auf viele Herausforderungen in der Fertigung anwenden

„Solche Verbesserungen und Automatisierungen ließen sich in vielen Produktionsbereichen erzielen. Dazu muss die Digitalisierung weiter vorangetrieben und die Data Science mit ihren Machine-Learning-Algorithmen vermehrt in der Praxis eingesetzt werden. Es ist wichtig, dass sich produzierende Unternehmen und Maschinenbauer verstärkt mit den Möglichkeiten von Data Science auseinandersetzen, denn das hier erwähnte Beispiel ist nur ein kleiner Ausschnitt von dem, was sich mit Daten erreichen lässt. Wir können uns z.B. sehr gut vorstellen, dass das hier vorgestellte Prinzip auch für die Vorhersage und die Überwachung bei der Qualitätskontrolle zum Einsatz kommen kann“, schließt Katharina Kober.