Kommentar von Christophe Bourguignat, Zelros Künstliche Intelligenz – Trainingsdaten als Erfolgsfaktor

Ein Gastkommentar von Christophe Bourguignat *

Kaum einer zweifelt noch daran, welche Rolle Künstliche Intelligenz oder auch Machine Learning für unseren Alltag spielen – jetzt und in der Zukunft. Doch wie wird eine KI eigentlich intelligent? Hier spielt der Mensch die entscheidende Rolle, denn er muss für jede KI unter anderem die richtigen Trainingsdaten auszuwählen.

Anbieter zum Thema

Der Autor: Christophe Bourguignat ist CEO und Co-Founder von Zelros
Der Autor: Christophe Bourguignat ist CEO und Co-Founder von Zelros
(Bild: Jean-Marc Gourdon)

Künstliche Intelligenz lernt auf Basis dessen, was Programmierer und Programmiererinnen ihnen beibringen. Deshalb haben Fehler an diesem Punkt des Prozesses ein so großes Potenzial, sich zu vervielfältigen und langfristig zu verfälschten Ergebnissen zu führen.

Das schränkt auf der einen Seite die Effizienz der KI ein, kann aber auch noch zu wesentlich schädlicheren Effekten führen: 2019 hat Tech-Gigant Apple einen weltweiten Shitstorm erlebt, weil seine „Apple Card“ Frauen bei der Vergabe von Krediten systematisch benachteiligt hatte. Sogar Frauen mit extrem hohem Einkommen und hoher Kreditwürdigkeit wurden gegenüber Männern mit niedrigeren Einstufungen abgewertet.

Schuld daran war der falsch trainierte Algorithmus der KI. Er war mit Daten aus vergangenen Jahrzehnten gefüttert worden, nach denen Frauen aufgrund veralteter Rollenverteilung konstant weniger verdient hatten und dementsprechend auch selbst weniger Kredite aufgenommen und wieder zurückgezahlt hatten als Männer.

Dagegen wurde der KI über Trainingsdaten beigebracht: Männer waren über Jahrzehnte die Gruppe mit dem stärksten Einkommen und der größten Menge an abgeschlossenen Krediten. Damit stieg auch automatisch die Menge an Krediten, die Männer fristgerecht an die Banken zurückgezahlt hatten. Das System hatte also gelernt, dass Männer über einen langen Zeitraum zuverlässiger und liquider sind als Frauen, obwohl das in der Realität natürlich absoluter Blödsinn war.

Was entstand, war eine Bias zum Nachteil weiblicher Nutzer. Und damit ein riesiger Imageschaden für die Apple Card. Die gute Nachricht ist, dass suboptimale Trainingsdaten jederzeit korrigiert werden können. Das sollte allerdings passieren, bevor Bias sich auf Kunden und Nutzer auswirken.

Grundsätzlich ist das Vermeiden von Bias nicht schwer, wenn einige Punkte beachtet werden:

1. Permanente Analyse und Kontrolle

Wie bereits oben beschrieben, kann ein Algorithmus zu jeder Zeit korrigiert werden, wenn die Entwickler und Entwicklerinnen wissen, woher eine Bias stammt. Deshalb ist es wichtig, die KI während der gesamten Laufzeit zu überwachen und ihre Vorhersagen regelmäßig auf den Prüfstand zu stellen. Dieses Vorgehen ist bei verantwortungsvollen KI-Anbietern Standard und sorgt dafür, dass die Anwendung stetig optimiert wird und dauerhaft nach den festgelegten Richtlinien arbeiten und funktionieren kann. Es gilt: Trainingsdaten sollten zu jeder Zeit kritisch überprüft und regelmäßig hinterfragt werden.

2. Einsatz diverser Entwickler-Teams

Trainingsdaten hängen häufig zusammen mit sogenannten Protected Features, also besonders schützenswerten persönlichen Merkmalen wie Geschlecht, Herkunft oder Muttersprache. Je diverser ein Team in der Entwicklung aufgestellt ist, desto höher die Wahrscheinlichkeit, dass es einem Teammitglied auffällt, wenn bestimmte Gruppen bei der Auswahl der Trainingsdaten unterrepräsentiert sind und damit zusätzliche Daten benötigt werden.

In der Vergangenheit wurden beispielsweise sogenannte Weird Samples zum Problem. Damit sind die Daten von Menschen gemeint, die aus der westlichen Welt stammen, gebildet sind und Industrienationen und Demokratien entstammen (Western, educated, industrialized, rich and democratic). WEIRD – eine Gruppe, die tendenziell in Studien überrepräsentiert ist, aber gleichzeitig nur einen geringen Teil der Weltbevölkerung ausmacht. Hier ist es wichtig, dass Developer von Anfang an gezielt gegensteuern.

3. Die richtige Methodik auswählen

Neben den Trainingsdaten selbst, spielt auch die Methodik, nach der diese verarbeitet werden, eine entscheidende Rolle. Die Entwickler und Entwicklerinnen müssen sich schon zu Beginn absolut klar darüber sein, an welchen Parametern die Effizienz des Modells am Ende gemessen werden soll.

Die Herausforderung dabei: Modelle, die in ihrem Ablauf und der Herleitung der Ergebnisse zu 100 Prozent eindeutig und für uns nachvollziehbar sind, sind häufig weniger effizient als sogenannte Black-Box-Modelle. Diese Modelle basieren auf Deep Learning – einer Technologie, die so intelligent ist, dass Entwickler ihre Ergebnisse in der Regel nicht erklären können. Was passiert in einem Black-Box-Modell?

Nachdem Developer die Trainingsdaten eingespeist haben, beginnt das System, daraus Rückschlüsse zu ziehen und zu lernen. Im zweiten Schritt berechnet es dann die gewünschte Vorhersage, im dritten gibt sie den Entwicklern ein Ergebnis aus. Schritt zwei ist dabei die Black Box, die wir nicht einsehen können. Wir wissen allerdings, dass diese Modelle extrem effizient sind, weil wir ihre Ergebnisse nachträglich mit traditionellen Methoden prüfen und bestätigen können.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Softwareentwicklung und DevOps

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Arbeiten Teams rein ergebnisorientiert, führt ein solches Modell wahrscheinlich zur größtmöglichen Effizienz. Gerade aber wenn es um das Ausmerzen von Bias geht, stellt sich die Frage, ob es nicht klüger ist, eine Methodik zu wählen, deren Beweggründe Entwickler auch vollständig nachvollziehen können. Ist das nicht möglich, können Bias leicht unentdeckt bleiben bzw. ihr Ursprung nur schwer geklärt werden.

Das zeigt, dass es für eine effiziente und Bias-freie KI viel mehr braucht als nur eine clevere Technologie: Die richtigen, kritisch geprüften Trainingsdaten, ein aufmerksames Programmierer-Team und eine maßgeschneiderte Methodik sind das Rezept, mit dem KIs zum Erfolg werden können.

* Christophe Bourguignat ist CEO und Co-Founder von Zelros.

(ID:47899812)