Qualitätssicherung bei KI-Algorithmen

Bias-Fehler und Testing in der KI-Entwicklung

| Autor / Redakteur: Jan Wolter * / Stephan Augsten

Manchmal spiegelt sich in der KI die Meinung des Entwicklers wider, manchmal bildet sie sich eine eigene.
Manchmal spiegelt sich in der KI die Meinung des Entwicklers wider, manchmal bildet sie sich eine eigene. (Bild: geralt / Pixabay)

In der Industrie gehören auf KI-Algorithmen basierende Systeme inzwischen zum Alltag, zum Beispiel bei der Qualitätssicherung in der Produktion oder beim Betrieb von Anlagen. Aber wie ist es um die Qualität der Algorithmen selbst bestellt?

Software-Entwicklung wird – wenn auch zunehmend mit maschineller Unterstützung – durch Menschen geleistet. Und die sind auch bei der Entwicklung von KI-Lösungen getragen von ihren individuellen Fähigkeiten und Sozialisationen. Tatsächlich stehen Entwicklern heute enorme Möglichkeiten zur Realisierung von Lösungen zur Verfügung.

Die Rechenleistung stellt kaum noch eine Limitierung dar, weil Processing und Storage in der Cloud jederzeit kostengünstig verfügbar sind. Zudem gibt es ein breites Angebot an Tools, die bei der Automatisierung der Software-Erstellung helfen. Sie unterstützen bei der Entwicklung von Ideen, beim Programmieren, Testen und Warten.

Auf dieser Basis wird die Entwicklung KI-gestützter Prozesse zunehmend einfacher und rückt in mehr und mehr Anwendungsbereiche vor. Illustre Anwendungen sind Chatbots und virtuelle Assistenten, das autonome Fahren oder auch die Analyse und Beeinflussung des Wählerverhaltens. Die tatsächliche Durchdringung verläuft allerdings unterhalb der für das breite Publikum zugänglichen Linie, beispielsweise in Medizin, Kriminalistik oder Fertigung.

Allein in Europa soll das Volumen für KI-Leistungen entsprechend der Prognosen des EITO (European Information Technology Observatory) in den nächsten drei Jahren auf eine Summe von 10 Milliarden Euro anwachsen – mit einer Wachstumsrate von exorbitanten 38 Prozent pro Jahr. Damit rückt die KI-Entwicklung in Sphären vor, wie sie etwa mit der frühen Entwicklung im Mobile- oder im Cloud-Umfeld verglichen werden können.

Transparenz und Nachprüfbarkeit

Doch ebenso, wie die mobile Kommunikation und das World-Wide-Web nicht nur die Technik grundlegend verändert haben, sondern auch fundamentale Strukturen des Zusammenlebens in einer globalisierten Welt, wirft auch die KI neue Fragestellungen auf: Wenn wesentliche Entscheidungen und Reaktionen maschinell getroffen werden, wie lässt sich dann sicherstellen, dass die zugrundeliegenden Algorithmen einer Überprüfung standhalten?

Maschinelle Entscheidungen basieren auf zwei Fundamenten: der verfügbaren Datenbasis und ihrer Interpretation. Beide unterliegen in Anbetracht der Relevanz inzwischen vielfältiger Beobachtung. Das reicht von der ethischen Einschätzung interessierter Gruppen über die vielfältigen regulatorischen Normen von Gesetzgebern oder Brancheninstitutionen bis hin zu der Frage der wirtschaftlichen Relevanz oder organisatorischen Effizienz. Algorithmen sind im Rahmen der KI nicht nur Lösungen für spezifische betriebliche Probleme, sondern können darüber hinaus inzwischen auch ein interessantes Umfeld für Copyrights und Patente darstellen.

Weil die Anwendung von Algorithmen auf die Interpretation von Daten und die Beeinflussung von Prozessen eben die Frage nach den rein (fehlerfreien) programmatischen Implementierungen überschreitet, wird auch eine gänzlich neue Form der Qualitätssicherung benötigt. Von politischer und regulatorischer Seite kommt etwa die Forderung nach Transparenz und Nachvollziehbarkeit. Nur entziehen sich selbstlernende Algorithmen und stetig wachsende Datenbestände einer Dokumentation, weil sie einer kontinuierlichen Veränderung unterliegen.

Bias – die Verzerrung der Realität

Eine besondere Schwierigkeit bei der Implementierung von KI-Lösungen liegt in einem weiteren Phänomen begründet: Bias. Unter Bias wird die Verzerrung der Entscheidungsfindung aufgrund von Voreingenommenheiten bei der Programmierung oder einer unzureichenden Datenbasis verstanden.

Bias erscheint in zwei Formen: bewusst oder unbewusst. Soll beispielsweise im Personalwesen ein KI-gestütztes Tool zur Definition von Gehältern oder zur Identifikation des geeignetsten Bewerbers genutzt werden, dann fließen in die Entscheidung eine Reihe soziologischer Kriterien ein, die sich einer objektiven Messbarkeit entziehen. Alter, Geschlecht, Herkunft oder Erfahrung bilden hier die Grundlage aller diesbezüglichen Entscheidungen, sind aber qualitativ schwer zu fassen.

Zwar treten KI-Tools hier mit der Maßgabe an, persönliche Präferenzen des Sachbearbeiters soweit wie möglich auszuschließen, auf der anderen Seite wird das Problem allerdings auf ein höheres Level verlagert, indem möglicherweise Vorurteile bereits in die Programmierung des Algorithmus einfließen und sie damit gar multiplizieren.

Dabei ist das Phänomen in keiner Weise auf ethischen Fragestellungen begrenzt. Persönliche Bewertungen fließen praktisch in jede KI-Implementierung ein, von der Spracherkennung über die Optimierung von Produktionsprozessen bis hin zur Qualitätssicherung. Die Entwicklung eines transparenten Modells zur Interpretation der Daten – sprich Algorithmen – ist der erste wesentliche Schritt. Der zweite liegt in der Bereitstellung der „richtigen“ Daten in einer ausreichenden Zahl. Die gelernte Gesamtheit der Daten bildet den Korpus für KI-Anwendungen.

Modelle und Korpora bilden die Basis für die Funktionalität von KI-Lösungen, stellen darüber hinaus für Unternehmen auch einen Wert an sich dar, weil sie in der Regel mit hohen Kosten verbunden sind. Die Aufgabe liegt darin, diese Investitionen zu schützen, indem die Qualität von Algorithmen und Daten optimiert wird.

In der Praxis ist dies leichter gesagt als getan. Allerdings ist es eben die Praxis, die es am Ende ermöglicht, die Qualität der Systeme zu beurteilen. Während sich in konventionellen Computersystemen das Testen vergleichsweise einfach darstellt, indem die funktionale Richtigkeit der Programme in unterschiedlichen Anforderungsszenarien nachgewiesen wird, fällt dies bei KI-Lösungen deutlich schwerer.

Algorithmen auf dem Prüfstand

Eine steigende Zahl von Unternehmen geht hier in die Offensive, indem sie ausgewählte Algorithmen als Open-Source-Quelltext veröffentlichen, um Software-Entwicklern die Möglichkeit zu geben, diese zu nutzen und weiterzuentwickeln. Nicht ohne Eigennutz, selbstverständlich, verspricht man sich hieraus eine Erkennung von Fehlern oder eine kreative Optimierung.

Darunter befinden sich sowohl namhafte Automobilhersteller als auch Start-up-Unternehmen im Bereich der Spracherkennung. Das ist ein gangbarer Weg, der allerdings für die meisten Unternehmen, die sich mit dem Einsatz von KI-Techniken beschäftigen, kaum wirtschaftlich realisierbar ist.

Eine Alternative eröffnet sich durch das Konzept des „Crowd-Testing“. Es basiert auf der Idee, die Funktionalität und Unvoreingenommenheit von KI-Softwareanwendungen im Vorfeld im Rahmen eines 360-Grad-Ansatzes zu prüfen. Dabei übernimmt eine globale Community ausgewählter Tester die Aufgabe, die Anwendung in unterschiedlichsten Szenarien im Hinblick auf Usability und Funktionalität unter die Lupe zu nehmen.

Dieses Konzept eröffnet die Möglichkeit, das Anwenderpanel individuell zu definieren und gleichzeitig auf die Expertise der Tester zurückzugreifen. Dieser Ansatz birgt eine Reihe von Vorteilen: Die Panels können in Bezug auf die Größe, Fachspezifik, Heterogenität oder Region ausgewählt werden, um die Relevanz zu begrenzen. Dieses Vorgehen verkürzt nicht nur die Time-to-Market, sondern trägt auch wesentlich zur Wirtschaftlichkeit der Lösung bei, ohne die eigene intellektuelle Leistung preiszugeben.

Jan Wolter
Jan Wolter (Bild: Applause)

Der Einsatz von KI ist eine Herausforderung, die wie bei allen neuen Technologien Chancen und Risiken gleichermaßen beinhaltet. Es gilt, die Chance zu ergreifen und die Risiken zu minimieren – immer im Hinblick auf die wirtschaftliche Machbarkeit. Diese Prämisse gilt auch für das Testing, um Funktionalität, Wirtschaftlichkeit und Regelkonformität für den praktischen Einsatz sicherzustellen.

* Jan Wolter ist General Manager EU bei Applause.

Kommentare werden geladen....

Kommentar zu diesem Artikel

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46301554 / Testing)