„Ambient Intelligence“ beschleunigt Fortschritte bei Sprachsteuerung Wie sich sprachgestützte KI selbst verbessert

Von Rohit Prasad *

Anbieter zum Thema

Bei der Interpretation von Spracheingaben gibt es immer (noch) Verbesserungspotenzial. Der leitende Wissenschaftler hinter Alexa erklärt, wie nutzerzentrierte Forschung die Artificial General Intelligence (AGI) voranbringt.

Die Alexa Teacher Model (AlexaTM) Pipeline. Das Alexa Teacher Model wird auf einem großen Set von GPU-Prozessoren trainiert (links) und dann in kleinere Varianten komprimiert (Mitte). Deren Größe hängt vom jeweiligen Verwendungszweck ab. Die User passen ein komprimiertes Modell an seine spezielle Verwendung an, indem sie es anhand von In-Domain-Daten feinabstimmen (rechts).
Die Alexa Teacher Model (AlexaTM) Pipeline. Das Alexa Teacher Model wird auf einem großen Set von GPU-Prozessoren trainiert (links) und dann in kleinere Varianten komprimiert (Mitte). Deren Größe hängt vom jeweiligen Verwendungszweck ab. Die User passen ein komprimiertes Modell an seine spezielle Verwendung an, indem sie es anhand von In-Domain-Daten feinabstimmen (rechts).
(Bild: Amazon )

Die Welt ist immer stärker vernetzt und Computer durchdringen unser Umfeld zunehmend. Damit bildet sich ein neues Paradigma für die sprachgestützte Künstliche Intelligenz (KI) heraus: Ambient Intelligence oder Umgebungsintelligenz. In diesem Leitbild reagiert unsere Umgebung auf Anfragen und antizipiert unsere Bedürfnisse, versorgt uns mit Informationen oder schlägt Handlungen vor, bevor sie wieder in den Hintergrund zurücktritt.

Diese Vision von Ambient Intelligence unterscheidet sich gar nicht so sehr von der in Star Trek. Doch in den letzten zehn Jahren lag der Fokus auf reaktiver Assistenz – also zum Beispiel darauf, sicherzustellen, dass Sprachdienste Anfragen zur Zufriedenheit der Fragenden beantworten.

Die Vorstellung von Ambient Intelligence ist, dass sich Sprach-KI ein Bild von der gegenwärtigen Situation der User macht, einschließlich der dort befindlichen Geräte, Sensoren, Objekte, Menschen und Vorgänge, um ihnen jederzeit helfen zu können, wenn sie Unterstützung benötigen – entweder reaktiv (auf Initiative der Nutzerinnen und Nutzer) oder proaktiv (auf Initiative der Sprach-KI).

Um das Potenzial von Ambient Intelligence voll auszuschöpfen, müssen Sprachdienste die besten Fähigkeiten maschineller und menschlicher Intelligenz zusammenbringen. Dies ist heute der Maßstab für Artificial General Intelligence (AGI).

Die pragmatischste Definition von AGI ist die Fähigkeit, (1) mehrere Aufgaben gleichzeitig zu erlernen, anstatt jede Aufgabe einzeln zu modellieren; (2) sich kontinuierlich ohne explizite menschliche Steuerung an Veränderungen innerhalb einer Menge bekannter Aufgaben anzupassen; und (3) neue Aufgaben direkt durch Interaktion mit Endusern zu erlernen.

Während diese Merkmale von AGI für alle Arten von KI-Systemen gelten, sind für interaktive Sprach-KI-Dienste zwei weitere Attribute entscheidend:

  • 1. Multisensorische und multimodale Intelligenz – das ist die Fähigkeit, Daten von mehreren Eingangssensoren (z. B. Mikrofone, Kameras, Ultraschall) zu verarbeiten, die Sensordaten für ein besseres Verständnis der Nutzerabsichten zu integrieren und Ausgaben in verschiedenen Modalitäten (z. B. Sprache, Text, Bild, Video) zu erzeugen.
  • 2. Interaktionskompetenzen – die Fähigkeit, sich wie ein Mensch zu unterhalten. Dazu gehört nicht nur das Beherrschen der natürlichen Sprache, sondern auch die Fähigkeit, Gemütszustände zu erkennen und darauf zu reagieren.

Für Anwender und Anwenderinnen bedeutet dies, dass sich die Eigenschaften KI-gestützter Sprachdienste in Zukunft in verschiedener Hinsicht weiterentwickeln. Sie werden:

  • Kompetenter: Ihre Funktionen und Fähigkeiten erweitern sich durch Multi-task Learning schneller. Außerdem wird sich Sprach-KI vermehrt durch Selbstlernen verbessern und weniger auf annotierte Daten angewiesen sein;
  • Natürlicher und dialogorientierter: Die Interaktion mit entsprechenden Anwendungen wird durch multisensorische Intelligenz, verallgemeinerbare Sprachmodelle, Commonsense Reasoning (das Einbeziehen von Weltwissen) und Affektmodellierung so natürlich wie menschliche Interaktionen sein;
  • Personalisierter: Sprach-KI wird sich mithilfe von Sprache und Bilderkennung an jeden Einzelnen anpassen. Außerdem können User sie explizit und implizit personalisieren, also durch konkrete Anweisungen oder den täglichen Umgang damit;
  • Proaktiver: Da er die jeweilige Umgebung kennt, kann der Sprachdienst die Bedürfnisse der Anwenderinnen und Anwender vorhersehen, Vorschläge machen und in ihrem Sinne agieren;
  • Vertrauenswürdiger: Sprach-KI wird in noch stärkerem Maße die Eigenschaften besitzen, die wir an vertrauenswürdigen Menschen schätzen. Dazu zählen Diskretion, Fairness und ethisch korrektes Verhalten.

Der Sprachdienst Alexa etwa hat im vergangenen Jahr bereits Fortschritte in den genannten Bereichen gemacht.

Kompetenter

Alexa erhält jeden Monat Milliarden von Anfragen; der Sprachdienst verfügt derzeit über mehr als 130.000 Skills von Drittanbietern und ist in mehr als 15 Sprachvarianten in über 80 Ländern verfügbar, zuletzt auf Golf-Arabisch in Saudi-Arabien. Dabei ist es entscheidend, dass der Sprachdienst jede davon zur Zufriedenheit der User beantwortet.

Im Jahr 2021 ist Alexa dank Fortschritten in der automatischen Spracherkennung (Automatic Speech Recognition, ASR), dem natürlichen Sprachverstehen (Natural Language Understanding, NLU) und der Handlungsentscheidung um 13 Prozent genauer geworden als im Vorjahr. Zeitgleich ist die Komplexität der Anfragen gestiegen.

Dank der Fortschritte bei großen vortrainierten Sprachmodellen ließen sich die Funktionalitäten des Dienstes sowohl in Bezug auf Skills als auch auf Sprachen einfacher erweitern. Konkret wurde dafür ein „Alexa Teacher Model“ trainiert. Dieses große, vortrainierte, mehrsprachige Modell mit Milliarden von Parametern kodiert sowohl Sprache als auch auffällige Interaktionsmuster.

Anstatt neue aufgabenspezifische NLU-Modelle (z. B. einen Skill, ein Feature oder eine Sprache) von Grund auf mit aufgabenspezifischen Daten zu erstellen, ist dies durch eine Feinabstimmung des Alexa Teacher Models möglich. Mit der gleichen Menge an aufgabenspezifischen Trainingsdaten ermöglicht dies erhebliche Leistungssteigerungen.

Die Alexa Teacher Model (AlexaTM) Pipeline. Das Alexa Teacher Model wird auf einem großen Set von GPU-Prozessoren trainiert (links) und dann in kleinere Varianten komprimiert (Mitte). Deren Größe hängt vom jeweiligen Verwendungszweck ab. Die User passen ein komprimiertes Modell an seine spezielle Verwendung an, indem sie es anhand von In-Domain-Daten feinabstimmen (rechts).
Die Alexa Teacher Model (AlexaTM) Pipeline. Das Alexa Teacher Model wird auf einem großen Set von GPU-Prozessoren trainiert (links) und dann in kleinere Varianten komprimiert (Mitte). Deren Größe hängt vom jeweiligen Verwendungszweck ab. Die User passen ein komprimiertes Modell an seine spezielle Verwendung an, indem sie es anhand von In-Domain-Daten feinabstimmen (rechts).
(Bild: Amazon )

Heute eignet sich das Alexa Teacher Model noch nicht für das Sprachverstehen in Echtzeit. In seiner komprimierten und feinabgestimmten Form ist es jedoch kompakt genug dafür. Es ist dabei genauer als ein von Grund auf neu trainiertes Modell ähnlicher Größe. Die Fähigkeit, über Aufgaben hinweg zu verallgemeinern, ist eines der Kennzeichen von AGI.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Softwareentwicklung und DevOps

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Modelle, die auf dem Alexa Teacher Model basieren, haben bereits dazu beigetragen, Anwenderinnen und Anwender in einigen Ländern die Nutzung zu vereinfachen. In den kommenden Jahren werden sie mehrsprachige und multimodale Anwendungsfälle erleichtern und skalieren.

Neue Funktionen schneller bereitzustellen, reicht jedoch nicht. Die Interaktionen von Usern mit der Sprach-KI entwickeln sich ständig weiter, weshalb diese sich kontinuierlich verbessern muss. Im Falle von Alexa wurde aus diesem Grund die Selbstlernfähigkeit erweitert – insbesondere die Fähigkeit, automatisch aus implizitem Feedback zu lernen, z. B. wenn Anwender den Sprachdienst unterbrechen, um eine Anfrage neu zu formulieren.

Derzeit sind zwei Methoden zum Lernen aus implizitem Feedback möglich. Der erste Mechanismus lernt, die ASR-Ausgabe automatisch umzuformulieren, um eine genauere Antwort zu gewährleisten. Die andere Methode annotiert automatisch Interaktionsdaten, um das Neutraining von NLU-Modellen mit minimaler menschlicher Beteiligung zu ermöglichen.

Auf der Tagung „Conference on Empirical Methods in Natural Language Processing“ (EMNLP) 2021 präsentierten die Wissenschaftler und Wissenschaftlerinnen hinter der Alexa-KI Forschungsarbeiten zu Fortschritten in diesen beiden Bereichen.

Frühere Modelle zur Erkennung von Umformulierungen berechneten Ähnlichkeitswerte zwischen Abfragepaaren (rechts). Das kann zu Ungenauigkeiten führen. Ein neues Modell verwendet stattdessen den vollständigen Dialogkontext (links), um Umformulierungen genauer zu erkennen, indem es semantische Informationen auf Sitzungsebene nutzt. Aus „<u><a target="_blank" HREF="https://www.amazon.science/publications/contextual-rephrase-detection-for-reducing-friction-in-dialogue-system">Contextual rephrase detection for reducing friction in dialogue systems</a></u>”.
Frühere Modelle zur Erkennung von Umformulierungen berechneten Ähnlichkeitswerte zwischen Abfragepaaren (rechts). Das kann zu Ungenauigkeiten führen. Ein neues Modell verwendet stattdessen den vollständigen Dialogkontext (links), um Umformulierungen genauer zu erkennen, indem es semantische Informationen auf Sitzungsebene nutzt. Aus „Contextual rephrase detection for reducing friction in dialogue systems”.
(Bild: Amazon )

Um Anfragen von Usern umformulieren zu können, gilt es zunächst, festzustellen, welche erfolgreichen Anfragen sich aus Umformulierungen erfolgloser Anfragen ergeben haben. Um Umformulierungen zu erkennen, gingen bisherige Untersuchungen wie folgt vor: Sie betrachteten Sätze in Paaren und bestimmten die Wahrscheinlichkeit, dass einer davon eine Umformulierung des anderen ist.

Im Paper zur EMNLP erläutern die Forschenden, wie zeitliche Merkmale des Dialogverlaufs genutzt werden können, um Umformulierungen besser zu erkennen. In einem Testdatensatz verbesserte dies die Genauigkeit um 28 Prozent.

In einem weiteren Artikel beschreiben die Forscherinnen und Forscher einen skalierbaren Ansatz, mit dem sich automatisch annotierte Daten zur kontinuierlichen Aktualisierung von NLU-Modellen verwenden lassen. Diese Forschungsarbeit zeigt, wie Erkenntnisse zur automatischen Datenannotation genutzt werden können, um unmittelbare Ergebnisse auf Anfragen zu liefern.

Natürlicher und dialogorientierter

Auch wenn es gut funktioniert, mit Sprachdiensten nur über das Aktivierungswort zu agieren, fühlt es sich unnatürlich an, dieses bei längeren Interaktionen zu wiederholen. Wenn Menschen miteinander sprechen, verwenden sie schließlich auch nicht bei jeder Gelegenheit den Namen des Gegenübers.

In dieser Hinsicht ist es mit Blick auf Alexa mittlerweile gelungen, die Interaktion natürlicher zu gestalten. Der Conversation Mode nutzt die Kamera des Echo Show 10, um Interaktionen ohne Aktivierungswort zu ermöglichen. Er erkennt besser, ob eine Person sich an das Gerät richtet (d.h. die hat Absicht, Alexa anzusprechen) – selbst wenn sich mehrere Menschen im Raum befinden, die sich sowohl untereinander als auch mit dem Sprachdienst unterhalten.

Der Conversation Mode nutzt neuartige Computer-Vision-Algorithmen, um die physische Ausrichtung der Nutzerinnen und Nutzer zum Gerät zu bestimmen. Daran lässt sich erkennen, ob sie den Sprachdienst oder sich gegenseitig ansprechen. Durch die Kombination visueller und akustischer Informationen kann wesentlich genauer erkannt werden, ob das Gerät angesprochen wird, als wenn beide Modalitäten unabhängig voneinander eingesetzt werden. Darüber hinaus erkennt die Sprach-KI Konversationssprache fast ohne Verzögerung, dank der geräteinternen Spracherkennung mit vollständig rekurrenten-neuronalen Netzwerken.

Im Falle von Alexa wird außerdem daran gearbeitet, das Konversationsgedächtnis über anaphorische Verweise innerhalb einer Interaktionssitzung hinaus zu erweitern (z. B. „Wie hoch ist dessen Auflösung?“ beim Einkauf von Fernsehern). So wird in bestimmten Situationen die Erinnerung sitzungsübergreifend vorübergehend aufrechterhalten.

Zum Beispiel erinnert sich Alexa beim Kauf eines Fernsehers an die letzte Interaktion und setzt bei der nächsten dort an, wo sie aufgehört hat. Für diese Fähigkeit wurde die Dialog-Management-Funktion „Alexa Conversations“ erweitert. Diese trainiert Deep-Learning-basierte Modelle mithilfe synthetischer Daten, die automatisch aus einer kleinen Menge von Developern bereitgestellter Daten generiert werden.

Doch so effektiv große, Transformer-basierte Sprachmodelle bei der Generierung von Textantworten auch sein mögen, es fehlen ihnen doch das Allgemeinwissen (common sense) und der Wirklichkeitsbezug (grounding), um bei breit angelegten Mensch-Maschine-Interaktionen wirklich nützlich zu sein.

In jedem Dialog im Commonsense-Dialogdatensatz werden aufeinanderfolgende Wortwechsel durch Beziehungs-Triple im öffentlichen Commonsense-Wissensgraphen Conceptnet in Beziehung gesetzt, z. B. „Klavier, RelatedTo, musikalisch“ oder „musikalisch, RelatedTo, Geige“.
In jedem Dialog im Commonsense-Dialogdatensatz werden aufeinanderfolgende Wortwechsel durch Beziehungs-Triple im öffentlichen Commonsense-Wissensgraphen Conceptnet in Beziehung gesetzt, z. B. „Klavier, RelatedTo, musikalisch“ oder „musikalisch, RelatedTo, Geige“.
(Bild: Amazon )

Um Erfindungen zu fördern, mit denen sich diese Herausforderungen bewältigen lassen, wurde der Dialogdatensatz „Commonsense“ veröffentlicht. Er besteht aus mehr als 11.000 neu gesammelten Dialogen. In jedem Dialog sind aufeinanderfolgende Wortwechsel durch Beziehungs-Triple im öffentlichen Commonsense-Wissensgraphen Conceptnet miteinander verbunden, z. B. <Arzt, LocateAt, Krankenhaus> oder <Facharzt, TypeOf, Arzt>.

Eine weitere Möglichkeit, Allgemeinwissen in Dialogmodelle einzubringen, besteht darin, diese in die Lage zu versetzen, Informationen bei Bedarf aus dem Internet oder anderen Quellen zu importieren. Eine Möglichkeit dazu bietet z. B. ein Few-shot-learning-Ansatz, um einen Detektor zu trainieren, der Anfragen erkennt, die nicht durch bestehende API-Aufrufe beantwortet werden können.

Auch zum Thema Affektmodellierung wird geforscht. Die Wissenschaftlerinnen und Wissenschaftler hinter Alexa zeigten z. B., wie sich kontrastives nicht überwachtes Lernen nutzen lässt, um die Emotionserkennung bei begrenzten Trainingsdaten zu verbessern. Außerdem stellten sie dar, wie sich vortrainierte Sprachmodelle an das Problem des sozialen und emotionalen Commonsense-Reasoning anpassen lassen.

Solche Sprachmodelle sind bei der Verarbeitung natürlicher Sprache erfolgreich. Umgekehrt erkennen menschliche Sprechende, wenn sich der Gemütszustand ihres Gesprächspartners verändert, und passen den Affekt ihrer Antworten an. Das Forscherteam hinter Alexa hat in diesem Kontext seine frühere Arbeit zur Prosodie-Variation erweitert, um die affektiven Eigenschaften synthetischer Sprache anzupassen.

Personalisierter

Die Fähigkeit von Sprach-KI, sich Kunden und Kundinnen anzupassen und nicht umgekehrt, unterscheidet sie von anderen technologischen Entwicklungen. Um Sprach-KI im Selbstbedienungsmodus zu personalisieren, existieren grundsätzlich verschiedene Funktionen:

Mit Preference Teaching können User Sprachdiensten wie Alexa explizit mitteilen, welche Skills Fragen zum Wetter beantworten sollen, welche Sportmannschaften sie verfolgen und was sie gerne essen.

Eine zweidimensionale Projektion von Einbettungen, die durch die Custom Sound Event Detection erzeugt wurden. Neue Klänge werden anhand ihrer Position im Einbettungsraum identifiziert.
Eine zweidimensionale Projektion von Einbettungen, die durch die Custom Sound Event Detection erzeugt wurden. Neue Klänge werden anhand ihrer Position im Einbettungsraum identifiziert.
(Bild: Amazon )

Mit Custom Sound Event Detection lässt sich die KI darauf trainieren, neue Geräusche – wie beispielsweise den Klang einer Türklingel – nach nur wenigen Beispielen zu erkennen. Diese Funktion nutzt die Nähe im Repräsentationsraum eines neuronalen Netzwerks, um Instanzen desselben Tons zu erkennen.

Custom Event Alerts für Ring Video Doorbell Kameras und Spotlight Kameras funktioniert ähnlich. Auf Grundlage weniger Beispiele können Anwender ihre Geräte darauf trainieren, bestimmte Umgebungszustände zu erkennen – wie zum Beispiel eine Schuppentür, die offen gelassen wurde.

Die Funktion der adaptiven Lautstärke ermöglicht, dass die eingesetzten Smart Speaker ihre Lautstärke an die Umgebung anpassen, so dass die wahrgenommene Lautstärke subjektiv gleich bleibt. Eines der Schlüsselelemente des Ansatzes ist die algorithmische Trennung von Sprach- und Geräuschsignal, wodurch diese als separate Eingaben für die Anpassung der Lautstärke fungieren.

Die Opt-in-Funktion des adaptiven Zuhörens wiederum gibt den Anwenderinnen und Anwendern mehr Zeit, zu Ende zu sprechen, bevor die Sprach-KI antwortet. Diese ist dadurch zugänglicher und hört geduldiger zu. Dies birgt vor allem bei Sprachbehinderungen Vorteile.

Proaktiver

Heute wird jede vierte Smart-Home-Interaktion von Alexa ausgelöst. Das ist auf die Ausweitung der vorausschauenden und proaktiven Funktionen wie Hunches und Routinen zurückzuführen.

Die Funktion der Hunches ermöglicht, Unregelmäßigkeiten in den Alltagsabläufen der User zu erkennen und Korrekturen vorzuschlagen. Wurde zum Beispiel nachts ein Licht angelassen, bietet die Sprach-KI an, es auszuschalten. Bei Bedarf ist es Nutzern und Nutzerinnen möglich, Hunches proaktiver zu gestalten. Somit kann der Sprachdienst in ihrem Sinne handeln und z. B. das Licht ausschalten, ohne vorher zu fragen.

Mit Routinen lässt sich mit einem einzigen Sprachbefehl eine Abfolge von Aktionen einleiten, anstatt immer wieder die gleichen Anweisungen zu geben. Früher galt es festzulegen, welche Aktionen auf diese Weise verbunden werden sollten. Mit den sogenannten erschlossenen Routinen kann die Sprach-KI Handlungsabfolgen erkennen, die sich häufig wiederholen, und schlägt vor, diese zu einer Routine zu kombinieren. Dazu gehören zum Beispiel das Einschalten des Küchenlichts, das Starten der Kaffeemaschine und das Abspielen einer bestimmten Playlist am Morgen. Um die Routine zu speichern genügt es, den Vorschlag einfach anzunehmen.

Im Kontext der sogenannten Latent-Goal Prediction ist ein KI-gestützter Sprachdienst darüber hinaus in der Lage, das größere Anwenderbedürfnis zu erkennen, das eine Anfrage implizit enthält. Um dieses zu erfüllen, schlägt er Aktionen oder Fähigkeiten vor. Lautet die Frage zum Beispiel: „Wer hat das Celtics-Spiel gewonnen?“, könnte die Sprach-KI antworten und anschließend fragen: „Möchten Sie wissen, wann die Celtics das nächste Mal spielen?“.

Die Latent-Goal Prediction nutzt punktweise Transinformation, um die Wahrscheinlichkeit eines Interaktionsmusters in einem bestimmten Kontext im Verhältnis zu seiner Wahrscheinlichkeit im gesamten Traffic des Sprachdienstes zu messen. Sie nutzt außerdem Bandit Learning, um zu verfolgen, ob Empfehlungen hilfreich sind oder nicht, und verhindert so nicht zufriedenstellende Erfahrungen.

Mithilfe der Funktion der visuellen ID lässt sich die Proaktivität weiter ausgestalten. Auf verschiedenen Echo Show-Geräten etwa erlaubt sie Alexa, Notizen und andere Erinnerungen nur für die jeweiligen Nutzenden anzuzeigen (z. B. „Hinterlasse eine Notiz für Jack, dass sein neuer Reisepass angekommen ist“).

Die visuelle ID ist auch für Astro verfügbar, einen Alexa-fähigen Heimroboter, der die Umgebung und den Zustand eines Raums wahrnimmt. Astro kann Usern folgen und währenddessen Medien wiedergeben. Oder Astro kommt auf sie zu, um Anrufe, Nachrichten, Timer, Alarme oder Erinnerungen zu übermitteln. Mit einem Ring-Protect-Pro-Abonnement überwacht Astro das Zuhause proaktiv und geht ungewöhnlichen Aktivitäten nach.

Vertrauenswürdiger

Ambient Intelligence birgt auch Implikationen für die Privatssphäre. Ein diesbezüglich relevantes Forschungsgebiet ist Differential Privacy. Das Forscherteam hinter Amazon Alexa beschäftigte sich z. B. damit, die Leistung von Machine-Learning-Modellen zu verbessern und gleichzeitig die Datenschutzstandards der Differential-Privacy-Analyse zu erfüllen.

Zudem haben die Forscherinnen und Forscher eine Methode zum Schutz der Privatsphäre entwickelt, bei der Trainingstexte automatisch umformuliert werden, ihr semantischer Sinn jedoch erhalten bleibt. Dies passiert auf eine Weise, die wiederum die Differential-Privacy-Standards erfüllt.

(Bild: Glynis Condon )

Damit KI-gestützte Sprachdienste für alle Nutzenden gleich gut funktionieren, gilt es außerdem, die Erkennung und Entschärfung unangemessener Voreingenommenheit besser zu erforschen. Das Team hinter Alexa hat in diesem Kontext beispielsweise versteckte Verzerrungen in Datensätzen sowie in der Sprachgenerierung untersucht.

Der Weg in die Zukunft

Rohit Prasad
Rohit Prasad
(Bild: Amazon )

Die verschiedenen Wege zu AGI haben jeweils noch Jahre der Grundlagenforschung vor sich. Sprachdienste wie Alexa und die zugrunde liegende Vision einer Ambient Intelligence werden einen pragmatischen Weg in Richtung AGI bieten. Und zwar einen Weg, bei dem jeder Fortschritt den Einsatz von Sprach-KI im Alltag der Enduser nützlicher macht.

* Rohit Prasad ist Senior Vice President und leitender Wissenschaftler hinter der KI von Alexa.

(ID:48398480)