Spracherkennung

Anwendungssteuerung durch Sprache

| Autor / Redakteur: Gottlieb Stiebner * / Julia Moßner

Werden wir bald in der Lage sein, Anwendungen nur durch unsere Stimme zu steuern? Bislang sind noch einige Herausforderungen zu meistern.
Werden wir bald in der Lage sein, Anwendungen nur durch unsere Stimme zu steuern? Bislang sind noch einige Herausforderungen zu meistern. (Bild: Pexels / CC0)

Im Consumer-Markt erfreuen sich Sprachassistenten wie Siri, Cortana und Google Assistant zunehmender Beliebtheit. Bevor Stimmenaktivierungssysteme im Unternehmensumfeld zum Einsatz kommen können, gibt es jedoch einige Hürden zu meistern.

Es kann noch lange dauern, bis wir jemanden treffen, der alle Eigenschaften von HAL aus „2001: Odyssee im Weltraum“ aufweist. Klar ist aber auch, dass es bereits Technologien gibt, mit denen Unternehmen ihren operativen Betrieb erheblich optimieren können.

Die Herausforderungen in Unternehmensumgebungen

Wie weit sind wir auf dem Weg zur Sprachsteuerung vorangekommen? Die Stimmenanalyse-Firma VoiceLabs hat die verschiedenen Schichten beschrieben, die nötig sind, um einen Voice-First-Ansatz in der Verbraucherwelt umzusetzen. Bevor wir jedoch neben den einfachen verbraucherorientierten Anwendungsfällen auch Anwendungen in komplexen mehrsprachigen Unternehmensumgebungen unterstützen können, müssen noch ein paar Dinge passieren.

Sicherer Zugang

Soll jeder in der Lage sein, unternehmenskritische Geräte oder Systeme zu kontrollieren, indem er einfach nur spricht? Auch Datenschutz ist in vielen Branchen ein wichtiges Thema: Sind beispielsweise die Rechte eines Patienten verletzt, wenn durch Sprachbefehle die medizinischen Daten eines Patienten an Dritte gelangen?

Es gibt bereits die nächste Generation der Spracherkennungssysteme, bei der die Technologie einen sicheren Zugang unterstützt. Banken nutzen diese Systeme, um die Sprachauthentifizierung für ihre Telefonbanking-Systeme einzuführen. Einige Kunden machen sich dabei Sorgen um die Sicherheit ihres Kontos.

Vermutlich werden wir hier jedoch einen vergleichbaren Adoptionszyklus sehen wie beim E-Commerce. Dort mussten auch erst die anfänglichen Bedenken bezüglich eines möglichen Kreditkartenbetrugs überwunden werden, bevor es zum kometenhaften Aufstieg des Online-Shoppings kommen konnte.

Während unsere Mikrowelle uns nicht ausspionieren kann, werden einige Geräte immer eingeschaltet sein und möglicherweise immer bereit, uns aufzunehmen. Das heißt, dass ein großer An-/Aus-Schalter oder eine entsprechende Funktion in die Voice-First-Produkte aufgenommen werden muss, damit der Anwender die Vorteile nutzen kann, ohne eine ständige Überwachung befürchten zu müssen. Außerdem ist es wichtig, dass die Produkte über einen zuverlässigen sicheren Software-Zugang verfügen, um Hacking-Angriffe zu verhindern und zu erkennen.

Bessere Spracherkennungssysteme

Die ersten Anwendungsfälle sind vor allem Sprachdialogsysteme, wie sie beispielsweise in Call-Centern eingesetzt werden oder in unseren Autos und Smartphones implementiert sind. Aber wie viele von uns aus eigener Erfahrung wissen, funktionieren diese Systeme nicht zuverlässig. Spracherkennung und Kontextualisierung müssen durch technologische Entwicklungen noch deutlich verfeinert werden, bevor wir realistisch über einen unternehmensweiten Einsatz nachdenken können.

Forschungsprogramme wie das Sphinx-Projekt der Carnegie-Mellon-Universität verbessern die Spracherkennung immer weiter. DerInternet-Trends-Bericht von Mary Meeker kam zu dem Schluss, dass das Spracherkennungssystem von Google im Jahr 2016 über fünf Millionen Wörter mit einer Genauigkeit von rund 90 Prozent erkennen konnte. Aber das ist noch lange nicht umfangreich oder genau genug. Oder reicht eine Genauigkeit von 90 Prozent etwa aus, wenn es um die Steuerung von lebenserhaltenden Apparaten in einem Krankenhaus oder die Interaktion mit dem Netzwerk eines Versorgers geht?

Es geht ja auch nicht nur um die Erkennung von Wörtern, sondern auch um das, was mit den Wörtern zu tun ist. Hier kommen Cognitive Engines und KI ins Spiel. Einige der großen Anbieter in der Branche – zum Beispiel Microsoft mit seiner Open Source Cognitive Recognition Engine – unterstützen die Systeme dabei, den Kontext der Wörter zu verstehen. „Wie komme ich zum Bahnhof?“ mag einfach klingen, aber es muss zum Beispiel mit Hilfe von Standorterkennung in den richtigen Kontext gebracht werden.

Die Suche nach dem tieferen Sinn

Die eigentliche Herausforderung besteht aber in dem, was sich hinter den Spracherkennungssystemen verbirgt – von der Integration der IoT-Geräte bis hin zum System selbst. Und in der Notwendigkeit sicherzustellen, dass die gegebenen Befehle einen Sinn ergeben. Hier müssen wir die Cognitive Engines noch mehr für die Prüfung und Validierung einsetzen.

Nehmen wir an, jemand gibt aus Versehen den Befehl „Kühlsystem des Reaktors 4 abschalten“ – gemeint ist aber Reaktor 3, der bereits heruntergefahren ist. Oder ein Arzt verschreibt über das System die Überdosis eines Medikaments, weil er versehentlich 400 Gramm sagt statt 400 Milligramm. Das mögen ausgefallene Beispiele sein, sie zeigen aber die Notwendigkeit einer ganzheitlichen Sicht auf die Aktionen, die automatisiert gesteuert werden. Nur so kann menschliches Versagen verhindert und eine Intelligenz bereitgestellt werden, die die durch die Sprachsteuerung ausgelösten Handlungen bewerten kann.

API-Plattformen für sprachintegrierte Systeme

Ein interessantes Element, das strategisch mit der Entwicklung von echten sprachgesteuerten Unternehmensumgebungen zusammenhängen kann, beruht auf den Innovationen in der traditionellen Sprachkommunikation. Wir erleben einen explosionsartigen Anstieg von CPaaS (Communication Platform as-a-Service) im Unternehmen, die APIs nutzen, um die bestehenden Anwendungen zu sprachintegrierten Lösungen weiterzuentwickeln. Einige der großen Sprachkommunikationsanbieter treten jetzt in diesen Markt ein. Sie bieten CPaaS-Infrastrukturen mit einem Standard-Set an APIs, mit denen Unternehmen die Kommunikation in ihre Geschäftsprozesse integrieren können.

Traditionell betrachten wir die Integration von Sprach- und Videodiensten in bestehende Anwendungen – denken Sie nur an eine Bankanwendung, die Ihnen erlaubt, vom Online-Banking direkt zu einem Sprachanruf mit Ihrem Bankberater zu wechseln. Diese Dienste werden auch eine große Rolle in der „Voice First“-Umgebung spielen werden, indem sie die umfassende API-Infrastruktur der CPaaS-Plattformen nutzen, um mit Anwendungen und Dingen zu kommunizieren.

Neben den Anforderungen an die Kommunikationsinfrastruktur muss die Art und Weise, wie CPaaS oder andere Plattformen mit Geräten kommunizieren, standardisiert werden, bevor wir eine schnelle Entwicklung der Sprachtechnologie sehen werden. Jedes der heutigen sprachgesteuerten Verbrauchersysteme hat eigene Schnittstellen und eigene API-Integrationen.

Wie bei dem historischen Kampf „Beta vs. VHS“ vor Jahrzehnten kann das zum Veralten von Produkten führen. Verbraucher wollen nicht die neueste „smarte Kaffeemaschine“ kaufen, wenn die Plattform, die sie steuert, gerade eingestellt wurde. Und genauso möchten Unternehmen sicherstellen, dass die neuen Technologien, in die sie investieren, nicht veraltet sind, bevor die Investition sich amortisiert hat.

Das Beste kommt noch

Erfreulicherweise wird gerade eine Reihe von Technologien entwickelt, mit denen die Gefahr verringert wird, das Technologien zu schnell überholt werden. Frameworks wie das Open Source Projekt IoTivity wollen eine standardisierte Plattform bauen. Wir erleben die Vorteile und die schnelle Ausbreitung neuer Sprachanwendungen bereits B2C-Umfeld.

In naher Zukunft werden wir sehen, wie einige Anwendungsfälle auch in den Unternehmen zum Tragen kommen. Längerfristig wird es angesichts der Fortschritte bei der Spracherkennung, Sprachsicherheit und bei der Vereinfachung und Standardisierung der Gerätekonnektivität immer mehr Voice-First-Aktivitäten sowohl in der Konsumenten- als auch in der Enterprise-Welt geben, um die Komplexität zu reduzieren und unsere Produktivität zu steigern.

Dieser Beitrag stammt ursprünglich von unserem Schwesterportal Industry-of-Things.de.

* Gottlieb Stiebner arbeitet im Business Development Cloud Services bei ALE.

Kommentare werden geladen....

Kommentar zu diesem Artikel

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44916467 / Embedded Software)