Voice Interfaces – Die drei größten Herausforderungen

Marcel Naujeck, 15. November 2018

SIR

Mit Voice Interfaces glaubt man – wie bei jedem Trend – ein Allheilmittel gefunden zu haben. Doch ist ihr Einsatz längst nicht bei jedem Problem sinnvoll. Für welche Dienstleistungen können Sie einen echten Mehrwert bieten? Wie muss ein guter Dialog aussehen und wie garantiert man Kunden einen sicheren Umgang mit ihren Daten? Wir zeigen Ihnen, auf was Sie unbedingt achten sollten.

In der Theorie müssten sich Voice Interfaces hervorragend in unseren Alltag integrieren lassen. Wir sind es gewohnt, Informationen in Sprache zu verpacken und unsere Wünsche verbal zu äußern. Für die Informationsweitergabe benutzen wir allerdings nicht ausschließlich diesen Weg der Kommunikation. Häufig werden Informationen auch nonverbal weitergegeben, mittels Gestik, Mimik oder Tonfall. In Online-Chats versuchen wir die mangelnden Möglichkeiten der nonverbalen Kommunikation mit Hilfe von zahlreichen Emojis auszugleichen. Meist gestikulieren wir wild herum, wenn wir Superlativen beschreiben. So machen wir beispielsweise ausladende Gesten, um die Größe oder Breite von etwas zu untermauern. Sehen wir etwas Außergewöhnliches und möchten es beschreiben, können dies aber wie bei einem Telefonat, einer E-Mail oder einem Brief nur verbal, fühlen wir uns in unseren Möglichkeiten meist sehr beschränkt und verweisen lieber auf die mitgeschickten Bilder. Wenn wir online auf ein tolles Gadget mit unzähligen Gadgets gestoßen sind, und einem Freund davon erzählen, zählen wir nur einige davon auf. Das tun wir nicht nur, weil wir nicht genügend Zeit haben, sondern auch, weil wir wissen, dass unser Gegenüber vielleicht ganz andere Features spannend findet. Unsere Erfahrung sagt uns, dass es viel sinnvoller wäre, ihm einfach den Link zu dem jeweiligen Produkt zu schicken, damit er selbst nachsehen kann, was ihm an diesem Gadget besonders gefällt.

Wie es sich im Alltag mit der rein verbalen Kommunikation verhält, so ist es auch mit Voice Interfaces. Längst nicht jeder Anwendungsfall hat das Potenzial durch Voice Interface einen Mehrwert zu generieren. Ein Beispiel dafür ist der Skill Store von Amazon‘s Alexa. Dort gibt es sehr viele sogenannte Skill-Leichen, also schlecht bewertet Skills, die niemand nutzt. Skills für Voice Interfaces sind das Äquivalent zu Apps aus der Mobile-Welt. Was charakterisiert diese Skill-Leichen? Sie haben keinen Mehrwert für den Nutzer. Entweder sind sie einfach nicht für Voice Interfaces ausgelegt oder nicht vernünftig für Dialoge konzipiert und treiben so manchen Nutzer in den Wahnsinn. Aber woran liegt das? Was muss man besser machen und wie kann man Skill-Leichen vermeiden?

1. Finden Sie einen sinnvollen Anwendungsfall

Häufig nutzen wir im Alltag Phrasen wie „Kannst du mir mal eben...?“, „Ich brauche mal kurz...“ oder „Wie war noch gleich...?“. Vor allem, wenn wir wenig Zeit oder schlicht die Hände voll haben. Gerade in diesen Situationen haben wir nicht die Möglichkeit, uns vor einen Computer zu setzen oder unser Handy herauszuholen. Und genau hier gibt es die perfekten Szenarien für die sinnvolle Nutzung von Voice Interfaces. Denkbar sind Auskünfte aller Art, die Steuerung von anknüpfenden Systemen wie Smart Home oder auch Dienstleistungen, wie die Buchung eines Mietwagens. Auch sind alle „Hand Free“- Szenarien prädestiniert für Voice Interfaces. Der Mechatroniker, der mit öligen Händen am Motor arbeitet und eine spezielle Information zu einem Ersatzteil benötigt oder der Hobbykoch, der beim Teigkneten den nächsten Rezeptschritt wissen möchte.

Software dient dazu, unseren Alltag leichter oder angenehmer zu machen. Und genau das zählt beim Einsatz von Voice Interfaces. Es geht um kurze Anfragen, sinnvolle Unterstützung und schnelle Resultate. Um Pragmatismus eben. Überlegen Sie deshalb genau, welchen Service oder welchen Anwendungsfall Sie für ein Voice Interface anbieten möchten und ob es für den Nutzer in seinem privaten oder beruflichen Alltag wirklich eine Hilfe ist.

2. Denken Sie Dialoge immer neu und niemals in visuellen Konzepten

Als seinerzeit die Smartphones und damit auch mobile Apps in einer Revolution den Markt überschwemmten, wurden die bereits bestehenden Konzepte einfach kleiner skaliert und übernommen. Erst im Laufe der Zeit wurden diese adaptierten Konzepte verfeinert und für die mobile Darstellung angepasst. Die visuelle Informationsverarbeitung des Menschen ist jedoch sehr selektiv. Das Unterbewusstsein wirkt wie ein Filter, der unsere Aufmerksamkeit auf die für uns wichtigen Dinge lenkt. Weitere Informationen führen wir uns erst später gezielt vor Augen. Dagegen funktioniert die auditive Wahrnehmung ganz anders. Hier kann nicht das Unterbewusstsein entscheiden, welche Informationen wir zuerst aufnehmen. Stattdessen konsumieren wir alles Gehörte in vorgegebener Reihenfolge.

Und genau hier hat der erste große Fehler seinen Ursprung: Bei der Konzeption eines Skills für ein Voice Interface geht man fälschlicherweise davon aus, dass es mit der einfachen Adaption eines bereits funktionierenden visuellen Konzepts getan sei. Doch visuelle Konzepte beinhalten zu viele Informationen für ein Voice Interface. Übernimmt man all diese Inhalte, wird der Nutzer mit langen Texten und unzähligen Informationen überflutet. Das ist sehr anstrengend und unangenehm. Aus diesem Grund hat Amazon bereits die sogenannte "ein-Atemzug-Regel“ ins Leben gerufen. Sie besagt, dass der Text, den Alexa in einer Interaktion mit dem Nutzer sagen soll, nicht länger als ein langsamer Atemzug sein darf. Damit sich der Nutzer also nicht überfordert fühlt und das Voice Interface besser annimmt, muss man sich eingehend mit den zu transportierenden Informationen beschäftigen und sollte Textlängen sowie Informationsbeschränkung berücksichtigen.

Lange Dialogstrecken vermeiden: Ein zweiter großer Fehler in Bezug auf Dialoge, der auch auf der Adaption von visuellen Konzepten beruht, sind zu lange Dialogstrecken. Besonders im E-Commerce sind wir gewohnt, Seite für Seite durch einen Prozess geführt zu werden, damit das System am Ende alle für den Kauf benötigten Informationen zur Verfügung stehen hat. Diese Prozesse sind stabil und führen in den meisten Fällen zum Erfolg. Anders verhält es sich bei einem Voice Interface. Ein einfacher, vom Interface geführter Frage-Antwort-Dialog in mehreren Schritten, kann schnell mehrere Minuten dauern. Lässt man sich bei der Antwort zu viel Zeit, wird der Dialog meist einfach beendet. Wird etwas falsch oder gar nicht verstanden, kann es zu Fehlern kommen. Hinzu kommt, dass einige bekannte Interfaces, auch ohne ersichtlichen Grund, einfach mal aus dem Dialog aussteigen. Das ist umso ärgerlicher, je weiter fortgeschritten dieser zähe Dialog ist. Um das zu vermeiden, können bei der ersten Nutzung eines Voice Interfaces bestimmte Grundinformationen des Nutzers abgefragt und als Grundannahmen in der weiteren Nutzung vorausgesetzt werden. Gegebenenfalls kann man auf diese sogenannten Default-Daten auch von anderer Stelle zugreifen. Möchte ein Nutzer beispielweise eine Reise nach München buchen, benötigt das Voice Interface dafür folgende Daten: Abreiseort, Zielort, Datum, Uhrzeit, bevorzugte Reise- und Zahlungsart. Der Nutzer hat zuvor bereits schon einmal angegeben, dass er in Hamburg lebt, meist mit der Bahn reist und häufig mit Kreditkarte bezahlt. Als Abreisezeit wird standardmäßig der nächstmögliche Zeitpunkt gewählt. Das Interface würde also mit nur einer Frage, nämlich der nach dem Zielort, eine valide Buchung vornehmen können. Und das ohne ein langes und möglicherweise fehlerbehaftetes Frage-Antwort-Spielchen mit vielen Wiederholungen und fehlender Dynamik. Änderungen der vorhandenen Daten, sollte der Nutzer zu im Anschluss immer vornehmen können.

Unterschiedliche Phrasen zur richtigen Zeit und in angenehmer Dynamik: Sprache gibt uns die Möglichkeit, eine bestimmte Aussage auf viele unterschiedliche Weisen auszudrücken. Sprachliche Varianz ist ein Ausdruck von Intelligenz. Warum sollten Voice Interfaces in ihren Formulierungen deshalb nicht ebenfalls variieren können? Durch mehr Dynamik und zahlreiche Phrasen wirken der Umgang und die gesamte Interaktion deutlich natürlicher. Das Interface passt sich so dem Nutzer an statt umgekehrt. Diese sprachlichen Anpassungen beziehen sich auch auf die wiederholte Nutzung des Interfaces. Wenn das Interface bei der ersten Nutzung alles ausführlich erklärt, sollten Wiederholungen bei der weiteren Nutzung vermieden werden, außer der Nutzer bittet darum. In Situationen, in denen der Nutzer Hilfe benötigt, gibt es ebenfalls einiges zu beachten. Bei einem Voice Interface ist nicht "ersichtlich" wie man mit ihm umgehen soll. Daher gibt es die Möglichkeit um Hilfe zu fragen. Dabei kann das Interface berücksichtigen, in welcher Situation sich der Nutzer gerade befindet. Schließlich weiß es, ob sich der Nutzer beispielsweise gerade in einem Warenkorb oder bei der Angabe eines Datums für eine Reise befindet. So ist es kein Problem, dem Nutzer bei einer Hilfsanfrage im Warenkorb auch tatsächlich nur Hilfe zum Warenkorb anzubieten. Dieses Wissen sollte unbedingt genutzt werden, um situativ die bestmögliche Unterstützung zu geben.

3. Sorgen Sie für sichere Dialoge

Wie bei jeder Softwareentwicklung ist Datensicherheit auch bei Voice Interfaces ein zentrales Thema. Was muss also bei Analyse und Konzeption beachtet werden? Im Beitrag „Voice Interfaces – Das Hier und Jetzt“ wurden bereits die Big Player unter die Lupe genommen. Die dort beschriebenen Interfaces sind allesamt Cloud-basiert. Somit findet die Analyse und Verarbeitung der Sprache nicht lokal auf dem eigenen Rechner statt, sondern in den jeweiligen Rechenzentren der Anbieter. Im Rahmen der DSGVO müssen diese Anbieter nicht nur Auskunft darüber geben, wo sich die verarbeitenden Server befinden, sondern sich ebenfalls an die geltende Grundverordnung halten. Doch stellt sich die Frage, welcher Finanzdienstleister oder welche Krankenkasse hoch sensible Kundendaten in der Cloud eines fremden Unternehmens speichern möchte. Amazon beispielsweise bietet beim Zugriff auf ihre Services mit der verschlüsselten Übertragung oder der Authentifizierung via OAUTH2 zwar ein hohes Maß an Sicherheitsstandards, doch ist alles andere in deren Infrastruktur für Nutzer oder Entwickler nicht einsehbar. Es ist nahezu unmöglich ein Voice Interface, welches mit sensiblen Daten arbeiten soll, so zu anonymisieren, dass auf Cloud-Seite des Anbieters keine Rückschlüsse auf den Nutzer möglichen wären. Alles Gesagte wird in der Cloud verarbeitet – und alles was das Interface zum Nutzer sagt, ebenfalls. Es gibt hier also nur die Möglichkeit einen Anwendungsfall zu finden, bei dem keine sensiblen Daten genutzt werden.

Warum die Cloud? Segen und Fluch bei aktuellen Voice Interfaces ist, dass das Transkribieren und Analysieren von Sätzen auf Machine-Learning-Technologie basiert. Sobald ein Dialogmodel erarbeitet wurde, muss das System dieses Model lernen, damit es anschließend auch ähnliche Satzvarianten verstehen kann. Dieses „Lernen“ ist ein rechenintensiver Vorgang, welcher auf der Hardware eines Servers ausgeführt wird. Aus dieser Perspektive sind diese Cloud-Lösungen natürlich pragmatisch und scheinbar essenziell. Doch es gibt einige wenige Lösungen im Bereich Voice Interfaces, die auf lokalen Rechnern oder eigenen Servern lauffähig sind. So bietet beispielsweise der Softwarehersteller „Nuance“ mit der Spracherkennungssoftware Dragon ein Tool, welches das Transkribieren auf eigener Hardware ermöglicht.

Was ist im Umgang mit Pins und Passwörtern zu beachten? Ein weiterer Aspekt bei der Datensicherheit ist die Art des Interfaces. Während wir bei einem visuellen Interface mit einem schnellen Schulterblick prüfen können, ob uns jemand bei der Eingabe unseres Passworts auf die Finger guckt, ist es bei der Sprache weitaus problematischer. Das Abgreifen sicherheitsrelevanter Daten ist daher ein leichtes Spiel. Pins und Passwörter sollten deshalb niemals Teil eines Voice Interfaces sein. Hier ist die Verbindung mit einer visuellen Komponente ratsamer. In der visuellen Komponente wird der Nutzer authentifiziert, während die sonstige Bedienung über die auditive Komponente läuft.

Fazit

Nach wie vor ist der Umgang mit sensiblen Daten eine der größten Herausforderungen beim Einsatz von Voice Interfaces. Hier gilt es, mit einem besonders kritischen Blick zu arbeiten und Dialoge entsprechend zu konzipieren. Sicherheitsabfragen sollten niemals Teil eines Dialogs in einem Voice Interfaces sein. Auch wenn es verlockend ist, sollten visuelle Konzepte keinesfalls eins zu eins auf ein Voice Interface übertragen werden. Dadurch wird der Nutzer überfordert sowie Dialoge viel zu lang oder auf Grund von Fehlern abgebrochen. Wenn Sie all diese Punkte berücksichtigen, wird der Nutzer das Arbeiten mit einem Voice Interface als angenehm, natürlich und hilfreich empfinden. Ob das Interface insgesamt Sinn macht, liegt natürlich maßgeblich an der Idee und dem Einsatzgebiet.

Dies ist der dritte Beitrag einer vierteiligen Serie zum Thema Voice Interfaces:
Teil 1: „Voice Interfaces - Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

Über den Autor/die Autorin:

Marcel Naujeck ist Innovation Engineer bei hmmh. Bereits im Alter von elf Jahren begann er mit dem Democoding. Heute nutzt er seine langjährige Erfahrung für die Planung und Entwicklung von E-Commerce-Lösungen und der Evaluierung neuer Technologien für den Enterprise-Bereich.

Webinare

SPOTLIGHT: Programmatic Innovation

In dieser SPOTLIGHT-Folge nehmen wir aktuelle Innovationen im Programmatic Advertising unter die Lupe.

Tech Partner

TECH FINDERpräsentiert Premium Technologie Partner

FLAP.ONE - Sales House für Programmatic Advertising

Zum Profil

TECH FINDERpräsentiert Premium Technologie Partner

AudienceProject - Plattform für Cross Media Measurement

Zum Profil

TECH FINDERpräsentiert Premium Technologie Partner

Silverpush - KI-gestützte Contextual Intelligence für Video

Zum Profil

Whitepaper

Cross-Media Measurement: Wie Werbung über Kanäle hinweg messbar wird

Erfahren Sie aus der Sicht von AudienceProject, warum unabhängige medienübergreifende Messungen als Vertrauensinfrastruktur fungieren und wie AudienceProject Werbetreibenden, Medieninhabern und der Branche ermöglicht, Werberesultaten zu vertrauen, sie nachzuweisen und zu verbessern.