Zwar gewinnt des World Wide Web als Interaktionsmedium mehr und mehr an Bedeutung, doch noch immer ist das Telefon die wichtigste Verbindung zwischen Unternehmen und ihren Kunden. Deshalb wollen oder können die wenigsten Gründer auf diesen klassischen Kontaktkanal verzichten. Um dabei die Kosten für Callcenter-Dienste zu minimieren und die Kundenzufriedenheit zu steigern, lohnt es sich, über den Einsatz von Voice Portalen nachzudenken. Welche Vorteile Voice Portale bieten, auf welchen Technologien sie beruhen und welche Schritte die Implementierung erfordert, werden wir im folgenden Artikel zeigen.

Mit Voice Portalen lassen sich standardisierbare Kundenservice-Prozesse automatisieren: Anrufer können beispielsweise entsprechend ihres Anliegens vorqualifiziert und mit dem richtigen Ansprechpartner verbunden werden. Standardanfragen können direkt von der Sprachapplikation beantwortet werden, ohne dass ein Callcenter-Agent hinzugezogen werden muss. Dadurch lassen sich zum einen Engpässe im Callcenter beheben und zum anderen gewinnen die Agenten wertvolle Zeit für individuelle Kundenberatung. Außerdem sind Sprachportale rund um die Uhr kostengünstig einsatzbereit und die Kunden können jederzeit mit dem Unternehmen in Kontakt treten.

Sprachportale bieten klare betriebswirtschaftliche Vorteile und haben durchschnittlich einen ROI von unter zehn Monaten (vgl.: Testbericht: VOICE Award 2006 – Die besten deutschsprachigen Sprachapplikationen, DFKI, mind, STRATECO 2006). Und die Einsatzmöglichkeiten sind vielfältig: Das Angebot reicht von einfachen Vorqualifizierungen über Agent-Assisted-Services – einem Mix aus Automatisierung und menschlichem Kontakt – bis hin zu kompletten Selfservices in natürlicher Sprache. Abgerundet wird das Angebotsspektrum durch Trends wie die intelligente Integration aller Kontaktkanäle, also Web, Telefon, Fax, Brief usw. und stimmbiometrische Verfahren, um Sprecher zu identifizieren und zu verifizieren, zum Beispiel als sicheres und komfortables Authentifizierungsverfahren im Telefonbanking.

Der Weg zum Voice Portal

Bei der Erstellungen eines erfolgreichen Sprachdialogsystems bewegt man sich im Wesentlichen in Prozessen, die im Unternehmen bereits aus der Implementierung anderer Anwendungen vertraut sind: Von der Anforderungsanalyse bis zur Inbetriebnahme. Wir fokussieren uns im Folgenden deshalb auf die für eine Sprachanwendung spezifischen Aspekte.

Die erarbeiteten Anforderungen bilden die Grundlage für die Konzeption einer Anwendung. Hierbei rücken die Spezifika von Voicesystemen in den Vordergrund: In der Regel muss die Sprachtechnologie mit anderen Systemen des Unternehmens integriert werden. Zudem müssen voice-spezifische Reportingfunktionalitäten beschrieben und Usability-Tests erarbeitet werden. Der wesentliche Bestandteil der Feinspezifikation eines Sprachdialogsystems aber ist die Konzeption von Persona-, Audio- und Dialog-Design. Wir stellen sie deshalb im Folgenden detaillierter vor.

Persona- und Audio-Design

Das Persona-Design beschreibt den „Charakter“ einer Sprachanwendung, an dem sich sowohl die Sprecherauswahl als auch Wortwahl und Ton der Systemäußerungen (Prompts) orientieren. Berücksichtigt werden dabei demografische Parameter (Geschlecht, Alter, soziale und geografische Herkunft), Sprechstil (Geschwindigkeit, Höflichkeitsgrad) und Sprachstil (formal oder locker, mit oder ohne umgangssprachliche Elemente).

Das Audio-Design definiert Soundlogos, Wartemusik und Earcons – Hinweis-Töne, die auf schnelle und intuitive Weise den aktuellen Systemzustand illustrieren.

Auf Basis von Persona- und Audio-Design und der funktionalen Anforderungen entwickelt der Voice User Interface Designer den optimalen Dialog und versucht alle gewünschten Use-Cases adäquat abzubilden. Vergleichbar einem Webdesigner, der für grafische Benutzeroberflächen verantwortlich zeichnet, gestaltet der VUI-Designer also einen nutzergerechten Dialog für ein akustisches Interface. Dabei entwirft er den gesamten Callflow, konzipiert und dokumentiert jede mögliche Interaktion zwischen Nutzer und System und jeden einzelnen Wortlaut der Prompts und er definiert das Fehlerverhalten.

Für die späteren Nutzer ist das Voice User Interface DAS Aushängeschild der gesamten Applikation. Es bestimmt die Nutzerakzeptanz und entscheidet damit über Erfolg oder Misserfolg eines Sprachportals. Schon kleinste Schwächen im VUI können zu Bedienungsproblemen führen: Viele werden sicherlich schon einmal den Telefonhörer entnervt aufgelegt haben, weil sie im Dialog mit einem Callcenter in eine Sackgasse geraten waren. Leidet die Usability, sinkt die Akzeptanz und auch das Image des Anbieters dieser Sprachanwendung wird in Mitleidenschaft gezogen.

Mit einem professionellen Voice User Interface Design fühlt sich der Nutzer durch ein ästhetisch ansprechendes System individuell betreut und erreicht schnell und sicher sein Ziel. Und als Visitenkarte des Unternehmens repräsentiert das VUI auch den jeweiligen Betreiber individuell und angemessen.

Ist das VUI-Design erstellt und ausreichend getestet, kann die Anwendung auf Basis der Anforderungsanalyse und des spezifizierten Callflows implementiert werden. Bei der Applikationsentwicklung werden die einzelnen Module und die benötigten Back-End-Systeme in die vorhandenen Geschäftsprozesse eingebunden. Im Idealfall schafft die Back-End-Integration der Sprachanwendung lediglich einen weiteren Zugriffskanal auf die bereits bestehende Business-Logik.

Nach erfolgreichem Dialog-Traversal-Test, bei dem alle Systemeingaben und -ausgaben und alle Funktionen und Transaktionen getestet werden, kann die Applikationsentwicklung abgeschlossen werden. Der Schlüssel zum Erfolg einer Sprachanwendung liegt zwar im VUI-Design, die Technologie aber bildet eine solide Basis.

Die Technologie

Das erste Glied in der Verarbeitungskette eines Sprachdialogsystems ist der Spracherkenner. Er hat die Aufgabe, das eingegangene Signal nahezu in Echtzeit zu interpretieren. Wartezeiten beim Erkennen werden vom Nutzer nicht toleriert.

Schwierigkeiten für den Erkenner, die zu längerer Rechenzeit führen können, liegen vor allem im Umfang des zu erkennenden Vokabulars, in der Sprecherunabhängigkeit und in der Qualität des akkustischen Signals (zum Beispiel Bandbegrenzung des Telefonkanals, mögliche Umgebungsgeräusche). Um diese Schwierigkeiten zu kompensieren, wird versucht, das Vokabular einzuschränken. In den weitaus meisten kommerziellen Systemen geschieht das durch anwendungsspezifische und domänenabhängige Grammatiken (Fahrplanauskunft, Bestellhotline, Kinoauskunft), die die Anzahl der möglichen Eingabesätze beschränken.

Dass heutzutage relativ natürliche und flexible Mensch-Maschine-Interaktionen realisierbar sind, lässt sich vor allem auf die in den letzten Jahren erreichten Fortschritte in der Spracherkennung zurückführen. Heutige Erkenner-Systeme sind zum überwiegenden Teil in der Lage, sprecherunabhängig kontinuierliche, spontansprachliche Äußerungen zu verarbeiten und ggf. kontextbezogen zu interpretieren.

Die im Moment im kommerziellen Umfeld eher vernachlässigte Komponente „Sprachverstehen“ liefert, auf Basis der vom Erkenner generierten Satzhypothesen, die mögliche Intention des Nutzers. Dabei kommen Oberflächenanalysen und Kontextanalysen, die Infos aus dem bisherigen Dialogverlauf, domänenspezifisches Wissen und situatives Wissen wie Datum oder Uhrzeit bereitstellen, zum Einsatz.

Schaltzentrale eines Sprachportals ist die Dialogsteuerung (auch Dialogmanager). Basierend auf der eingehenden Interpretation der Benutzeräußerung – vom Spracherkenner oder vom Sprachverstehensmodul – und der bisherigen Dialoghistorie wird hier die angemessene Systemreaktion festgelegt: Ausgabe der angeforderten Informationen, Anstoßen von Klärungsdialogen bei Ambiguitäten, Erfragen weiterer benötigter Informationen usw. Bei den meisten auf dem Markt existierenden Anwendungen wird der Dialogablauf durch endliche Automaten beschrieben (Callflow), die für jeden Dialogschritt alle möglichen Benutzereingaben und die entsprechenden Systemreaktionen beschreiben.

Die Dialogsteuerung erzeugt eine der Eingabe angemessene Systemausgabe, die per Sprachsynthese bzw. per zuvor aufgenommenem Prompt an den Nutzer ausgegeben wird. Die Sprachsynthese (TTS = Text-To-Speech) liefert die automatische Umsetzung geschriebenen Textes in gesprochene Sprache. Die meisten kommerziellen Systeme allerdings verzichten auf den Einsatz von TTS und arbeiten stattdessen mit im Tonstudio aufgenommenen und von professionellen Sprechern gesprochenen Wörtern, Phrasen und Sätzen, die als Audio-Dateien im System hinterlegt sind. Nur für große Datenmengen (z.B. alle deutschen Bahnhöfe) bzw. dynamischen Content (Inhalt von Emails) wird auf Sprachsynthese zurückgegriffen.

Fazit

Auf Grund der Entwicklung der Sprachtechnologien in den letzten Jahren können Voice-Portale einen wichtigen und Kosten sparenden Kanal für den Kundenkontakt darstellen. Das Hauptkriterium für den Erfolg einer Sprachanwendung ist weniger die Sprachtechnologie, sondern vor allem die Qualität des Voice-User-Interface-Designs.

Über die Autoren:

Die Autoren, Manja Baudis und Zeno Wolze, gehören zum Team der Lautmaler – einer Berliner Agentur für Sprachdesign, die sich hauptsächlich mit Voice User Interface Design – der Gestaltung sprachgesteuerter Mensch-Maschine-Schnittstellen befasst. Neben Dialog- und Audio-Design gehören dazu Leistungen aus dem Bereich Speech Science: Gramatik-Design, linguistische Datenredaktion, phonetische Transkription und Erkenner- und TTS-Tuning. Manja Baudis, Computerlinguistin und Germanistin, ist bei den Lautmalern zuständig für Speech Science und Marketing. Zeno Wolze, Linguist und Phonetiker verantwortet die Bereiche Dialog-Design und Sales.

GD Star Rating
loading...
Alle Bilder in diesem Artikel unterliegen der Creative-Commons-Lizenz (Namensnennung-Keine Bearbeitung, CC BY-ND; Link zum rechtsverbindlichen Lizenzvertrag). Ausgenommen sind anders gekennzeichnete Bilder unter anderem von Panthermedia, Fotolia, Pixelio, Morguefile sowie Pressefotos oder verlagseigenes Bildmaterial.