Marco Radic/ Juni 1, 2020/ Uncategorized

Mit Systemen, die auf unsere Sprache reagieren, hat mittlerweile fast jeder schon einmal zu tun gehabt. Egal, ob auf dem Smartphone, im Auto oder mit dem Smart Home Assistant, die großen Technologieunternehmen haben Spracherkennung in die Hände der Endnutzer gebracht.

Erkennbar ist dabei die deutliche Verbesserung dieser Systeme über die Jahre.

Mittlerweile wacht das Smartphone auf einen Sprachbefehl hin auf und kann den Besitzer an der Sprache wiedererkennen. Dies haben wir den massiven Fortschritten in der Gruppe der wohl populärsten Verfahren im Bereich KI zu verdanken, dem Deep Learning mittels neuronaler Netze. Durch anwendungsorientierte Forschung und Fortschritte im Soft- und Hardwaresegment bereichern uns dadurch heute modernste KI-Modelle mit schlauerer Software, die teilweise selbst komplexeste Probleme löst, indem sie komplexe Muster erkennt und damit Computer mit Menschen Unterhaltungen führen lässt oder Autos im Straßenverkehr autonom steuert.

Das Verstehen und Verarbeiten von gesprochener Sprache verstehen wir als höchst menschliche Aufgabe, bildet sie doch einen Großteil unserer eigenen Kommunikation ab. Doch selbst in diesem Bereich können sich intelligente Systeme als Schnittstelle zwischen Mensch und Maschine heutzutage zurechtfinden und unterstützend wirken.

Die Anforderungen für den produktive Einsatz eines solchen Systems sind jedoch oft speziell und voller Feinheiten. So unterscheidet sich gesprochene Sprache beispielweise bereits bei verschiedenen Rednern, Akzenten und Dialekten. Ebenso gilt es verschiedenste Eingabekanäle zu unterstützen. So unterscheidet sich beispielsweise der Klang, die Qualität und Hintergrundgeräusche bei Telefonanlagen, Smartphone oder Konferenzmikrofonen teils deutlich. Zusätzlich ergeben sich verschiedene Anforderungen im genutzten Vokabular: Teilweise muss das System Fachwörter und einen sich stetig vergrößernden Wortschatz unterstützen.Die letztendliche Integration des Systems, welche echtzeitfähig und zuverlässige Verbindungen aufweisen muss, stellt weitere typische softwaretechnische Aufgaben dar.

Anwendung findet Spracherkennung beispielsweise im Rahmen eines Assistenzsystems für den Callcenterbetrieb. Hier stehen Callcentermitarbeiter oft vor der Aufgabe, aktiv ein Gespräch mit dem Kunden zu führen und zeitgleich Formulare und Systemmasken auf dem Computer zu befüllen und zu navigieren. Dies erfordert Schulungen und eine konstant hohe Auffassungsgabe des Mitarbeiters über Stunden hinweg, um die Servicequalität auf einem hohen Niveau zu halten. Um den Mitarbeiter hier in seiner täglichen Arbeit zu unterstützen, kann das System bei Telefonaten ‚lauschen‘, Gesprochenes aller Gesprächsteilnehmer in Echtzeit erkennen, verarbeiten und je nach erkanntem Anliegen oder Kontext Prozesse oder Aktionen bereits automatisiert auf dem Bildschirm anzeigen oder anstoßen. Hierdurch wird im Callcenter der Durchsatz erhöht, Schulungsaufwände reduziert und die Qualität der Beratung erhöht.

targens bietet in diesem Bereich eine eigene Lösung an, welche eine Spracherkennung in deutscher Sprache bietet. Es zeichnet sich durch den hohen Grad der Anpassbarkeit auf linguistischer sowie technologischer Ebene aus, kann wahlweise vor Ort oder in der Cloud betrieben werden und integriert sich mit dem restlichen Angebot im Bereich ‚Conversational AI‘. Dieser moderne AI-Stack bietet eine vollumfängliche Lösung für Sprachverarbeitung, Sprachverständnis und Sprachausgabe und kann so bei der KI-gestützten Prozessdigitalisierung unterstützen.

Mehr zum Thema Spracherkennung in unserem Blog: “Künstliche Intelligenz revolutioniert das Kundengespräch”

Bildquelle: Gerd Altmann / Pixabay