Newsletter September

Newsletter September

September – Special
Alles was Sie über KI und VoiceBots wissen müssen!
Von NLP bis NLG – Das Herzstück der Sprachverarbeitung

Künstliche Intelligenz (KI) hat zahlreiche Technologien hervorgebracht, die die Art und Weise verändern, wie wir mit Maschinen interagieren. Besonders in der Sprachverarbeitung sind Begriffe wie Natural Language Processing (NLP), Natural Language Understanding (NLU) und Natural Language Generation (NLG) von zentraler Bedeutung. Aber was steckt genau dahinter und wie beeinflussen sie die Funktionsweise von modernen VoiceBots?

Natural Language Processing

NLP umfasst Methoden zur Verarbeitung natürlicher Sprache. Dazu gehören Spracherkennung, Textumwandlung und das Analysieren von Bedeutungen in unstrukturierten Daten. Ziel ist es, menschliche Sprache in maschinenlesbare Daten zu überführen.

Natural Language Understanding

NLU ist ein Teilgebiet von NLP und fokussiert sich auf das Verstehen von Texten, die Identifikation von Absichten sowie das Erkennen von Kontexten und Bedeutungen.

Natural Language Generation

NLG generiert Text auf Basis von Daten, um Antworten, Berichte oder andere dynamische Inhalte in einer für den Menschen verständlichen Form zu erstellen.

Large Language Models (LLM)

LLMs wie GPT-4 sind komplexe Modelle, die auf großen Textdatensätzen trainiert werden und Text auf Basis von Kontext und Beziehungen zwischen Wörtern generieren können. Sie sind besonders gut in der Beantwortung von Fragen und der Textanalyse.

Conversational AI und Generative AI

Conversational AI kombiniert NLP, NLU und NLG, um menschenähnliche Gespräche zu führen. Generative AI geht einen Schritt weiter und erstellt komplett neue Inhalte, die nicht im ursprünglichen Dialogkontext stehen müssen.

VoiceBot Workflow – Ein umfassendes Beispiel

Ein VoiceBot verarbeitet eine menschliche Anfrage, indem er eine Reihe von spezifischen Schritten durchläuft. Jede dieser Phasen nutzt verschiedene KI-Modelle, um Sprache zu erkennen, die Absicht des Benutzers zu verstehen, passende Antworten zu generieren und diese auf verständliche Weise wiederzugeben.

Schritt 1: Spracherkennung (ASR – Automatic Speech Recognition)

ASR wandelt die gesprochene Sprache in Text um. Es analysiert akustische Signale und erstellt eine lesbare Textform, die dann weiterverarbeitet werden kann. Wichtig ist, dass ASR auch in lauten Umgebungen und bei verschiedenen Dialekten präzise funktioniert.
Ein Benutzer sagt: „Wie hoch ist mein aktueller Stromverbrauch?“ ASR erkennt die Wörter und wandelt die gesprochene Sprache in Text um.

Schritt 2: Sprachverständnis (NLU)

Das NLU-Modul analysiert den durch ASR erzeugten Text, um die Bedeutung der Anfrage zu verstehen.
Der VoiceBot erkennt, dass der Benutzer nach dem „aktuellen“ Stromverbrauch fragt, und keine historischen Daten benötigt.

Schritt 3: Kontextspeicherung (LMU – Local Memory Unit)

Das LMU-Modul speichert den Verlauf des aktuellen Gesprächs und vorherige Interaktionen.
Wenn der Benutzer nach dem Stromverbrauch fragt und später: „Wie kann ich meinen Vertrag ändern?“ sagt, erkennt das LMU-Modul den Zusammenhang.

Schritt 4: Named Entity Recognition (NER)

NER extrahiert spezifische Begriffe und Informationen aus dem Text, wie z.B. Kundennummern oder Namen.
Der VoiceBot erkennt in der Anfrage „Ich möchte meine letzte Rechnung von Kundennummer 12345 sehen“ die Entität „Kundennummer 12345“.

Schritt 5: Generierung einer passenden Antwort (NLG und LLM)

Das NLG-Modul erstellt eine Antwort auf Basis der vorhandenen Daten.
Der VoiceBot greift auf die Verbrauchsdaten zu und erstellt die Antwort: „Ihr aktueller Stromverbrauch beträgt 453 Kilowattstunden.“

Schritt 6: Wiedergabe der Antwort (TTS – Text-to-Speech)

Das TTS-Modul wandelt den Text in gesprochene Sprache um und gibt die Antwort wieder.
Der VoiceBot gibt die Antwort wieder: „Ihr aktueller Stromverbrauch beträgt vierhundertdreiundfünfzig Kilowattstunden.“