1. Künstliche Intelligenz
  2. Technische Grundlagen
  3. Spracherkennung und natürliche Sprachverarbeitung

Künstliche Intelligenz

Technische Grundlagen

Spracherkennung und natürliche Sprachverarbeitung

Spracherkennung

Bei der Spracherkennung geht es um das Erkennen und Verstehen gesprochener Sprache durch Maschinen. Dabei wird gesprochene Sprache in Text umgewandelt, sodass Computer die Eingaben von Benutzern interpretieren und darauf reagieren können. Die Technologie wird in verschiedenen Anwendungen eingesetzt, darunter Sprachassistenten, Transkriptionsdienste und Sprachsteuerungssysteme.

Schaubild Spracherkennung

Abbildung: Aufgabe der Spracherkennung in Anlehnung an Willet, D. (2000)1

Der Prozess der Spracherkennung kann in drei Hauptschritte unterteilt werden: akustische Modellierung, Sprachmodellierung und Decodierung.

  1. Akustische Modellierung: Die gesprochene Sprache wird zunächst aufgezeichnet und in digitale Signale umgewandelt. Anschließend werden akustische Modelle verwendet, um Merkmale (z.B. Tonhöhe, Lautstärke und zeitliche Abfolge) abzuleiten. Die akustischen Muster werden anschließend mit abstrakten sprachlichen Einheiten (z.B. phonemischen Einheiten) verknüpft.
  2. Sprachmodellierung: Während die akustische Modellierung nur einzelne Laute erfasst, bewertet die Sprachmodellierung die Wahrscheinlichkeit ganzer Wortfolgen. Sie bestimmt, welche Wörter im jeweiligen sprachlichen Kontext am plausibelsten sind. Damit wird Mehrdeutigkeit aufgelöst – etwa wenn zwei Wörter akustisch ähnlich klingen.
  3. Decodierung: Zuletzt werden die Ergebnisse der beiden vorangegangen Schritte zusammengeführt. Es wird berechnet, welche Kombination aus akustischen Informationen und Wahrscheinlichkeiten den gesprochenen Satz am besten abbildet. Dabei entsteht die endgültige Transkription als wahrscheinlichste Textsequenz.2

Sprachverarbeitung

Natural Language Processing (NLP) ist ein Teilbereich der künstlichen Intelligenz, der sich mit der Interaktion zwischen Computern und menschlicher Sprache beschäftigt. Ziel von NLP ist es, Maschinen die Fähigkeit zu verleihen, menschliche Sprache sowohl zu verstehen als auch zu generieren. Dies ermöglicht eine natürliche Kommunikation zwischen Mensch und Maschine.

NLP kann in zwei Hauptkategorien unterteilt werden: Natural Language Understanding (NLU) und Natural Language Generation (NLG)3.

Schaubild natural language processing

Abbildung: Klassifizierung von Natural Language Processing in Anlehnung an Khurana et. al. (2023)3

    1. Natural Language Understanding (NLU) befasst sich mit der Fähigkeit eines Systems, die Bedeutung eines Texts zu extrahieren. Dazu gehört das Erkennen von Entitäten (Personen, Orte etc.), das Verstehen von Emotionen und das Extrahieren von Schlüsselwörtern. Diese Fähigkeiten sind besonders nützlich in Anwendungen wie Kundenservice-Systemen, wo es wichtig ist, die in natürlicher Sprache geäußerten Anliegen der Kunden zu verstehen. Im Rahmen der NLU spielen verschiedene linguistische Aspekte eine Rolle:
      • Phonologie: Untersuchung der systematischen Anordnung von Lauten.
      • Morphologie: Analyse der Struktur von Wörtern und ihrer kleinsten bedeutungstragenden Einheiten, den Morphemen.
      • Syntax: Untersuchung der Satzstruktur und der grammatikalischen Regeln, die die Anordnung von Wörtern in Sätzen bestimmen.
      • Semantik: Analyse der Bedeutung von Wörtern und Sätzen sowie ihrer Beziehungen.
      • Pragmatik: Berücksichtigung des Kontexts und der Absicht hinter der Sprache, um die Bedeutung zu verstehen.
    2. Natural Language Generation (NLG) bezieht sich auf den Prozess der Erzeugung von Texten aus strukturierten Daten. NLG-Systeme sind in der Lage, Sinn behaftete Sätze und Absätze zu erstellen, indem sie interne Repräsentationen von Informationen verarbeiten und in eine lesbare Form bringen. Natural Language Processing umfasst verschiedene Aufgaben, die dazu beitragen, menschliche Text- und Sprachdaten so zu verarbeiten, dass der Computer das, was er aufnimmt, verstehen kann. Dazu gehören:
      • Tokenisierung: Zerlegung von Text in Wörter oder Sätze.
      • Part-of-Speech-Tagging (POS-Tagging): Bestimmung der Wortarten (z. B. Nomen, Verben) für jedes Wort in einem Satz.
      • Named Entity Recognition (NER): Identifizierung und Klassifizierung benannter Entitäten (z. B. Personen, Orte).
      • Sentimentanalyse: Analyse der emotionalen Tonalität eines Textes.
      • Discourse Analysis: Untersuchung der strukturellen Beziehungen zwischen Sätzen in einem zusammenhängenden Text.4

Literaturnachweise

[1] Daniel Willet, „Beiträge zur statistischen Modellierung und effizienten Dekodierung in der automatischen Spracherkennung“, Dissertation, Gerhard-Meractor-Universität – Gesamthochschule Duisburg 2000.

[2] Victor Zue, Ron Cole, und Wayne Ward, “Spoken Language Input. Speech Recognition”, in: Survey of the State of the Art in Human Language Technology, Cambrige University Press and Giardini 1991.

[3] Diksha Khurana, Aditya Koli, Kiran Khatter und Sukhdev Singh, „Natural language processing: state of the art, current trends and challenges“, in: Multimedia tools and applications 82, 2023.