h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Statistical methods in natural language understanding and spoken dialogue systems = Statistische Methoden für das automatische Sprachverstehen und für sprachbasierte Dialogsysteme



Verantwortlichkeitsangabevorgelegt von Klaus Macherey

ImpressumAachen : Publikationsserver der RWTH Aachen University 2009

UmfangVIII, 156 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2009

Zusammenfassung in engl. und dt. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2009-09-22

Online
URN: urn:nbn:de:hbz:82-opus-32107
URL: https://publications.rwth-aachen.de/record/51504/files/3210.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Sprachverstehen (Genormte SW) ; Dialogsystem (Genormte SW) ; Maschinelle Übersetzung (Genormte SW) ; Maximum-Entropie-Methode (Genormte SW) ; Maschinelles Lernen (Genormte SW) ; Informatik (frei) ; natural language understanding (frei) ; spoken dialogue systems (frei) ; maximum entropy (frei) ; minimum error rate training (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Automatische sprachbasierte Dialogsysteme werden heutzutage in zahlreichen Anwendungen eingesetzt. So gibt es beispielsweise Dialogsysteme für Hotelreservierungen, Systeme zur Reise- und Fahrplanauskunft, sowie Dialogsysteme für das sogenannte Telefon-Banking. Damit ein für den Benutzer sinnvoller Dialog zustande kommt, muss ein Dialogsystem diejenigen Entscheidungen treffen, die zur Beantwortung der Benutzeranfrage führen. Da ein sprachbasiertes Dialogsystem nur ein unvollständiges Modell der Wirklichkeit besitzt und die Dekodierung von Benutzereingaben fehlerhaft sein kann, können die Entscheidungen eines Dialogsystems im allgemeinen nicht auf Basis von Faktenwissen getroffen werden, sondern müssen aufgrund unvollständigen Wissens erfolgen. Um die Unsicherheit in den Entscheidungen zu beschreiben, verwenden wir in dieser Arbeit statistische Methoden zur Modellierung der Komponenten eines Dialogsystems. Ausgehend von der Bayesschen Entscheidungsregel definieren und evaluieren wir verschiedene Modelle, mit deren Hilfe wir die Spracherkennungskomponente, die Sprachverstehenskomponente und den Dialog Manager modellieren. Das Problem des Verstehens natürlicher Sprache wird als ein spezielles Problem der maschinellen Übersetzung beschrieben, wobei ein Satz der Quellsprache in einen Satz der Zielsprache übersetzt wird. Die Zielsprache ist dabei eine formale Sprache bestehend aus Konzepten. Hierzu untersuchen wir zwei Modelle: das erste Modell ist eine generatives Modell, welches auf dem Source-Channel Paradigma basiert. Da lokale Kontexte von Wörtern eine zentrale Rolle beim Verstehen natürlicher Sprache spielen, verwenden wir ein phrasenbasiertes Übersetzungssystem, dass Wörter im Kontext modellieren kann. Das zweite Modell ist ein direktes Modell, welches auf dem Maximum Entropie Ansatz basiert und ähnlich wie ein Tagger eingesetzt wird. Für das direkte Modell definieren wir zahlreiche Feature Funktionen, welche die komplexen Abhängigkeiten zwischen Wörtern und Konzepten erfassen. Beide Ansätze haben den Vorteil, dass nur Satzpaare in Form von Ein-Ausgabe Sätzen dem Trainingsalgorithmus zur Verfügung gestellt werden müssen. Dadurch entfällt die manuelle Generierung von Grammatiken, welche häufig im Kontext von Sprachverstehenssystemen eingesetzt werden. Desweiteren stellen wir einen auf dem Minimum Error Rate Training basierenden Ansatz vor, der eine stärkere Kopplung zwischen Spracherkenung und Sprachverstehen erlaubt. Der Ansatz ermöglicht auf einfache Weise die Integration zahlreicher Feature Funktionen bei gleichzeitiger Minimierung des Evaluationskriteriums. Dadurch ist es möglich, die Wissensquellen der Sprachverstehenskomponente in die Spracherkennungskomponente zu integrieren und somit die Wortfehlerrate zu minimieren, beziehungsweise umgekehrt die Wissensquellen der Spracherkennungskomponente mit den Wissensquellen der Sprachverstehenskomponente zu kombinieren und somit die Konzeptfehlerrate zu minimieren. Zusätzlich entwickeln wir einen domänenunabhängigen Dialog Manager, der auf Basis einer Kostenfunktion die nächstfolgende Dialogaktion bestimmt. Die Domänenunabhängigkeit des Dialog Managers führt zu einer strikten Trennung zwischen der konkreten Applikation und den Operationen, die der Dialog Manager ausführen kann. Dies vereinfacht die Portierung eines existierenden Dialog Managers auf eine neue Domäne. Wir zeigen empirisch, dass der Dialog Manager in einem Feldtest in der Lage war für ca. 90% aller Entscheidungen die jeweils optimale Entscheidung zu treffen. Abschließend untersuchen wir Techniken zur Fehlerbehandlung in sprachbasierten Dialogsystemen basierend auf Konfidenzmaßen. Dabei untersuchen wir die Performanz des Dialogsystems für den Fall, dass Konfidenzmaße für die Spracherkennung und das Sprachverstehen in die Dialogstrategie eingebaut werden. Experimentelle Resultate werden für die TelDir und die Taba Datensammlung diskutiert. Die TelDir Datensammlung ist ein Korpus aus der Domäne Telefonbuchassistent für die deutsche Sprache, die Taba Datensammlung ist ein Korpus aus der Domäne Fahrplanauskunftssystem, ebenfalls für die deutsche Sprache.

Modern automatic spoken dialogue systems cover a wide range of applications. There are systems for hotel reservations, restaurant guides, systems for travel and timetable information, as well as systems for automatic telephone-banking services. Building the different components of a spoken dialogue system and combining them in an optimal way such that a reasonable dialogue becomes possible is a complex task because during the course of a dialogue, the system has to deal with uncertain information. In this thesis, we use statistical methods to model and combine the system's components. Statistical methods provide a well-founded theory for modeling systems where decisions have to be made under uncertainty. Starting from Bayes' decision rule, we define and evaluate various statistical models for these components, which comprise speech recognition, natural language understanding, and dialogue management. The problem of natural language understanding is described as a special machine translation problem where a source sentence is translated into a formal language target sentence consisting of concepts. For this, we define and evaluate two models. The first model is a generative model based on the source-channel paradigm. Because the word context plays an important role in natural language understanding tasks, we use a phrase-based translation system in order to take local context dependencies into account. The second model is a direct model based on the maximum entropy framework and works similar to a tagger. For the direct model, we define several feature functions that capture dependencies between words and concepts. Both methods have the advantage that only source-target pairs in the form of input-output sentences must be provided for training. Thus, there is no need to generate grammars manually, which significantly reduces the costs of building dialogue systems for new domains. Furthermore, we propose and investigate a framework based on minimum error rate training that results in a tighter coupling between speech recognition and language understanding. This framework allows for an easy integration of multiple knowledge sources by minimizing the overall error criterion. Thus, it is possible to add language understanding features to the speech recognition framework and thus to minimize the word error rate, or to add speech recognition features to the language understanding framework and thus to minimize the slot error rate. Finally, we develop a task-independent dialogue manager using trees as the fundamental data structure. Based on a cost function, the dialogue manager chooses the next dialogue action with minimal costs. The design and the task-independence of the dialogue manager leads to a strict separation of a given application and the operations performed by the dialogue manager, which simplifies porting an existing dialogue system to a new domain. We report results from a field test in which the dialogue manager was able to choose the optimal dialogue action in 90% of the decisions. We investigate techniques for error handling based on confidence measures defined for speech recognition and language understanding. Furthermore, we investigate the overall performance of the dialogue system when confidence measures from speech recognition and natural language understanding are incorporated into the dialogue strategy. Experiments have been carried out on the TelDir database, which is a German in-house telephone directory assistance corpus, and on the Taba database, which is a German in-house train time scheduling task.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-113791
Datensatz-ID: 51504

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)