2002 & 2003
Aachen, Techn. Hochsch., Diss., 2002
Prüfungsjahr: 2002. - Publikationsjahr: 2003
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
Tag der mündlichen Prüfung/Habilitation
2002-10-08
Online
URN: urn:nbn:de:hbz:82-opus-5291
DOI: 10.18154/RWTH-CONV-120579
URL: https://publications.rwth-aachen.de/record/58741/files/58741.pdf
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei) ; statistical machine translation (frei) ; alignment models (frei) ; maximum entropy (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
In diesear Arbeit werden neue Ansätze zur Sprachübersetzung basierend auf statistischen Verfahren vorgestellt. Als Verallgemeinerung zu dem üblicherweise verwendeten source-channel Modell wird ein allgemeineres Modell basierend auf dem Maximum-Entropie-Prinzip vorgeschlagen. Es werden verschiedene Verfahren zur Bestimmung von Wort-Alignments unter Nutzung von statistischen und heuristischen Modellen beschrieben. Dabei werden insbesondere verschiedene Glättungsverfahren, Methoden zur Integration zusätzlicher Lexika und Trainingsverfahren verglichen. Eine detaillierte Bewertung der Alignment-Qualität wird durchgeführt indem die automatisch erstellten Wort-Alignments mit manuell erstellten Alignments verglichen werden. Aufbauend auf diesen grundlegenden einzelwortbasierten Alignment-Modellen wird dann ein phrasenbasiertes statistisches Übersetzungsmodell, das Alignment Template Modell, vorgeschlagen. Für dieses Modell wird ein Trainingsverfahren und ein effizienter Suchalgorithmus basierend auf dem Prinzip der dynamischer Programmierung und Strahlsuche entwickelt. Weiterhin werden für zwei spezielle Anwendungsszenarien (interaktive Übersetzung und Übersetzung basierend auf verschiedenen mehrsprachigen Quelltexten) spezielle Suchverfahren entwickelt. Der beschriebene Übersetzungsansatz wurde getestet für das deutsch-englische Verbmobil Korpus, das französisch-englische Hansards Korpus und für chinesisch-englische Nachrichtentexte. Das entwickelte System erzielt dabei häufig deutlich bessere Ergebnisse als alternative Verfahren zur maschinellen Übersetzung.
In this work, new approaches for machine translation using statistical methods are described. In addition to the standard source-channel approach to statistical machine translation, a more general approach based on the maximum entropy principle is presented. Various methods for computing single-word alignments using statistical or heuristic models are described. Various smoothing techniques, methods to integrate a conventional dictionary and training methods are analyzed. A detailed evaluation of these models is performed by comparing the automatically produced word alignment with a manually produced reference alignment. Based on these fundamental single-word based alignment models, a new phrase-based translation model - the alignment template model - is suggested. For this model, a training and an efficient search algorithm is developed. For two specific applications (interactive translation and multi-source translation) specific search algorithms are developed. The suggested machine translation approach has been tested for the German-English Verbmobil task, the French-English Hansards task and for Chinese-English news text translation. Often, the obtained results have been significantly better than those obtained with alternative approaches to machine translation.
OpenAccess: PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online, print
Sprache
English
Externe Identnummern
HBZ: HT013639664
Interne Identnummern
RWTH-CONV-120579
Datensatz-ID: 58741
Beteiligte Länder
Germany
![]() |
The record appears in these collections: |