h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Statistical machine translation : from single-word models to alignment templates



Verantwortlichkeitsangabevorgelegt von Franz Josef Och

ImpressumAachen : Publikationsserver der RWTH Aachen University 2002

UmfangIX, 144 S.


Aachen, Techn. Hochsch., Diss., 2002

Prüfungsjahr: 2002. - Publikationsjahr: 2003


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2002-10-08

Online
URN: urn:nbn:de:hbz:82-opus-5291
URL: https://publications.rwth-aachen.de/record/58741/files/58741.pdf

Einrichtungen

  1. Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei) ; statistical machine translation (frei) ; alignment models (frei) ; maximum entropy (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In diesear Arbeit werden neue Ansätze zur Sprachübersetzung basierend auf statistischen Verfahren vorgestellt. Als Verallgemeinerung zu dem üblicherweise verwendeten source-channel Modell wird ein allgemeineres Modell basierend auf dem Maximum-Entropie-Prinzip vorgeschlagen. Es werden verschiedene Verfahren zur Bestimmung von Wort-Alignments unter Nutzung von statistischen und heuristischen Modellen beschrieben. Dabei werden insbesondere verschiedene Glättungsverfahren, Methoden zur Integration zusätzlicher Lexika und Trainingsverfahren verglichen. Eine detaillierte Bewertung der Alignment-Qualität wird durchgeführt indem die automatisch erstellten Wort-Alignments mit manuell erstellten Alignments verglichen werden. Aufbauend auf diesen grundlegenden einzelwortbasierten Alignment-Modellen wird dann ein phrasenbasiertes statistisches Übersetzungsmodell, das Alignment Template Modell, vorgeschlagen. Für dieses Modell wird ein Trainingsverfahren und ein effizienter Suchalgorithmus basierend auf dem Prinzip der dynamischer Programmierung und Strahlsuche entwickelt. Weiterhin werden für zwei spezielle Anwendungsszenarien (interaktive Übersetzung und Übersetzung basierend auf verschiedenen mehrsprachigen Quelltexten) spezielle Suchverfahren entwickelt. Der beschriebene Übersetzungsansatz wurde getestet für das deutsch-englische Verbmobil Korpus, das französisch-englische Hansards Korpus und für chinesisch-englische Nachrichtentexte. Das entwickelte System erzielt dabei häufig deutlich bessere Ergebnisse als alternative Verfahren zur maschinellen Übersetzung.

In this work, new approaches for machine translation using statistical methods are described. In addition to the standard source-channel approach to statistical machine translation, a more general approach based on the maximum entropy principle is presented. Various methods for computing single-word alignments using statistical or heuristic models are described. Various smoothing techniques, methods to integrate a conventional dictionary and training methods are analyzed. A detailed evaluation of these models is performed by comparing the automatically produced word alignment with a manually produced reference alignment. Based on these fundamental single-word based alignment models, a new phrase-based translation model - the alignment template model - is suggested. For this model, a training and an efficient search algorithm is developed. For two specific applications (interactive translation and multi-source translation) specific search algorithms are developed. The suggested machine translation approach has been tested for the German-English Verbmobil task, the French-English Hansards task and for Chinese-English news text translation. Often, the obtained results have been significantly better than those obtained with alternative approaches to machine translation.

Fulltext:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT013639664

Interne Identnummern
RWTH-CONV-120579
Datensatz-ID: 58741

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > No department assigned
Publication server / Open Access
Public records
Publications database
100000

 Record created 2013-01-28, last modified 2022-04-22


Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)