h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Statistical machine translation with cascaded probabilistic transducers = Statistische maschinelle Übersetzung mit Kaskadierten Probabilistischen Transducern



Verantwortlichkeitsangabevorgelegt von Stephan Vogel

ImpressumAachen : Publikationsserver der RWTH Aachen University 2005

UmfangXII, 123 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2005

Prüfungsjahr: 2005. - Publikationsjahr: 2007


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2005-12-09

Online
URN: urn:nbn:de:hbz:82-opus-19044
URL: https://publications.rwth-aachen.de/record/62303/files/Vogel_Stephan.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Automatische Übersetzung (Genormte SW) ; Informatik (frei) ; Maschinelle Übersetzung (frei) ; statistische Übersetzung (frei) ; hierarchisches Alignment (frei) ; Phrasen-Alignment (frei) ; Suche (frei) ; Statistical machine translation (frei) ; word alignment (frei) ; phrase alignment (frei) ; cascaded transducer (frei) ; decoder (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Statistische maschinelle Übersetzung basiert darauf, aus vorliegenden bilingualen Korpora Informationen zu gewinnen, aus denen neue Übersetzungen konstruiert werden können. In der vorliegenden Arbeit werden Aspekte aus Beispiel-basierter Übersetzung (Example-based Machine Translation), sowie von Grammatik-basierten Ansätzen, insbesondere bilinguale reguläre Grammatiken integriert, um ein statistisches Übersetzungsverfahren basierend auf kaskadierten Transducern zu entwickeln. Diese Transducer können manuell, semi-manuell, oder - in einfacher Form - automatisch erzeugt werden. Durch eine Erweiterung des HMM Wort Alignment Models auf die Alignierung von Graphstrukturen wird ein Trainingsverfahren für die kaskadierten Transducer entwickelt. Um mit den trainierten Modellen neue Übersetzungen erzeugen zu können wird ein Dekoder benötigt. Dies ist i.W. eine Suche nach der Übersetzung mit der höchsten Wahrscheinlichkeit. Es wurde ein Decoder entwickelt, der auf Dynamischer Programmierung berucht, und zur Beschränkung der Laufzeit Pruning erlaubt. Zudem erlaubt er eine flexible Steuerung der Rekombination der Hypothesen, indem Abdeckung der Wörter im Quellsatz, die zuletzt erzeugten Zielwörter, und die Anzahl der Zielwörter bei der Rekombination in beliebiger Weise kombiniert werden können.Zusätzlich werden in der Arbeit folgende Aspekte behandelt: 1. Splitten von langen Sätzen basierend auf Minimierung der Perplexität desverwendeten Wortalignmentmodells.2. Dieses Verfahren wird erweitert zu einem neuen, leistungsstarken und robusten Phrasen-Alignment. Zu einer Phrase im Quellsatz wird die Übersetzung im Zielsatz gefunden, indem die Segmentierung des Zielsatzes gesucht wird, die die höchste Wahrscheinlichkeit des Wortalignments erzeugt, wobei das Wortalignment durch die Segmentierung eingeschränkt wird.3. Die Verwendung von manuellen Lexica. Insbesondere wird beschrieben, wie durch Hinzufügen automatisch erzeugter Wortformen in Verbindung mit aus bilingualen Korpora geschätzten Wahrscheinlichkeiten Verbesserungen in der erzielten Übersetzungsqualität erzielt werden können.In den Experimenten werden die vorgestellten Verfahren untersucht. Verschiedene Corpora unterschiedlicher Größe und für verschiedene Sprachenpaare werden verwendet. Die Methode der kaskadierten Transducer wird insbesondere bei kleinen Korpora eingesetzt, während bei den sehr grossen Korpora das wort-basierte Phrasenalignment verwendet wird. Zusätzlich wird - für die Situation sehr beschränkter Datenmenge - ein Vergleich des statistischen Ansatzes mit einem Interlingua-basierten Übersetzungssystem durchgeführt und nachgewiesen, dass selbst in dieser Situation ein statistisches Übersetzungssystem vergleichbare Übersetzungsqualität erreichen kann.

Statistical machine translation is based on the idea to extract information from bilingual corpora, which can be used to generate new translations. The current work combines aspects from example-based machine translation and from grammar-based approaches, esp. bilingual regular grammars, to develop a statistical translation system based on cascaded transducers. These transducers can be constructed manually, semi-automatically, or – in restricted form – fully automatically. A training method for these cascaded transducers is developed based on an extension of the HMM alignment model to the alignment of graphs. To generate new translations using the trained models a decoder is needed. This is essentially a search for the translation with the highest probability. A decoder had been developed which is based on Dynamic Programming and which allows for pruning to control runtime. Recombination of hypotheses can be based on different criteria: coverage of the source word positions, the most recent target words, the number of generated target words, and any combination thereof. Additional aspects covered in this dissertation include:1. Segmentation of long sentences based on minimizing the perplexity of the underlying word alignment models.2. This technique is then extended into a new and robust phrase alignment. To find the target phrase for a given phrase in a source sentence the algorithm searches for the segmentation of the target sentence, which gives the highest word alignment probability under the constraints of the segmentation.3. The use and integration of manual dictionaries, including the addition of automatically generated word forms for which probabilities are estimated from the bilingual corpora.Experiments are described in which these different methods had been tested. Corpora of different sizes and for different language pairs are used. Cascaded transducers are tested esp. for small corpora, while the word-based phrase alignment are applied to large corpora. In addition – and for the situation of very restricted bilingual data – a comparison is done between the statistical translation approach and an Interlingua-based translation system, and it is shown that even in this scenario statistical translation can give comparable translation quality.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT015213739

Interne Identnummern
RWTH-CONV-123878
Datensatz-ID: 62303

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)