Pluricentric languages : automatic identification and linguistic variation

Zampieri, Marcos

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-23660

Titel:	Pluricentric languages : automatic identification and linguistic variation
Alternativtitel:	Plurizentrische Sprachen : automatische Spracherkennung und linguistische Variation
VerfasserIn:	Zampieri, Marcos
Sprache:	Englisch
Erscheinungsjahr:	2016
Kontrollierte Schlagwörter:	Linguistik Korpus <Linguistik> Computerlinguistik Sprachvariante
Freie Schlagwörter:	language identification language varieties natural language processing computational linguistics
DDC-Sachgruppe:	400 Sprache, Linguistik
Dokumenttyp:	Dissertation
Abstract:	Language Identification is a well-known research topic in NLP. State-of-the-art methods consist of the application of n-gram language models to distinguish languages automatically with well over 95% accuracy. This level of success is obtained when discriminating between languages that are typologically not closely related (e.g. Finnish and Spanish), or due to the contrast between languages with unique character sets such as Greek or Hebrew. Recent studies show that one of the main difficulties of n-gram based methods is the identification of closely related languages. The research presented in this thesis goes one step further and investigates computational methods to identify standard national varieties of pluricentric languages such as Portuguese, Spanish, French, and English. It explores different computational methods and different sets of features for this task that go beyond character and word language models. The main objective is to investigate the extent to which it is possible to identify language varieties automatically in both monolingual and in real-world (multilingual) settings and to establish what are the main challenges of this task in comparison to general purpose language identification models. This research shows, for example, that it is possible to discriminate between Brazilian and European Portuguese with 99.8% accuracy using journalistic texts. Another contribution of this thesis is the use of linguistically motivated features such as POS tags and morphological information to discriminate between language varieties with results of up to 83.1% accuracy in discriminating between Mexican and Peninsular Spanish texts. An additional aspect of this thesis is the use of classification output in corpus-driven contrastive linguistics research as explained in Chapter 6. Classification methods combined with linguistically meaningful features are able to provide empirical evidence on the convergences and divergences of language varieties in terms of lexicon, orthography, morphology and syntax. Die Sprachidentifikation ist ein wichtiges Forschungsthema in der Computerlinguistik. Aktuelle Verfahren nutzen n-gram-Sprachmodelle, um Sprachen automatisch voneinander zu unterscheiden, und erzielen dabei Genauigkeiten von über 95%. Entsprechende Leistungen werden dabei insbesondere dann erzielt, wenn die Algorithmen Sprachen, die typologisch nicht eng miteinander verwandt sind (z.B. Finnisch und Spanisch), klassifizieren oder aber auf Sprachen mit eindeutigen Zeichensätzen wie Griechisch oder Hebräisch. Studien zeigen jedoch, dass eine der Hauptschwierigkeiten n-gram-basierter Verfahren in der Identifikation ähnlicher Sprachen besteht. Die vorliegende Arbeit geht daher einen Schritt über existierende Methoden hinaus und untersucht Identifikationsverfahren für plurizentrische Sprachen wie das Portugiesische, Spanische, Französische und Englische. Dafür werden Algorithmen und Merkmale verwendet, die reichere Mengen linguistischer Information kodieren als zeichen- oder wortbasierte Sprachmodelle. Das Hauptziel der Arbeit besteht dabei darin zu untersuchen, inwieweit es möglich ist, Sprachvarietäten sowohl in einsprachigen als auch in mehrsprachigen Settings automatisch zu identifizieren. Auf Grundlage dieser Experimente ist es darüber hinaus müglich zu bewerten, welche die wesentlichen Schwierigkeiten des beschriebenen Ansatzes im Vergleich zu generischen Modelle sind. Ein Nebenaspekt dieser Arbeit ist zudem die Verwendung des Klassifikationsoutputs in der korpus-basierten kontrastiven Linguistik, denn Klassifikationsverfahren auf Grundlage interpretierbarer sprachlicher Merkmale sind in der Lage, empirische Erkenntnisse über die Konvergenzen und Divergenzen dieser Sprachvarietäten in Bezug auf Lexikon, Rechtschreibung, Morphologie und Syntax zu liefern.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291-scidok-66749 hdl:20.500.11880/23716 http://dx.doi.org/10.22028/D291-23660
Erstgutachter:	van Genabith, Josef
Tag der mündlichen Prüfung:	20-Okt-2016
Datum des Eintrags:	4-Nov-2016
Fakultät:	P - Philosophische Fakultät
Fachrichtung:	P - Sprachwissenschaft und Sprachtechnologie
Ehemalige Fachrichtung:	bis SS 2016: Fachrichtung 4.6 - Angewandte Sprachwissenschaft sowie Übersetzen und Dolmetschen
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
zampierithesis.pdf		1,52 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.