Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-13655
Autor(en): Marx Larre, Miguel
Titel: Effects of paraphrasing and demographic metadata on NLI classification performance
Erscheinungsdatum: 2023
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: 82
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-136743
http://elib.uni-stuttgart.de/handle/11682/13674
http://dx.doi.org/10.18419/opus-13655
Zusammenfassung: Native language identification (NLI) refers to the task of automatically deducing the native language (L1) of a document's author, when the document is written in a second language (L2). Documents stem from different sources, but recently more documents are altered before publication through paraphrasing methods. This alteration changes the content, grammar, and style of the document, which inherently obfuscates the L1 of the author. In addition, the demographic metadata of the author, such as age and gender, may influence the performance with which an author's L1 may be detected. In this thesis, two corpora which provide necessary demographic metadata, the International Corpus of Learner English (ICLE) and the \textsc{Trustpilot} corpus, are used to analyze the impact of paraphrasing and demographic factors in the context of NLI tasks. To analyze the effect of paraphrasing on a document, new versions of both corpora are created, which contain paraphrased versions of the documents contained. The effect is inspected using two state-of-the-art NLI systems to perform the task, while the results were analyzed using a regression analysis in combination with dominance analysis (DA). Paraphrasing was found to have a substantial influence in performance of NLI tasks, regardless of corpus, classifier, or paraphrasing method. The usual influence of demographic factors on NLI tasks could not be confirmed in this thesis. Regression analysis and DA allowed for a more profound analysis of the results, which allowed for findings regarding the influence of specific L1s on performance of NLI tasks.
Die Identifizierung der Muttersprache (NLI) bezieht sich auf die automatische Bestimmung der Erstsprache (L1) eines Autors anhand eines Dokuments, das in einer zweiten Sprache (L2) verfasst ist. Dokumente stammen aus verschiedenen Quellen, aber in letzter Zeit werden mehr Dokumente vor der Veröffentlichung durch Paraphrasierungstechniken verändert. Diese Änderungen beeinflussen den Inhalt, die Grammatik und den Stil des Dokuments und erschweren dadurch die Feststellung der L1 des Autors. Zusätzlich können demografische Metadaten des Autors wie Alter und Geschlecht die Genauigkeit der L1-Erkennung beeinflussen. In dieser Arbeit werden zwei Korpora, das International Corpus of Learner English (ICLE) und der Trustpilot-Korpus, verwendet, um den Einfluss von Umschreibungen und demografischen Faktoren im Zusammenhang mit NLI-Aufgaben zu analysieren. Um den Effekt von Umschreibungen auf ein Dokument zu untersuchen, werden neue Versionen beider Korpora erstellt, die paraphrasierte Varianten der enthaltenen Dokumente enthalten. Der Effekt wird mithilfe von zwei modernen NLI-Systemen analysiert, und die Ergebnisse werden durch Regression- und Dominanzanalyse (DA) untersucht. Es wurde festgestellt, dass Paraphrasierungen einen signifikanten Einfluss auf die Leistung von NLI-Aufgaben haben, unabhängig vom Korpus, Klassifizierer oder der verwendeten Paraphrasierungsmethode. Die übliche Auswirkung demografischer Faktoren auf NLI-Aufgaben konnte in dieser Arbeit nicht bestätigt werden. Die Regressionsanalyse und DA ermöglichten eine detaillierte Analyse der Ergebnisse und lieferten Erkenntnisse über den Einfluss bestimmter Muttersprachen auf die Leistung von NLI-Aufgaben.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Thesis_MiguelMarxLarre.pdf2,12 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.