h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Bewerten in Blogkommentaren : Mehrebenenannotation sprachlichen Bewertens = Evaluating in blog comments : multi-level annotation of verbal evaluations



Verantwortlichkeitsangabevorgelegt von Bianka Trevisan

ImpressumAachen 2014

Umfang241 S. : Ill., graph. Darst.


Aachen, Techn. Hochsch., Diss., 2013


Genehmigende Fakultät
Fak07

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2013-12-20

Online
URN: urn:nbn:de:hbz:82-opus-51457
URL: https://publications.rwth-aachen.de/record/444868/files/5145.pdf

Einrichtungen

  1. Lehr- und Forschungsgebiet Textlinguistik und Technikkommunikation (792020)

Inhaltliche Beschreibung (Schlagwörter)
Textanalyse (Genormte SW) ; Text Mining (Genormte SW) ; World Wide Web 2.0 (Genormte SW) ; Sprachwissenschaft, Linguistik (frei) ; NLP (frei) ; Sentiment Analysis (frei) ; Mehrebenenannotation (frei) ; Blog (frei) ; text analysis (frei) ; multi-level annotation (frei) ; sentiment analysis (frei) ; text mining (frei)

Thematische Einordnung (Klassifikation)
DDC: 400

Kurzfassung
Wurden linguistische Textanalysen früher manuell durchgeführt, eröffnen heute neue methodische Zugänge Forschern effizientere Arbeitsweisen. Einen neuen methodischen Zugang bieten dabei Methoden und Techniken des Text Mining. Die Methodik des Text Mining stammt aus der Informatik und wurde bisher u.a. für Zwecke der Frequenz- und Kookkurrenzanalyse angewandt. Gegenstand dieser Arbeit ist die Verbindung aus linguistischer Bewertentheorie und Text Mining. Die linguistische Bewertentheorie nach Sandig (1979) beschreibt den Akt des Bewertens als eine sprachliche Handlung, bei der individuelle Bewertungsmaßstäbe durch sprachliche Äußerungen prädiziert werden. Sprachliches Bewerten erfolgt unter Rückgriff auf ein Bewertungsinventar von Bewertungsausdrücken bzw. -mitteln, das textmusterabhängig variieren kann, etwa für Textmuster der internetbasierten Kommunikation, z.B. für das hypertextuelle Text- und Gebrauchsmuster themenspezifischer Blogkommentar. Textmuster neuerer Kommunikationsformen zeichnen sich im Vergleich zu genuin schrift-sprachlich orientierten Textmustern (im Sinne von Schriftsprache des Deutschen; Normeinhaltung, z.B. journalistische Texte) durch spezifische sprachliche Phänomene aus wie Norm-abweichung, interaktive Einheiten im Sinne von Zifonun et al. (1997) oder etwa gehäuftes auftreten onomatopoetischer Ausdrücke. Sie müssen bei der Methodenentwicklung berücksichtigt werden. Vor diesem Hintergrund ergeben sich folgende Forschungsfragen: Was muss eine Maschine (und damit die Automatisierung) leisten, um diesen Herausforderungen gerecht zu werden? Welche bewertungsbezogenen sprachlichen Phänomene müssen bei der Automatisierung berücksichtigt werden? Wie müssen Methoden und Techniken des Text Mining weiterentwickelt werden, um diesen Herausforderungen zu begegnen? Ziel der vorliegenden Arbeit ist die Entwicklung erster theoretisch-methodischer Ansätze für die automatische Analyse sprachlichen Bewertens in Blogkommentaren mittels Text Mining unter Berücksichtigung textmusterspezifischer sprachlicher Phänomene. Die bisher manuelle Analysemethodik für sprachliches Bewerten wird semi-automatisch für die Untersuchung von Blogkommentaren umgesetzt. Zu diesem Zweck werden bestehende manuelle und maschinelle Verfahren der Textanalyse adaptiert und optimiert. Die Methodikentwicklung erfolgt am Fallbeispiel eines Blogkommentarkorpus zum Thema Mobilfunk. Die Methodikentwicklung sieht ein zweistufiges Verfahren vor, bestehend aus einer Vor- und einer Hauptuntersuchung. Gegenstand der Voruntersuchung ist die Evaluation von Text Mining-Methoden und die Identifikation von Empirie-Probleme durch manuelle und automatische Analyse von Blogkommentaren; die Evaluation automatischer Analysewerkzeuge erfolgt exemplarisch anhand der Textanalysesoftware PASW Modeler und der Datenbank MySQL. Um Empirie-Probleme zu ermitteln, werden Frequenz-, Kookkurrenz- und Sentimentanalysen durchgeführt. Die in den Analysen identifizierten, textmusterbezogenen Empirie-Probleme werden klassifiziert und Implikationen für die Hauptuntersuchung abgeleitet. Gegenstand der Hauptuntersuchung ist die Entwicklung eines Ansatzes der zur Identifikation meinungs- und bewertungsindizierender Äußerungsanteile in deutschsprachigen Blogkommentaren beiträgt. Die Datenbasis bilden zwei Subkorpora, die kriteriengeleitet aus dem themenspezifischen Gesamtkorpus HeiseMobilBlog erhoben wurden. Die Subkopora werden mit Methoden und Werkzeugen der Korpus- und Computerlinguistik vorverarbeitet (WebTagger), die Analyse erfolgt mittels linguistischer Mehrebenenannotation (in EXMARaLDA). Erwartetes Ergebnis ist ein feinkörniges, merkmalsbasiertes, linguistisches Mehrebenenannotationsmodell, das per Inter-Annotator Agreement evaluiert wird. Mittels des Mehrebenenannotationsmodells werden die Subkorpora durch fünf Annotatoren final annotiert und per Mehrheitsentscheidung der Goldstandard abgeleitet. Der Goldstandard wird ausgewertet und prototypische sprachliche Merkmale ausgewählter Bewertungshand-lungen ermittelt.

Previously, linguistic text analysis is performed manually. However, today there are new methodological approaches that allow researchers more efficient ways of working. A new methodological approach is the usage of Text Mining methods and techniques. The methodology of Text Mining comes originally from computer science and has been, inter alia, used for the purpose of frequency and co-occurrence analysis. Subject of this work is the combination of the linguistic evaluation theory and Text Mining. The linguistic evaluation theory by Sandig (1979) describes the act of evaluation as a linguistic act, where individual evaluation criteria are verbalized by linguistic expressions. Verbal evaluation is done by using an inventory of evaluative expressions, which may vary depending on text type, such as for the text type blog comment. These text types are characterized in comparison to genuine written linguistically oriented text types (e.g. journalistic texts) by specific linguistic phenomena such as standard deviation, interactive units within the meaning of Zifonun et al. (1997) or onomatopoeic expressions. They have to be taken into account in the method development. Concerning this background, the following research questions arise: What does a machine (and thus the automation) afford to meet these challenges? What evaluation-related linguistic phenomena must be considered in the automation? How do Text Mining methods and techniques be developed further to meet these challenges? The aim of this work is the development of a first theoretical-methodological approach for the automatic analysis of verbal evaluations in blog comments by Text Mining considering text type-specific linguistic phenomena. For this purpose, existing manual and automatic methods of text analysis are adapted and optimized. The methodology development is carried out using the example of blog comments based on a corpus dealing with mobile communication systems. The methodology development provides a two-stage procedure consisting of a pre- and a main study. Subject of the pre-study is the evaluation of Text Mining methods and the identification of empirical problems by manual and automatic analysis of blog comments; the evaluation of automatic analysis tools is done with reference to the text analysis software PASW Modeler and MySQL. To determine the empirical problems, frequency, co-occurrence and sentiment analysis are carried out. The identified empirical, text type-related problems are classified and used as implications for the main study. Subject of the main study is to develop an approach for the identification of opinion- indicating expressions in German blog comments. The data base consists of two sub-corpora collected criteria-based. The sub-corpora are analyzed with methods and tools of corpus linguistics and Natural Language Processing, the analysis is carried out by means of linguistic multi-level annotation (in EXMARaLDA). Final result is a fine-grained, feature-based, linguistic multi-level annotation model, which is evaluated by inter-annotator agreement. Using the multi-level annotation model the sub-corpora are finally annotated by five annotators and a gold standard is derived.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
German

Interne Identnummern
RWTH-CONV-145187
Datensatz-ID: 444868

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Arts and Humanities (Fac.7)
Publication server / Open Access
Public records
Publications database
792020

 Record created 2014-12-09, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)