Automatische Inhaltsanalyse und maschinelles Lernen

Automatic content analysis and machine learning

  • Bereits seit einigen Jahren werden verschiedene Verfahren des maschinellen Lernens für die Auswertung von digitalen Medieninhalten eingesetzt – unter anderem bei Suchmaschinen oder automatischen Übersetzungen. Was leisten diese Verfahren jedoch für die quantitative Inhaltsanalyse, wie sie in den Sozialwissenschaften angewandt wird? In diesem Buch werden die methodologischen und forschungspraktischen Besonderheiten der automatischen Inhaltsanalyse denen der klassischen manuellen Codierung gegenübergestellt. Anschließend werden die Vor- und Nachteile des maschinellen Lernens im Vergleich zu anderen computergestützten Verfahren der Textanalyse diskutiert. Praktisch wird das Potential dieses Ansatzes anhand einer umfangreichen Analyse von Online-Nachrichten evaluiert. In einer experimentellen Untersuchung stehen dabei einerseits die Klassifikationsqualität, andererseits die Effektivität des maschinellen Lernprozesses auf dem Prüfstand. Die Ergebnisse der Studie zeigen erstens, dass die Qualität der automatischen Codierung vor allem vonBereits seit einigen Jahren werden verschiedene Verfahren des maschinellen Lernens für die Auswertung von digitalen Medieninhalten eingesetzt – unter anderem bei Suchmaschinen oder automatischen Übersetzungen. Was leisten diese Verfahren jedoch für die quantitative Inhaltsanalyse, wie sie in den Sozialwissenschaften angewandt wird? In diesem Buch werden die methodologischen und forschungspraktischen Besonderheiten der automatischen Inhaltsanalyse denen der klassischen manuellen Codierung gegenübergestellt. Anschließend werden die Vor- und Nachteile des maschinellen Lernens im Vergleich zu anderen computergestützten Verfahren der Textanalyse diskutiert. Praktisch wird das Potential dieses Ansatzes anhand einer umfangreichen Analyse von Online-Nachrichten evaluiert. In einer experimentellen Untersuchung stehen dabei einerseits die Klassifikationsqualität, andererseits die Effektivität des maschinellen Lernprozesses auf dem Prüfstand. Die Ergebnisse der Studie zeigen erstens, dass die Qualität der automatischen Codierung vor allem von den verwendeten Kategorien abhängt, jedoch weitgehend unabhängig vom Textmaterial und etwaigen Bereinigungsschritten. Zweitens belegt die Evaluationsstudie, dass sich der maschinelle Lernprozess durch gezielte statt zufällige Auswahl von Beispieltexten deutlich beschleunigen lässt.zeige mehrzeige weniger
  • For some years, machine learning techniques have been used to automatically process digital media content - from search engines to automatic language translation. More recently, socials scientist have applied machine learning to the quantitative analysis of texts. Starting from a methodological perspective, I discuss the benefits and disadvantages of automatic content analysis to traditional manual coding. Following these considerations, I introduce the methodological and conceptual foundations of machine learning approaches to text classification and their application in social science research. Empirically, the potential of machine learning for content analysis is investigated using an experimental study with German online news. The outcome variables for the study were (a) the quality of the classification and (b) the efficiency of the training process. Results show that the classification quality varies with the categories chosen, but is only marginally influenced by most preprocessing steps discussed in the literature. RegardingFor some years, machine learning techniques have been used to automatically process digital media content - from search engines to automatic language translation. More recently, socials scientist have applied machine learning to the quantitative analysis of texts. Starting from a methodological perspective, I discuss the benefits and disadvantages of automatic content analysis to traditional manual coding. Following these considerations, I introduce the methodological and conceptual foundations of machine learning approaches to text classification and their application in social science research. Empirically, the potential of machine learning for content analysis is investigated using an experimental study with German online news. The outcome variables for the study were (a) the quality of the classification and (b) the efficiency of the training process. Results show that the classification quality varies with the categories chosen, but is only marginally influenced by most preprocessing steps discussed in the literature. Regarding the efficiency of the machine learning, it can be shown that actively choosing informative training material instead of random sampling often leads to a more rapid learning process and can save a lot of human coding effort.zeige mehrzeige weniger

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste

Suche bei Google Scholar
Metadaten
Verfasserangaben: Michael Scharkow
URN:urn:nbn:de:kobv:b170-opus-405
ISBN:978-3-8442-1670-7
Gutachter*in:Prof. Dr. Monika Suckfüll
Dokumentart:Dissertation
Sprache:Deutsch
Datum der Veröffentlichung (online):06.02.2012
Veröffentlichende Institution:Universität der Künste Berlin
Titel verleihende Institution:Universität der Künste Berlin, Fakultät Gestaltung
Datum der Abschlussprüfung:16.06.2011
Datum der Freischaltung:06.02.2012
Freies Schlagwort / Tag:Automatische Inhaltsanalyse; Inhaltsanalyse; Maschinelles Lernen; Methode; World Wide Web
content analysis; machine learning; online news
GND-Schlagwort:Automatische Inhaltsanalyse; Inhaltsanalyse; Maschinelles Lernen; World Wide Web
Fakultäten und Einrichtungen:Fakultät Gestaltung / Institut für Theorie und Praxis der Kommunikation
DDC-Klassifikation:7 Künste und Unterhaltung / 70 Künste / 700 Künste; Bildende und angewandte Kunst
Lizenz (Deutsch):Keine Lizenz – Urheberrechtsschutz
Verstanden ✔
Diese Webseite verwendet technisch erforderliche Session-Cookies. Durch die weitere Nutzung der Webseite stimmen Sie diesem zu. Unsere Datenschutzerklärung finden Sie hier.