Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-32203
Titel: Graph-based Methods for Large-Scale Multilingual Knowledge Integration
VerfasserIn: de Melo, Gerard
Sprache: Englisch
Verlag/Plattform: universaar
Erscheinungsjahr: 2012
Erscheinungsort: Saarbrücken
Kontrollierte Schlagwörter: Computerlinguistik
Wissensrepräsentation
Data Mining
Mehrsprachigkeit
DDC-Sachgruppe: 004 Informatik
Dokumenttyp: Buch (Monographie)
Abstract: Given that much of our knowledge is expressed in textual form, information systems are increasingly dependent on knowledge about words and the entities they represent. This thesis investigates novel methods for automatically building large repositories of knowledge that capture semantic relationships between words, names, and entities, in many different languages. Three major contributions are made, each involving graph algorithms and statistical techniques that combine evidence from multiple sources of information. The lexical integration method involves learning models that disambiguate word meanings based on contextual information in a graph, thereby providing a means to connect words to the entities that they denote. The entity integration method combines semantic items from different sources into a single unified registry of entities by reconciling equivalence and distinctness information and solving a combinatorial optimization problem. Finally, the taxonomic integration method adds a comprehensive and coherent taxonomic hierarchy on top of this registry, capturing how different entities relate to each other. Together, these methods can be used to produce a large-scale multilingual knowledge base semantically describing over 5 million entities and over 16 million natural language words and names in more than 200 different languages.
Da ein großer Teil unseres Wissens in textueller Form vorliegt, sind Informationssysteme in zunehmendem Maße auf Wissen über Wörter und den von ihnen repräsentierten Entitäten angewiesen. Gegenstand dieser Arbeit sind neue Methoden zur automatischen Erstellung großer multilingualer Wissensbanken, welche semantische Beziehungen zwischen Wörtern, Namen und Entitäten formal erfassen. In drei Hauptbeiträgen werden jeweils Indizien aus mehreren Wissensquellen mittels graphtheoretischer und statistischer Verfahren verknüpft. Bei der lexikalischen Integration werden statistische Modelle zur Disambiguierung erlernt, um Wörter mit den von ihnen repräsentierten Entitäten in Verbindung zu setzen. Bei der Entitäten-Integration werden semantische Einheiten aus verschiedenen Quellen unter Berücksichtigung von Äquivalenz und Verschiedenheit durch Lösung eines kombinatorischen Optimierungsproblems zu einem kohärenten Register von Entitäten zusammengefasst. Dieses wird schließlich bei der taxonomischen Integration durch eine umfassende taxonomische Hierarchie ergänzt, in der Entitäten zueinander in Verbindung gesetzt werden. Es zeigt sich, dass diese Methoden zusammen zur Induzierung einer großen multilingualen Wissensbank eingesetzt werden können, welche über 5 Millionen Entitäten und über 16 Millionen Wörter und Namen in mehr als 200 Sprachen semantisch beschreibt.
Link zu diesem Datensatz: urn:nbn:de:bsz:291-universaar-278
hdl:20.500.11880/30712
http://dx.doi.org/10.22028/D291-32203
ISBN: 978-3-86223-029-7
Schriftenreihe: Dissertationen aus der Naturwissenschaftlich- Technischen Fakultät der Universität des Saarlandes
Datum des Eintrags: 22-Feb-2021
Fakultät: MI - Fakultät für Mathematik und Informatik
Fachrichtung: MI - Informatik
Professur: MI - Prof. Gert Smolka
Sammlung:Bücher Online

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
demelo.pdf7,3 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.