Syntactic-Semantic Analysis of Modern Chinese with Left-Associative Grammar

Language
en
Document Type
Doctoral Thesis
Issue Date
2012-03-09
Issue Year
2012
Authors
Feng, Qiuxiang
Editor
Abstract

In this dissertation, Left-Associative Grammar is applied and tailored for the syntactic-semantic analysis of modern Chinese. The analysis follows the principle of time-linearity and description. Left-Associative Grammar is one of the two bases of Database Semantics. The DBS graphs of semantic relations, which can be automatically generated from the LAG derivation result, provide a more explicit view of the content of a sentence. The part of speech signature, as a more abstract presentation, helps to generalize the sentence patterns in Chinese with a clearer view of the deep semantic relations. To meet the requirements of automatic LAG syntactic-semantic analysis and ensure its efficiency, a bilingual dictionary is built up. Lexical items in this dictionary are stored as non-recursive feature structures called proplets. It is also supposed to help on the lexical level to reduce ambiguity caused by polysemy and temporary shift of part of speech. NOUN, VERB and ADJECTIVE are the three word classes in the LAG-Chinese dictionary. This word classification is different from that in the traditional Chinese grammar. The class of NOUN includes noun in a narrow sense as in traditional grammar, and pronoun, numeral, quantifier as well. The class of VERB includes common verbs with one, two or three valences, causative verbs, modal verbs, directional verbs, etc.. The Class of ADJECTIVE includes adjective in a narrow sense, adverb, preposition, conjunctive, auxiliary, etc.. Each word has its attribute-value pairs with its grammatical and semantic information. Based on the study of modern Chinese grammar, various basic usages of NOUNs, VERBs and ADJECTIVEs are analyzed. Rules, operations and graphical representation of the analysis result are provided. According to the demand of semantic analysis, adding values for the semantic attribute is proposed to note semantic roles and pragmatic functions, such as agent, patient, experiencer, and so on. The derivation result is meant to represent the content and deep semantic relations of the sentence. From the perspective of the fundamental usage of nouns, verbs and adjectives, the structures of subject-predicator, coordination, predicator-object, etc, are studied and analyzed, as well as the variants of these basic structures, including object-fronting, semantic passive, formal passive, element omission and so on. With respect to the analysis of a function word, the algorithm of conditional absorption is proposed as an improvement of Left-Associative Grammar. In the absorption of a function word by a content word, the core value and/or the semantic value of the function word is maintained under certain conditions, which helps to avoid possible back-tracing to a large extent in later language production and machine translation. In all the 36 possible fundamental intra-propositional part of speech signatures, 29 are found in modern Chinese. It demonstrates the flexibility of Chinese sentence patterns. That all the 29 relations are correctly analyzed shows the adaptability of the algorithm adopted and proposed in this research. Because of the variety of Chinese texts, the approach of automatic syntactic and semantic analysis based on improved Left-Associative Grammar should also be applied to other large-scale Chinese corpus in order to test its efficiency. In addition, language production and machine translation based on this research is also a possibility for the following-up study.

Abstract

In dieser Dissertation werden linksassoziative Grammatiken auf die syntaktisch-semantische Analyse des modernen Chinesisch angewendet bzw. anpasst. Die Analyse folgt den Prinzipien der Zeitlinearität und Beschreibbarkeit. Die linksassoziative Grammatik ist eine der beiden Grundpfeiler der Datenbank Semantik. Die DBS Graphen semantischer Relationen, die automatisch aus dem LAG Ableitungsergebnis erzeugt werden können, bieten eine ausdrücklichere Sicht auf den Satzinhalt. Wortklassen-Signaturen, eine abstraktere Repräsentation, helfen die Satzmuster im Chinesischen mit einem deutlicheren Blick auf die tieferen semantischen Relationen zu verallgemeinern. Um die Anforderungen der automatischen LAG syntaktsich-semantischen Analyse zu erfüllen und ihre Effizienz sicherzustellen, wurde ein bilinguales Wörterbuch erstellt. Lexikalische Einträge werden in diesem Wörterbuch als nicht- rekursive Eigenschaftenstrukturen, genannt Proplets, gespeichert. Sie sollen auf lexikalischer Ebene helfen, Ambiguitäten zu reduzieren, die durch Polysemie und lokale Wortklassenverschiebung. NOUN, VERB und ADJECTIVE sind die drei Wortklassen im LAG-Chinesisch Wörterbuch. Diese Wordklassifikation ist verschieden von der im traditionellen Chinesisch. Die NOUN Klasse umfasst Hauptwörter im engeren Sinn wie in der traditionellen Grammatik, sowie Pronomen, Numerale und Quantifizierer. Die VERB Klasse beinhaltet gewöhnliche Verben mit ein, zwei oder drei Valenzen, Kausativa, Modalverben, direktionale Verben usw. Die ADJECTIVE Klasse beinhaltet Adjektive im engeren Sinn, Adverbien, Präpositionen, Konjunktionen, Auxiliarverben usw. Jedes Wort besitzt seine Attribut-Wert Paare mit seinen grammatikalischen und semantischen Informationen. Basierend auf der Studie der modernen chinesischen Grammatik wurden verschiedene grundlegende Verwendungen von NOUNs, VERBs und ADJECTIVEs analysiert. Regeln, Operationen und graphische Repräsentation der Analyseergebnisse werden zur Verfügung gestellt. Gemäß den Anforderungen der semantischen Analyse wird das Hinzufügen von Werten für die semantische Analyse empfohlen, um die semantischen Rollen und pragmatischen Funktionen zu markieren, wie zum Beispiel Agenten, Patienten, Handlungsteilnehmer usw. Das Ableitungsergebnis wird für die Repräsentation des Inhalts und der tiefen semantischen Relationen des Satzes verwendet. Aus Sicht der grundlegenden Nutzung von Nomen, Verben und Adjektiven werden die Strukturen von Subjekt- Prädikator, Koordination, Prädikator-Objekt usw. studiert und analysiert, ebenso wie die Varianten dieser Grundstrukturen, einschließlich Objekt-Vorziehen, semantisches Passiv, formales Passiv, Elementunterdrückung und so weiter. In Hinblick auf die Analyse eines Funktionsworts, wird der Algorithmus der bedingten Absorption als Verbesserung der linksassoziativen Grammatik empfohlen. Bei der Absorption eines Funktionsworts durch ein Inhaltswort wird der Grundwert und/oder der semantische Wert des Funktionsworts unter bestimmten Bedingungen aufrecht erhalten, was das mögliche Back-Tracking in einem großen Teil der späteren Sprachproduktion und MAschinenübersetzung zu vermeiden hilft. Von den 36 möglichen grundlegenden intra-propositionalen Wortklassen Signaturen treten im modernen Chinesisch 29 auf. Dies zeigt die Flexibilität chinesischer Satzmuster. Das all diese 29 Relationen korrekt analysiert werden, zeigt die Anpassbarkeit des Algorithmus, der in dieser Arbeit verwendet und vorgeschlagen wird. Auf Grund der Vielfalt chinesischer Texte sollte der Ansatz automatischer syntaktischer und semantischer Analyse basierend auf linksassoziativer Grammatik auch auf andere umfassendere chinesische Korpus angewendet werden, um seine Effizienz zu überprüfen. Zusätzlich stellt die Sprachproduktion und maschinelle Übersetzung basierend auf dieser Forschung eine Möglichkeit für Folgestudien dar.

DOI
Document's Licence
Zugehörige ORCIDs