Automatic Phonetic Transcription of Standard Arabic with Applications in the NLP Domain

Language
en
Document Type
Doctoral Thesis
Issue Date
2022-02-14
Issue Year
2022
Authors
Sindran, Fadi
Editor
Abstract

Phonetic transcription is the transition from a written text to linguistic units. These units can be phonemes, allophones, syllables, allosyllables, or diphones depending on the field of application. In this thesis, the problem of automatic phonetic transcription of Standard Arabic (SA) text is addressed. A rule-based approach, depending on a set of language-based well-defined transcription rules and a dictionary of exceptions,has been adopted in this work. Three applications based on this have been provided. The contributions of this work can be summarized as follows:

  1. Developing a reliable software package for automatic phonetic transcription of Standard Arabic (SA) text with an accuracy of higher than 99%.
  2. Accomplishing the first comprehensive automatic statistical study of linguistic units at the level of SA as a whole; the results of this study were utilized in the expanded version of the developed software package to include the automatic preparation of text corpora with the desired linguistic content.
  3. Developing a robust program to identify classical Arabic poems meters depending on the reliable results of automatic phonetic transcription. The outcome of this work can be utilized in SA text-to-speech (TTS), computer-aided pronunciation learning (CAPL), and automatic speech recognition (ASR) systems.
Abstract

Phonetische Transkription ist der Übergang von einem geschriebenen Text zu sprachlichen Einheiten. Diese Einheiten können Phoneme, Allophone, Silben, Allosilben oder Diphone sein, abhängig von dem Anwendungsgebiet. Diese Arbeit beschäftigt sich mit dem Problem der automatischen phonetischen Transkription von standardarabischen (SA) Texten. Ein regelbasierter Ansatz, der von einer Reihe sprachbasierter wohldefinierter Transkriptionsregeln und einem Lexikon von Ausnahmen abhängt,wurde in dieser Arbeit übernommen. Drei darauf basierende Anwendungen wurden zur Verfügung gestellt. Die Beiträge dieser Arbeit können wie folgt zusammengefasst werden:

  1. Entwicklung eines zuverlässigen Softwarepakets für die automatische phonetische Transkription von SA-Text mit einer Genauigkeit von höher als 99%.
  2. Durchführung der ersten umfassenden automatischen statistischen Studie von Spracheinheiten auf der Ebene des SA als Ganzes. Die Ergebnisse dieser Studie wurden in der Erweiterungsversion des entwickelten Softwarepakets verwendet, um die automatische Erstellung von Textkorpora mit dem gewünschten linguistischen Inhalt zu erlauben.
  3. Die Entwicklung eines robusten Programms, um klassische arabische Versmasse zu identifizieren, abhängig von den zuverlässigen Ergebnissen der automatischen phonetischen Transkription. Die Ergebnisse dieser Arbeit können in Sprachsynthese für SA (TTS), computergestütztes Aussprachelernen (CAPL) und automatischer Spracherkennung (ASR) verwendet werden.
DOI
Faculties & Collections
Zugehörige ORCIDs