Ein physiologisch gehörgerechtes Verfahren zur automatisierten Melodietranskription

Abstract The implementation of a method for automatic transcription of music is proposed in this thesis. The human ability of musical perception, and espescially tasks performed by skilled professional musicians, can by far not be duplicated by recent technical systems. It can therefore be considered a plausible approach to make use of perceptually motivated strategies as far as possible in order to bridge this gap for systems for music analysis and understanding. In the presented work the basic processing mechanisms used by the mammalian auditory periphery, as well as high-level cognitive processes are applied to the analysis of musical input. A detailed summary describes state-of-the-art algorithms for detection of fundamental frequencies as well as segmentation of musical phrases. Current systems for monophonic and polyphonic melody transcription are introduced. The fundamental physiological components of the auditory periphery and principles based on Gestalt psychology are illustrated. Furthermore the models used in this thesis, including active sound preprocessing of the inner ear, are described. In order to take account of auditive postprocessing, principles of pitch perception and a hierarchical model based on assumptions from Gestalt psychology are utilized. Besides the development of the hierarchical model the core of the presented thesis consists of the implementation of the methods regarding monophonic and polyphonic transcription strategies. Aurally justified pitch extraction, psychoacoustically motivated segmentation and postprocessing based on music theory constitute the basis for monophonic transcription. The polyphonic parts, as partial interference, pitch hypothesis or octave detection, are thought of setting up the fundamentals of subsequent implementations. The thesis concludes with the evaluation of the proposed system. A variety of different test series in the context of a metadata search engine are described. The results show the potential of the method regarding (commercial) applications.

: Das Thema dieser Dissertation ist die Implementierung eines Verfahrens zur automatisierten Transkription von Musik. Die Fähigkeit des Menschen, insbesondere die von musikalischen Experten, bezüglich der Wahrnehmung musikalischer Inhalte kann von aktuellen technischen Systemen bei weitem nicht reproduziert werden. Einen plausiblen Ansatz, um diese Lücke für Anwendungen der automatisierten Musikanalyse zu schliessen, stellt die Verwendung perzeptuell motivierter Strategien dar. Die vorliegende Arbeit wendet daher konsequent grundlegende Verarbeitungsmechanismen der menschlichen auditorischen Peripherie sowie kognitiv höher angesiedelter Gehirnzentren an. In einer ausfürlichen Darstellung des Standes der Technik werden die aktuellen Algorithmen zur Bestimmung der Grundfrequenzen und zur Segmentierung musikalischer Phrasen sowie deren Anwendung in monophonen und polyphonen Melodietranskriptionssystemen erläutert. Nach der Beschreibung der fundamentalen physiologischen Komponenten der auditorischen Peripherie und Prinzipien der Gestaltpsychologie werden die in dieser Arbeit verwendeten Modelle der teilweise aktiven Schallvorverarbeitung des Innenohres erläutert. Im Bereich der auditiven Weiterverarbeitung werden Prozesse der Frequenzwahrnehmung sowie ein auf gestaltbasierenden Annahmen aufgebautes eigenes Hierarchiemodell eingeführt. Neben der Aufstellung dieses Hierarchiemodells besteht der Kernpunkt der Arbeit in der Implementierung der ausgewählten Modelle bezüglich monophoner und polyphoner Transkriptionsstrategien. Gehörgerechte Pitchextraktion, psychoakustisch motivierte Segmentierung und musiktheoretisch untermauerte Nachbearbeitung bilden die Basis einstimmiger Analyse. Die Untersuchung von Partialtoninterferenzen, polyphonen Pitchhypothesen und Ansätzen zur Oktaverkennung sollen als Grundlage weiterführender Arbeiten im mehrstimmigen Anwendungsfall aufgefasst werden. Die Arbeit schliesst mit der Evaluierung des Verfahrens anhand der Diskussion einer Anzahl verschiedener Testreihen im Umfeld eines Metadaten-Suchsystems. Die erhaltenen Ergebnisse verdeutlichen das (auch kommerzielle) Anwendungspotential der vorgestellten Methode.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.