Psychoacoustics of detection of tonality and asymmetry of masking: implementation of tonality estimation methods in a psychoacoustic model for perceptual audio coding

Language
en
Document Type
Doctoral Thesis
Issue Date
2016-06-10
Issue Year
2016
Authors
Taghipour, Armin
Editor
Abstract

Perceptual audio coders exploit the masking properties of the human auditory system to reduce the data rate of the input audio signal. Commonly, the input signal is split into frames and decomposed into a number of subbands, such that it is divided into time-frequency segments. A psychoacoustic model (PM) is used to estimate the masking threshold evoked by the audio signal as a measure for the maximum inaudible quantization noise. Thus, it enables a perceptually suitable bit allocation for the time-frequency segments. The effectiveness of the masking depends on whether the audio signal is tone-like or noise-like. This property is often referred to as ''tonality.'' Generally, tone-like sounds with no or slow envelope fluctuations and/or very regular envelope fluctuations are less effective maskers than noise-like sounds with strong, irregular, and more rapid envelope fluctuations. Perceptual audio encoders model this ''asymmetry of masking'' by means of tonality estimation methods. Further, the effectiveness of the input signal in masking the quantization noise is likely to depend on the bandwidth and center frequency of the audio signal, but the exact dependency of the masked threshold on the masker's bandwidth and center frequency had not previously been measured. The effect of bandwidth had been investigated in a few studies, however, only at medium center frequencies. A new psychoacoustic experiment was carried out to investigate masking when the noise masker had a narrower bandwidth than the noise probe, which is the most relevant case in perceptual audio coding. Statistical analysis of the data showed that the masked thresholds increased with increasing masker bandwidth and were lowest for medium center frequencies. Another effective parameter is the duration of the stimulus. Both perceptually and physically, a certain amount of time is needed to identify the tonality or noisiness of a sound. Hence, to exploit the fact that quantization noise is masked more effectively by a noise-like signal than by a tone-like signal, the analysis frame length used in a perceptual coder must be sufficiently long. However, the required duration may vary depending on the center frequency and on the width of the subbands. A number of psychoacoustic experiments were conducted to investigate the duration required to discriminate a tone from a narrowband noise of the same center frequency. Duration thresholds decreased with increasing bandwidth and with increasing center frequency up to medium frequencies. An analysis of the stimuli and the perceptual data indicates that the duration thresholds depended mainly on the detection of amplitude fluctuations in the noise bursts. In addition to the mentioned psychoacoustic studies, the present thesis deals with the development of tonality estimation methods for psychoacoustic models. There have been a few approaches to exploit the asymmetry of masking in conventional perceptual audio coding. These methods were found to give quite accurate estimates of masked thresholds for the extreme cases of high tonality or strong noisiness. However, a deeper analysis of the data on masking asymmetries and the results of more recent psychoacoustic studies, including the ones from the present thesis, provided opportunities for improved perceptual models. Hence, in the course of this research, several measures were designed and implemented in a PM to estimate the degree of tonality/noisiness. The tonality measures were implemented in a filter bank-based PM, which was developed in two versions. The initial version of the model was designed based on the Bark scale; the magnitude frequency responses of the filters take into account the spreading of the simultaneous masking. The second version of the PM was designed and computed based on the ERBN-number scale and rounded exponential filters. The two versions of the model differ in the number, the shape, the center frequencies, and the widths of the bandpass filters. The PM, in both its versions, was developed such that a first approximation of the masking threshold of the input audio signal in the subbands is derived from the filter outputs. Furthermore, a tonality estimation method scales the masking thresholds depending on the estimated tonality/noisiness of the masking audio signal. Five different tonality estimation approaches are presented here. In an approach using linear prediction, a high prediction gain was taken as an indication of high tonality. In another approach, a discrete partial spectral flatness measure (PSFM) was calculated, which decreased with increasing tonality. An amplitude modulation ratio (AM-R) was developed based on a measure of the characteristics of amplitude modulations in the envelope of the subband signal; low level of modulation in the envelope indicated high tonality. Another method was developed based on the ''auditory image model,'' whereby high tonality was indicated by high intra-channel correlations and high correlations between neighboring channels. Finally, in the fifth method, fluctuations in the envelope of the subband signal were analyzed; slow fluctuations were interpreted as high tonality. The results of several quality rating tests, which are documented in this thesis, showed higher audio quality scores for PSFM and AM-R. The two versions of the PM, including the PSFM tonality estimation method, were implemented in a standard perceptual audio codec and were compared to a state-of-the-art psychoacoustic model. No significant difference was found between the two versions of the proposed model. Also no significant differences were detected between the two models and a version of the standard codec, in which additional coding tools were activated (e.g., ''temporal noise shaping'' and ''spectral band replication''). However, when all three psychoacoustic models were applied to an identical standard coding scheme, both versions of the proposed model scored significantly higher than the conventional PM. This shows that replacement of the transform-based psychoacoustic models by filter bank-based models with specially designed spectral analysis and frequency- and bandwidth-dependent tonality analysis has the potential to improve audio codecs.

Abstract

Wahrnehmungsbasierte Audiocodierverfahren nutzen die Eigenschaften des menschlichen auditorischen Systems aus, um die Datenrate des Audio-Eingangssignals zu reduzieren. Normalerweise wird das Eingangssignal gefenstert und in Teilbänder zerlegt, so dass daraus mehrere Zeit-Frequenz-Abschnitte entstehen, die in der Regel effizienter codiert werden können als das Eingangssignal. Ein psychoakustisches Modell (PM) berechnet eine Schwelle, die angibt, wie viel Quantisierungsrauschen durch das Eingangssignal maskiert werden kann. Das schließlich ermöglicht die gehörangepasste Quantisierung für die Zeit-Frequenz-Abschnitte. Die Stärke der Maskierung hängt davon ab, ob das Signal tonal oder rauschartig ist. Diese Eigenschaft wird oft als ''Tonalität'' bezeichnet. Im Allgemeinen, sind tonale Klänge ohne Hüllkurvenfluktuationen oder mit schwachen, und/oder sehr regelmäßigen Hüllkurvenfluktuationen weniger effektive Maskierer als rauschartige Signale mit starken, unregelmäßigen und schnelleren Hüllkurvenfluktuationen. Psychoakustische Modelle berücksichtigen diese ''Maskierungsasymmetrie'' mit Hilfe von Tonalitätsschätzverfahren. Des Weiteren weisen die Ergebnisse früherer Studien darauf hin, dass die Effektivität des Eingangsignals bei der Maskierung des Quantisierungsrauschens von der Bandbreite und der Mittenfrequenz des Audiosignals abhängt, wobei die exakte Abhängigkeit der Maskierungsschwelle von der Bandbreite und der Mittenfrequenz noch nicht vollständig erforscht wurde. Die Rolle der Bandbreite wurde bisher nur für mittlere Mittenfrequenzen untersucht. Im Rahmen der vorliegenden Arbeit wurde ein psychoakustisches Experiment durchgeführt, bei dem das maskierende Rauschen eine schmalere Bandbreite hatte als das Testrauschen. Das ist der relevanteste Fall in der Audiocodierung. Die statistische Analyse der Daten zeigte, dass die Maskierungsschwelle mit steigender Bandbreite der Maskierer stieg, und dass sie für die mittleren Frequenzen am niedrigsten war. Ferner zeigten psychoakustische Studien mit Stimuli verschiedener Dauer, dass die Wahrnehmung der Tonalität stark von der Stimulusdauer abhängt. Daher muss die Analysedauer in den psychoakustischen Modellen lang genug sein, um die Tatsache ausnutzen zu können, dass das Quantisierungsrauschen stärker von einem rauschartigen Signal maskiert wird, als von einem tonalen Signal. Allerdings könnte die notwendige Dauer abhängig von der Mittenfrequenz und der Breite der Teilbänder variieren. Eine Reihe psychoakustischer Studien wurde mit dem Ziel durchgeführt, die ''Signaldauer-Schwelle'' zu untersuchen, die für die Diskriminierung von schmalbandigem Rauschen und Ton notwendig ist. Die Schwelle nahm mit steigender Bandbreite und steigender Mittenfrequenz - nur bis zu mittleren Frequenzen - ab. Zusätzlich zu den erwähnten psychoakustischen Studien beschäftigt sich die vorliegende Arbeit mit der Entwicklung von Methoden zur Schätzung der Tonalität in psychoakustischen Modellen. Bereits in der Vergangenheit gab es einige PM, die die Maskierungsasymmetrie berücksichtigten. In Fällen der hohen Tonalität bzw. starken Rauschartigkeit erwiesen sich diese Ansätze als relativ präzise. Dennoch boten eine vertiefte Analyse der bestehenden Literatur über die Maskierungsasymmetrien und die Ergebnisse neuerer Studien - unter anderem der Studien dieser Doktorarbeit-- Möglichkeiten der Weiterentwicklung der psychoakustischen Modelle. Daher wurden im Rahmen dieser Forschung mehrere Berechnungsmethoden entwickelt und in einem PM implementiert, die den Grad der Tonalität bzw. Rauschartigkeit eines Audiosignals schätzen. Die Tonalitätsschätzverfahren wurden in einem Filterbank-basierten PM implementiert, das in zwei Versionen entwickelt wurde. Der ursprüngliche Entwurf des PM basierte auf der Bark-Skala. Die Betragsfrequenzgänge der Filter berücksichtigen die Ausbreitung der simultanen Maskierung, d.h. die Mithörschwelle. Eine weitere Version des Modells wurde auf Basis der ERBN-Skala entworfen. Die beiden Modelle unterscheiden sich hinsichtlich der Anzahl, der Form, der Mittenfrequenzen und der Bandbreiten der Bandpassfilter. Das PM in beiden Varianten ist so konstruiert, dass eine grobe Schätzung der Maskierungsschwelle bereits auf der Basis der Filterausgänge gewonnen werden kann. Ein Tonalitätsschätzverfahren skaliert dann diese Maskierungsschwelle mit dem Tonalitätsgrad der Teilbandsignale. Es wurden fünf verschiedene Tonalitätsschätzverfahren entwickelt. In einem Ansatz, der auf linearer Prädiktion basiert, deutet ein hoher Prädiktionsgewinn auf eine hohe Tonalität hin. In einem anderen Ansatz wird ein diskretes, partielles, spektrales Flachheitsmaß (PSFM) errechnet; dieses Maß nimmt mit steigendem Tonalitätsgrad ab. Ein Amplitudenmodulation-basiertes Maß (AM-R) bestimmt den Grad der Amplitudenmodulation in der Hüllkurve des Filterausgangssignals; ein niedriger Modulationsgrad signalisiert hohe Tonalität. Eine weitere Methode wurde auf Grundlage des ''Auditory Image Models'' entwickelt, wobei hohe Tonalität sich in einer hohen In-Teilband-Korrelation und einer hohen Korrelation zwischen benachbarten Teilbändern zeigt. Bei der letzten Methode werden die Fluktuationen in der Hüllkurve des Filterausgangssignals analysiert, wobei langsame Fluktuationen als hohe Tonalität interpretiert werden. Die Ergebnisse etlicher Hörversuche, die in dieser Dissertation dokumentiert sind, zeigten eine Präferenz für PSFM und AM-R. Die beiden im Rahmen dieser Arbeit entworfenen PM - inkl. PSFM - wurden in ein Standard-Audiocodierverfahren eingesetzt und in Hörversuchen mit einem Standard-PM verglichen. Die Analyse der Daten zeigte signifikant höhere Qualitätsratings für die beiden neuen Modelle im Vergleich zum Standard-Modell, wenn das gleiche {Codierungsschema} für alle Modelle verwendet wurde. Nur wenn beim Standard-Modell zusätzliche Codierungstechniken eingesetzt wurden (z.B., ''temporal noise shaping'' und ''spectral band replication''), wurden keine statistisch signifikanten Unterschiede zwischen dem Standard-Modell und den beiden hier präsentierten Modellen entdeckt. Außerdem zeigte sich kein signifikanter Unterschied zwischen den beiden im Rahmen dieser Arbeit entwickelten Modellen. Die Ergebnisse der Hörversuche zeigen, dass die im Rahmen dieser Arbeit entwickelten Filterbank-basierten psychoakustischen Modelle, sowie die hier präsentierten Tonalitätsschätzverfahren, ein vielversprechender Ansatz für die Weiterentwicklung der wahrnehmungsbasierten Audiocodierverfahren darstellen.

DOI
Faculties & Collections
Zugehörige ORCIDs