Digital Signal Processing Reference
In-Depth Information
Sollen nichtstationäre Signale, wie die Sprachsignale, analysiert werden, kommt der Kurzzeit-
Spektralanalyse eine besondere Bedeutung zu. Sie ist deshalb ein wichtiger Baustein moderner
Sprach- und Audiocodierverfahren sowie Verfahren zur Sprach- und Sprechererkennung.
Anmerkungen: (i) Typische Analyseintervalle für die Codierung von Telefonsprache sind 5 bis 20 ms,
vgl. Bild 6-2. (ii) Die Kurzzeit-Spektralanalyse liefert mit dem Spektrogramm eine verbreitete Form der
Zeit-Frequenz-Darstellung.
Die Technik der Kurzeit-Spektralanalyse wird
in Bild 6-3 vorgestellt. Aus dem zu unter-
suchenden Signal x [ n ] werden mit einer
Fensterfolge w [ n ] Blöcke der Länge N heraus-
geschnitten. Für jeden Block wird die DFT be-
rechnet und in der Regel der Betrag der DFT-
Koeffizienten grafisch dargestellt. Die Signal-
blöcke können sich dabei überlappen, um bei
der Darstellung zwischen den zeitlich aufein-
ander folgenden Spektren weiche Übergänge
zu haben. Für eine effiziente Berechnung wird
Fenster für den i-ten
Signalblock
n
n i
n i + N
1
Bild 6-3 Zerlegung des Signals in Blöcke zur
Kurzzeit-Spektralanalyse
unter Berücksichtigung der Randbedingun-
gen der Anwendung
meist eine Blocklänge verwendet, die eine Radix-2-FFT zulässt.
Ergebnisse für das Sprachsignal „telecommunications laboratory“ für die Blocklänge 512 und
Verwendung eines Hamming-Fensters sind in Bild 6-4 und Bild 6-5 zu sehen.
Bild 6-4 zeigt ein sogenanntes Wasserfalldiagramm mit den Beträgen der DFT-Koeffizienten
über der Zeit und der Frequenz aufgetragen. Zeit und Frequenz berechnen sich dabei aus der
Blocknummer, der Abtastfrequenz und der DFT-Länge.
Eine oft gewählte alternative Darstellungsform ist das Spektrogramm in Bild 6-5. Darin werden
die Beträge der DFT-Koeffizienten als Graustufen bzw. farbig dargestellt.
Zur Interpretation ist Anwendungswissen erforderlich. Beispielhaft wird auf das Kurzzeit-
spektrum zwischen etwa 0.8 und 0.9 s hingewiesen. In beiden Bildern zeigen sich dort relativ
energiereiche Anteile zwischen 3000 und 3500 Hz. Aus der Sprachverarbeitung ist bekannt,
dass derartige Frequenzverteilungen bei Zischlauten resultieren. Tatsächlich wird in der
Sprachprobe zwischen circa 0.8 und 0.9 s das „s“ am Ende des Wortes „telecommunications“
stimmlos gesprochen. Eine Vergrößerung des Signals in Bild 6-2 mit der MATLAB-Zoom-
Funktion (Lupe) zeigt einen für Zischlaute typischen rauschartigen Verlauf
ganz im
Gegensatz zu den eher kurzzeitig periodischen, energiereichen Abschnitten bei den Vokalen.
Anmerkungen: ( i ) Auch bei der Entwicklung moderner Hörgeräte und Hörhilfen (Innenohrprothesen)
spielt die Kurzzeit-Spektralanalyse eine wichtige Rolle. (ii) Soll die Echtzeitfähigkeit einer Kurzzeit-
Spektralanalyse abgeschätzt werden, so ist zur Komplexität des verwendeten DFT-Algorithmus auch der
Aufwand für die Fensterung und gegebenenfalls der zusätzliche Aufwand durch eine Überlappung zu
berücksichtigen.
6.2.2
Vorbereitende Aufgaben
A6.5
Machen Sie sich mit dem Programmbeispiel 6-1 soweit vertraut, dass Sie es in der
Versuchsdurchführung anwenden können.
Das Programmbeispiel dsplab6_1 öffnet zunächst die Audio-Datei im WAVE-
Format und gibt das Signal über die PC Sound Card aus. Das Audiosignal wird am
Bildschirm angezeigt, siehe Bild 6-2.
Search WWH ::




Custom Search