Компьютерные технологии обработки речевых сообщений. Женило В.Р.

Начало - Фонограмма - След - Спектр - Речь - Фоноскопия - Вопросы

  Спектральный анализ следов звука

“Спектр – совокупность всех значений какой-либо величины, характеризующей систему или процесс” (Словарь иностранных слов. – М.: Русский язык, 1988). В этом смысле данное слово применяется довольно-таки часто не только в науке и технике, но, например, и в политической жизни.

Применительно к нашей теме понятие спектра определяется следующим образом: “Спектр колебаний – это совокупность гармонических колебаний, на которые может быть разложено данное сложное колебательное движение” (Физический энциклопедический словарь).

Каким же образом любое произвольное колебательное движение, изображенное на рис. 12, можно разложить на элементарные составные части – микрогармоники? Для этого существуют специальные приборы – спектроанализаторы. Но поскольку мы рассматриваем сигналы, представленные в цифровой форме в памяти компьютера, то для получения их спектров никакие дополнительные приборы не нужны. Спектры любых сигналов, хранящихся в памяти компьютера, рассчитываются математически с помощью так называемого преобразования Фурье.

Делается это, примерно, следующим образом. Из всего сигнала, хранящегося в памяти компьютера, вырезается участок небольшой длительности, который затем обрабатывается с помощью специальной математической программы (называемой Фурье-преобразованием), которая показывает, из скольких гармоник состоит анализируемых фрагмент сигнала, какова их частота, амплитуда и фаза.

Поскольку на выходе Фурье преобразования имеется очень много данных (частоты, амплитуды и фазы всех гармоник в сигнале), то графически визуализируют только самые важные (наиболее информативные). По этой причине фазовые характеристики обычно не показывают. А показывают в основном только амплитудные спектры.

На рис. 15 показан спектр сигнала, который состоит лишь из одной гармоники, изображенной на рис. 14. Этот спектр указывает, что в исследуемом сигнале имеется одна гармоника с частотой F и амплитудой A. То, что спектр выглядит не в виде тонкой вертикальной линии на частоте F и высоте A, а имеет, как говорят, вид лепестка довольно-таки большой ширины, объясняется природой спектрального анализа. В принципе шириной этого лепестка можно управлять, сужая или расширяя его. В этом случае говорят об изменении разрешающей способности спектра по частоте.


Рис. 15. Спектр сигнала, состоящего только из одной гармоники.

Понятие выбора разрешающей способности спектра очень важно и немного похоже на понятие наведения на резкость, с которым мы сталкиваемся всегда, когда имеем дело с получением фотографического отображения с помощью фотоаппарата, кинокамеры или видеокамеры. Можно утверждать, что только правильно выбрав разрешающую способность амплитудного спектра, можно рассчитывать на успешное обнаружение и различение следов звука разных объектов. Чтобы ближе познакомиться с этим понятием рассмотрим следующий пример.

Предположим, что нам необходимо различить в сигнале, показанном на рис. 16, все его составные гармонические компоненты, объективно в нем присутствующие. Для этого мы используется амплитудный спектр. Попробуем изменять разрешающую способность амплитудного спектра и следить за тем, как будут проявляться следы гармонических компонент нашего исследуемого сигнала на рис. 16.


Рис. 16. Сложный сигнал, содержащий следы трех гармоник.

Поскольку заранее мы не знаем, какие частоты гармоник имеют составляющие исследуемого сигнала, то начнем с низкой разрешающей способности амплитудного спектра – 400 Гц. Спектр с таким разрешением по частоте показан на рис. 17. Сколько в нем имеется максимумов, с уверенностью утверждать очень сложно.


Рис. 17. Спектр с разрешением по частоте – 400 Гц.

Повысим разрешающую способность спектра по частоте до величины – 300 Гц. Спектр с таким разрешением по частоте показан на рис. 18. На нем видны только два близко расположенных максимума. Если на этом остановить исследования, то можно получить неправильный вывод о том, что сигнал состоит только из двух гармоник.


Рис. 18. Спектр с разрешением по частоте – 300 Гц.

Но продолжим исследование. Повысим разрешающую способность спектрального анализа до 200 Гц. В результате (см. рис. 19) в спектре один из максимумов (левый), который мы ранее приняли за след одной гармоники, начинает раздваиваться.


Рис. 19. Спектр с разрешением по частоте – 200 Гц.

Повысим разрешающую способность спектрального анализа до 100 Гц (см. рис. 20). В этом случае в спектре появляются хорошо различимые следы уже трех гармоник. Таким образом, оказывается, что исследуемый сигнал содержит следы не двух, а трех гармоник.


Рис. 20. Спектр с разрешением по частоте – 100 Гц.

Чтобы быть уверенными в правильном выводе, повысим разрешающую способность спектра еще в два раза и доведем ее до 50 Гц (см. рис. 21). На нем уже отчетливо различимы следы всех трех гармоник, из которых состоит исследуемый нами сигнал (на рис. 16). Произведя измерения их частот на спектре, получаем их значения: 2300, 2500 и 3000 Гц.

 
Рис. 21. Спектр с разрешением по частоте – 50 Гц.

На рис. 22 показан сонофильм со следами этих гармоник, настроенный на разрешающую способность по частоте ѕ 100 Гц.


Рис. 22. Сонофильм сигнала с рис. 16 с разрешением по частоте – 100 Гц.

Обычно, чтобы правильно прочитать (понять) амплитудный спектр, следует в первую очередь обнаружить в нем все локальные максимумы. Каждый локальный максимум несет информацию о наличии в исследуемом сигнале элементарной гармонической компоненты с частотой, на которой расположен локальный максимум, и амплитудой, равной высоте этого локального максимума.

Спектр более сложного сигнала показан на рис. 23. Это спектр фрагмента реального речевого сигнала, показанного на рис. 12 (причем не важно какого – верхнего или нижнего, поскольку их спектры полностью совпадает по расположению локальных максимумов на оси частот).


Рис. 23. Спектр звука “о” с рисунка
12.

Таким образом, амплитудные спектры позволяют нам выделить в речевом сигнале главные информационные составляющие – элементарные гармонические компоненты, из которых состоит сам сигнал. Поэтому в дальнейшем изложении амплитудные спектры будут играть первоочередную роль в информационной технологии анализа и обработки речевых сигналов.

Начало - Фонограмма - След - Спектр - Речь - Фоноскопия - Вопросы

Hosted by uCoz