Компьютерные технологии обработки речевых сообщений. Женило В.Р.

Начало - Фонограмма - След - Спектр - Речь - Фоноскопия - Вопросы

  Отражение в речевом сигнале звуков речи и голоса

  Голосовой импульс, форманты, высота голоса, речевой сигнал

Основы акустической теории речеобразования начали закладываться Гельмгольцем Германом Людвигом Фердинандом (1821-1894 гг.) - немецким ученым, автором фундаментальных трудов по физике, биофизике, физиологии и психологии. Он впервые раскрыл природу формирования гласных звуков и вывел основные уравнения взаимосвязи геометрии объемных полых фигур и их резонансных частот. Этот первый теоретический шаг в освоении речевой технологии сразу же породил попытку создать механическую говорящую машину. Для этого предлагалась сложная система акустических резонаторов, которая управлялась специальным механизмом примерно так же, как это делает человек. Однако реализовать эту идею до конца не удалось.

Рассмотрим в упрощенном виде все этапы формирования речевого сигнала.

Если взять только лишь один отдельный голосовой импульс, то его форма может иметь вид, близкий к показанному на рис. 24 и 25. Причем если голос спокойный и тихий, то голосовой импульс имеет более гладкий вид. А если голос становится громким или переходит на крик, то форма голосового импульса становится более угловатой. На спектре это отражается в подъеме амплитуд высокочастотных компонент для громкого голоса, и, наоборот, у тихого голоса - амплитудный спектр быстрее убывает с ростом частоты (см. рис. 24). По этому признаку можно определять – в действительности ли человек говорил громко или тихо, независимо от того, усиливался ли тихий голос мощными электроакустическими приборами до оглушительного звука или слабые следы громкого голоса еле слышны на фонограмме.



Рис. 24. Характерные признаки громкого голоса: а) форма голосового импульса (вверху) и б) амплитудный спектр этого импульса (внизу).

Это свойство голоса не случайно. Оно, как и все остальные свойства речевого сигнала, естественно отбиралось самой природой в процессе эволюции живых существ на Земле. Чтобы громкий голос (тревоги или призыва) можно было лучше различать на больших расстояниях, слух человека настроен таким образом, что он более чувствителен к средним частотным компонентам звука (в окрестности частот 1-2 кГц). Это повышает надежность восприятия значительно удаленного громкого голоса.



Рис. 25. Характерные признаки тихого голоса: а) форма голосового импульса (вверху) и б) амплитудный спектр этого импульса (внизу).

Голосовой импульс сам по себе не несет никакой семантической (фонетической) нагрузки. Основная его роль, образно говоря, - это “просветить” весь речевой тракт и в зависимости от того, какую форму речевой тракт принимает в тот или иной момент, по-разному трансформироваться и принять оттенок того или иного гласного или звонкого согласного звука. Если голосовой импульс послушать изолированно от всего артикуляторного речевого аппарата, то он будет звучать как одиночный мертвый щелчок.

Проходя через речевой тракт, имеющий ту или иную форму, голосовой импульс приобретает некоторые частотные свойства речевого тракта. А именно, речевой тракт, так же как и любой другой полый (резонирующий) сосуд, откликается на внешние возбуждения на своих резонансных частотах. Меняя форму тракта, сужая его в одних местах и расширяя в других, мы перемещаем резонансные частоты речевого тракта. Поэтому можно утверждать, что информация о фонеме (звуке речи) передается именно динамикой резонансных частот речевого тракта. Лингвисты эти резонансные частоты обычно называют формантами.

Отклик речевого тракта на одиночный импульс имеет вид некоторого сложного затухающего колебания. Если речевой тракт настроен таким образом, что в нем преобладает одна резонансная частота, то отклик речевого тракта на одиночный голосовой импульс может иметь вид, близкий к тому, что показан на рис. 26. На том же рисунке показан спектр этого отклика. Приведенный на этих рисунках пример близок к реальному звуку “у”, у которого обнаруживается, как правило, только одна форманта на низких частотах.



Рис. 26. Модельный отклик речевого тракта на голос: а) сигнальная форма отклика (вверху) и б) амплитудный спектр отклика (внизу).

Обычно речевой тракт имеет несколько резонансных частот, из-за чего отклик тракта на одиночный голосовой импульс принимает очень сложную форму. На рис. 27 показан реальный отклик речевого тракта на голосовой импульс и, соответственно, его спектр. Локальные максимумы в этом спектре соответствуют резонансным частотам речевого тракта в момент произнесения звука “о” конкретным человеком в конкретном контексте. Спектры звука “о” этого же человека в других места речевого сигнала будут значительно отличаться друг от друга. И отличия эти определяются не только индивидуальными особенностями говорящего, но и его настроением, речевой ситуацией и многими другими факторами. Поэтому однозначно интерпретировать речевой сигнал всегда очень сложно из-за огромного числа определяющих его факторов.



Рис. 27. Реальный отклик речевого тракта на голос: а) сигнальная форма отклика (вверху) и б) амплитудный спектр отклика (внизу).

Если построить сонофильм по принципу и подобию кинофильма, то можно проследить динамику резонансных частот речевого тракта. В сонофильме отдельным кадром является спектр малой части речевого сигнала, которая вырезана из речевого сигнала и рассматривается в отдельности. На рис. 28 показаны два фрагмента разных сонофильмов. На сонофильмах вертикальная ось – это ось частот. Кадры на сонофильмах идут слева направо. Каждый спектр-кадр в этом сонофильме представляется в виде отдельной тончайшей вертикальной полоски. И если в спектре проявляются отдельные мощные гармонические составляющие сигнала в кадре, то эта полоска приобретает серый или черный цвет, а если нет, то - белый.



Рис. 28. След искусственного сигнала со свойствами близкими, к реальному речевому сигналу (вверху): а) осциллографическая форма; б) сонофильм. Сонофильм реального речевого сигнала (внизу).

Первый сонофильм (верхний) отражает след искусственного сигнала (исходный вид этого сигнала приведен на том же рисунке слева). Искусственный сигнал подобран таким образом, чтобы его свойства были близки к свойству фрагмента обычного речевого сигнала на участке отклика речевого тракта на очередной голосовой импульс. На искусственном сигнале можно различить сложное затухающее колебательное движение, но нельзя понять, из скольких отдельных простейших свободно затухающих колебаний оно состоит. На сонофильме, изображенном рядом, хорошо видно, что таких колебаний только два (на частотах w 1 и w 2). И на сонофильме хорошо видно, как каждое колебание на резонансной частоте (искусственного речевого тракта) постепенно затухает, становясь менее черным до тех пор, пока полностью не исчезнет, превратившись в белый цвет.

Второй широкополосный сонофильм на рис. 28 показывает реальный речевой сигнал (низкий мужской голос). На этом сонофильме виден ряд четко выраженных вертикальных полос. В данном случае каждая это полоса соответствует 2 - 3 кадрам сонофильма. В эти кадры попадает голосовой импульс, спектр которого (см. рис. 24 и 25) не имеет ярко выраженных локальных минимумов. Поэтому весь кадр оказывается черным почти везде. А вот сразу же за каждым голосовым импульсом (правее, когда черная вертикальная полоса заканчивается) хорошо видны следы формант – свободно затухающих резонансных колебаний речевого тракта. Или, как мы ранее говорили, следы отклика речевого тракта на каждый голосовой импульс в отдельности. Они очень похожи на искусственные следы, показанные на верхнем сонофильме. Прослеживая, как та или иная форманта перемещается от кадра к кадру вверх или вниз (исчезает или появляется), мы видим “след” динамики речевого тракта, в котором содержится вся информация о произносимом звуке речи или созвучии. Траекторию этих следов и можно считать аналогией траекторий линий в рукописном тексте.

Описанный сонофильм состоит из кадров, которые идут очень часто друг за другом (в десятки раз чаще, чем хлопают голосовые связки). Поэтому в отдельный кадр попадает очень маленький участок речевого сигнала. Если же этот участок значительно увеличить до таких размеров, чтобы в кадр попадали несколько импульсов голосовых связок, то внешний вид сонофильма существенно изменится.

Это происходит потому, что в спектре одного кадра речевого сигнала, в который одновременно попадает нескольких голосовых импульсов с соответствующими резонансными откликами речевого тракта, начинает проявляться и информация о частоте хлопков голосовых связок. Мы уже говорили, что если слушать одиночный хлопок голосовых связок, то он воспринимается как одиночный щелчок. Если эти щелчки начнут повторяться с частотой 5 Гц, то мы все равно услышим отдельные щелчки – по 5 щелчков в секунду. И почти как в кинофильме, пока частота щелчков не превысит, примерно, 20 Гц, мы их будем воспринимать как отдельные, но частые щелчки. А если они начнут следовать с частотой 50 и более герц, то мы их уже воспринимаем как низкий непрерывный звук. Когда они достигнут 100-150 Гц, звук может стать похожим на мужской голос. А на частоте 200-400 Гц – на женский или детский.

Поэтому спектр, который рассчитан или построен на базе большого отрезка речевого сигнала, в который вошло несколько голосовых импульсов, будет иметь вид строго чередующихся локальных максимумов (см. рис. 23). Расстояние между этими максимумами равно частоте работы голосовых связок. Такие спектры обычно называются узкополосными из-за того, что полоски их локальных максимумов получаются более зауженными. Эта череда локальных максимумов спектра обычно называется обертонами голоса. Они следуют друг за другом с шагом по частоте, равным высоте голоса. Поэтому узкополосный спектр имеет редкую череду обертонов для высокого (женского или детского) голоса, а для низкого (мужского) – частую.

Сонофильм, построенный на базе широкополосных спектров, называется широкополосным сонофильмом, а на основе узкополосных спектров – узкополосным. Для примера на рис. 29 показаны широкополосный и узкополосный сонофильмы одного и того же речевого сигнала. Узкополосный сонофильм оказался более коротким по количеству кадров (по горизонтали), поскольку один его кадр содержит в себе несколько кадров широкополосного сонофильма.




Рис. 29. Пример широкополосного (внизу) и узкополосного (вверху) сонофильмов одного и того же речевого сигнала.

В информационном плане оба указанных типа сонофильма равнозначны. Выбор одного из них зависит от того, следы чего требуется исследовать в первую очередь. Если требуется исследовать следы артикуляции, то обычно используют широкополосный сонофильм, а если следы динамики высоты голоса - то узкополосный сонофильм.

Начало - Фонограмма - След - Спектр - Речь - Фоноскопия - Вопросы

Hosted by uCoz