Компьютерные технологии обработки речевых сообщений. Женило В.Р.

Начало - Фонограмма - След - Спектр - Речь - Фоноскопия - Вопросы

  Фиксация и отображение следов звука

  Отражение в сигнале следов разных звуков (фонообъектов)

То, что мы каждый день слушаем по радио, телевидению, с грампластинок, магнитных звукозаписей и т.п., строго говоря, не тождественно тому, что было, так сказать, в оригинале в тот момент, когда произносилась та или иная речь. Природа восприятия звука человеком такова, что слух извлекает из звука в основном те его компоненты, которые важны для правильного его понимания, и старается не замечать несущественные искажения, которые реально всегда присутствуют. Если бы ухо воспринимало “всерьез” все искажения, которые реально присутствуют в любом слышимом нами звуке, то мы бы “утонули” во всяческих нюансах его звучания.

Например, находясь в помещении, мы слышим не только прямую звуковую волну, пришедшую непосредственно (по прямой линии) от уст собеседника, но и все аналогичные неоднократно отраженные от стен, пола и потолка копии этих волн. Но поскольку эти копии существенно слабее прямой волны, то ухо “старается их автоматически игнорировать”. Этот механизм слуха – глухота к отраженным волнам - оттачивался у большинства живых существ на протяжении всей эволюции их жизни на Земле (Для тех, кто интересуется этими вопросами, очень рекомендуем прочитать книгу Э. Цвикера и Р. Фелькеллера “Ухо как приемник информации” / Пер. с нем. под общ. ред. Б.Г. Белкина. – М.: Связь, 1971). Аналогичные процессы происходят не только в закрытых помещениях, но и на открытом воздухе. И особо они усиливаются при наличии быстро меняющихся потоков воздуха (ветре).

Но возможности слуха не безграничны (они рассчитаны природой на среднюю ситуацию). Поэтому если оказаться в помещении с очень мощной реверберацией, то резонанс становится явно заметным, а иногда и мешающим правильному восприятию сказанного (Реверберация – послезвучание, сохраняюшееся после выключения источника звука и обусловленное неодновременным приходом в данную точку отраженных или рассеянных звуковых волн. Реверберация оказывает значительное влияние на слышимость речи и музыки в помещении (Советский энциклопедический словарь)). И человек вообще может перестать нормально общаться с кем-либо, если искусственно его же собственный речевой сигнал возвращать ему слегка усиленным и задержанным примерно на секунду.

То, что мы можем в беседе многих гостей вечеринки поочередно слушать разных собеседников, переключая свое внимание с одного на другого, - это просто поразительное свойство нашего слуха.

Все эти свойства слуха всегда “нещадно эксплуатировалось”, да и сейчас продолжают эксплуатироваться всеми разработчиками разнообразных устройств передачи звука, его записи и воспроизведения. Так, например, чтобы по двум проводам можно было одновременно передавать несколько телефонных переговоров, речевые сигналы переносятся в разные непересекающиеся полосы частот, где они практически не мешают друг другу. Аналогичный механизм используется во всех хорошо известных трехпрограммных линиях радиопередачи, которые в действительности передаются по двум, а не более проводам. И вот эти переносы вносят весьма заметные изменения в форму речевого сигнала. Но сам способ переноса подобран таким образом, что слух хоть и замечает изменения качества (речь приобретает телефонное качество звучания), но в полной мере различает не только текст фразы, но и все иные нюансы – интонацию, индивидуальные особенности говорящего и т.п. В таких случаях связисты говорят – разборчивость речи и узнаваемости диктора сохранились.

На рис. 11 показаны основные этапы преобразования звука в электрические сигналы, которые затем передаются на большие расстояния, записываются на магнитную ленту, где-то хранятся, затем воспроизводятся, копируются и т.п. Каждый из этих этапов в отдельности по-своему искажает исходный речевой сигнал. Но пожалуй, наиболее сильные искажения происходят на этапах записи и чтения сигнала с магнитной ленты, когда сначала после трансформации электрического сигнала в магнитное поле последнее фиксируется на магнитной ленте в виде ее остаточной намагниченности, а затем, наоборот, при протаскивании магнитной ленты мимо воспроизводящей магнитной головки переменное магнитное поле индуцирует в последней определенное электрическое напряжение.


Рис. 11. Этапы аппаратурной трансформации речевого сигнала.

Чтобы воочию убедиться в реальности сказанного, приведем два примера (Графические образы речевых и иных сигналов, приведенные на рис. 12, 13, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 36, 38 и 39, получены с помощью компьютерной системы “Signal Viewer”, разработанной автором данной главы на кафедре информационных технологий Академии управления МВД России. Эта компьютерная система, в свою очередь, создавалась с помощью системы программирования “Visual-C” фирмы Microsoft). Для начала рассмотрим искажения, которые вызывает простейший дифференциальный усилитель, которые встречаются далеко не в одном месте на рис. 11.

На рис. 12 показан один и тот же сигнал до прохождения указанного усилителя и после него. Если эти сигналы послушать с интервалом примерно в полминуты, то мало кто заметит на слух их различия. А на глаз различия сигналов на рис. 12 просто очевидны.


Рис. 12. Один и тот же сигнал звука “о” до прохождения через дифференциальный усилитель (вверху) и после него (внизу).

Или другой пример. На рис. 13 показаны три сигнала. Один - оригинальный, а два других прошли следующие общие этапы: несколько усилителей, магнитофон на этапе записи и тот же магнитофон на этапе воспроизведения. Кроме того, третий сигнал еще прошел эквалайзер (Эквалайзер – радиоэлектронное устройство обычно в составе высококачественных стереофонических комплексов, позволяющее независимо регулировать в различных частотных диапазонах амплитуду звуковых колебаний с целью обеспечить желаемое качество звучания (Советский энциклопедический словарь)), у которого все рычажки были выставлены в режим не усиления и не ослабления сигнала в разных полосах частот (то есть эквалайзер в цепи был, но, с точки зрения пользователя, он не корректировал частотную характеристику передаваемого сигнала).


Рис. 13. Изменение формы сигнала при его прохождении через разные звенья звукозаписи: а) исходный сигнал; б) записанный и воспроизведенный с магнитной ленты; в) то же самое, что и (б), но пропущенный еще и через эквалайзер, все рычажки управления которого установлены в нейтральное положение – 0 дБ).

На слух все эти три сигнала неотличимы. Но различие их форм может поразить впервые видящего все это.

Этот пример очень наглядно иллюстрирует, насколько современная электроакустическая аппаратура (особенно низкого класса) “эксплуатирует” механизм слуха. На вид все три сигнала на рис. 13 совершенно различны, а воспринимаются идентично.

Этот недостаток магнитной звукозаписи особенно сильно проявляется в магнитофонах невысокого класса, к каковым относятся все многоканальные низкоскоростные магнитофоны, ранее широко применявшиеся в дежурных частях милиции, пожарной охраны и других диспетчерских службах, где очень важно оставить, зафиксировав в документальной форме на магнитной ленте, точные (оригинальные) сведения о поступившем телефонном сообщении.

Если сравнивать все этапы прохождения речевого сигнала через возможные узлы и линии его передачи, показанные на рис. 11, то самыми искажающими чаще всего оказываются два из них. Это этап преобразования сигнала из электрической формы в магнитную (в виде следа на магнитной ленте) во время записи фонограммы и, как ни покажется странным, этап обратной операции преобразования магнитного следа с ленты снова в электрический сигнал.

Если повторить описанную операцию магнитной звукозаписи, то есть сигнал с рис. 13 (б) или 13 (в) снова записать и воспроизвести, то в силу накопления искажений скопированный сигнал получится еще более искаженным. Этот эффект хорошо знаком каждому, кто делал несколько последовательных копий одной и той же фонограммы. Он особенно ощутим уже после первых нескольких операций копирования магнитных фонограмм при использовании магнитофонов невысшего класса.

Описанные недостатки аналоговой магнитной звукозаписи практически полностью исчезают при использовании не аналоговой магнитной, а цифровой компьютерной записи электроакустических сигналов. В компьютерной записи звука полностью исключаются описанные значительные искажения сигналов, свойственные магнитной записи. И, кроме того, любое число копирования цифровой фонограммы не приводит ни к малейшему изменению скопированного сигнала (следа) по сравнению с его оригиналом.

В этой связи становится ясно, почему очень важным является переход всех дежурных частей милиции, пожарной охраны и других диспетчерских служб с аналоговых многоканальных (многодорожечных) магнитофонов на цифровые (компьютерные) регистраторы речевых сообщений.

В настоящее время выпускается много моделей цифровых многоканальных регистраторов речевых сообщений. Лучшие из них получили широкое распространение. Перечислим некоторые из них (в алфавитном порядке):

Все эти системы разработаны и выпускаются отечественными фирмами. Цена этих систем ниже, а в некоторых случаях – существенно ниже аналоговых многоканальных магнитофонов или аналогичных цифровых регистраторов зарубежного производства. Однако по эффективности и качеству регистрации сигналов они существенно превосходят любой многоканальный аналоговый магнитофон. Кроме того, цифровые регистраторы отечественного производства проще в обслуживании и технической поддержке. Дешевле обходится их сервисное обслуживание. Имеется возможность введения дополнительных функциональных возможностей по заказу пользователя.

Чтобы больше не возвращаться к вопросам регистрации следов речи с помощью цифровой компьютерной звукозаписи, отметим еще несколько их важных преимуществ перед устаревающими аналоговыми магнитофонами.

Во-первых, в цифровых компьютерных регистраторах запись сообщений ведется непрерывно месяцами. Все переключения, смены носителей, поиск, прослушивание, передача на другой компьютер (по сети), удаление ненужных (устаревших востребованных) записей или архивирование важных, требующих длительного хранения осуществляется параллельно, без остановки процесса регистрации новых сообщение. В аналоговых же многоканальных магнитофонах для смены магнитной ленты (обычно через сутки) требуется приостанавливать процесс регистрации. Иначе приходится использовать пару таких регистраторов, чтобы процесс шел непрерывно. При этом снятие копии аналоговой записи сообщения для длительного хранения (например, для приобщения к уголовному делу) неизбежно приводит к значительным потерям ее качества.

Во-вторых, любой аналоговый магнитофон относится к устройству последовательного доступа к записям. В нем нельзя моментально перепрыгивать с одного конца ленты в другой для ускорения поиска нужного сообщения. В компьютерных же регистраторах осуществляется не последовательный, а произвольный доступ к любой записи, в результате чего каждая запись извлекается и начинает воспроизводиться мгновенно. В компьютерных регистраторах нет даже такого понятия, как “перемотка ленты”.

В-третьих, чтобы найти, например, среди восьми дорожек аналогового многоканального магнитофона нужное сообщение, приходится постоянно перематывать магнитную ленту назад и вперед. В цифровом же компьютерном регистраторе нет необходимости “методом тыка” перебирать разные дорожки и записи на них. Кроме того, если в аналоговом многоканальном магнитофоне по какому-то каналу долго не поступает сообщение, то на дорожке оказывается большая пустота, что тоже не способствует ускорению поиска нужной записи. В цифровом компьютерном регистраторе все поступившие сообщения представляются в виде базы данных, выводимой на экран монитора в той или иной табличной форме, которую намного быстрее можно обозревать, анализировать и прослушивать. При этом не теряется время на начало воспроизведения сообщения, выбранного из базы данных.

Вот, в частности, почему процесс перехода на цифровую звукозапись в деятельности правоохранительных органов просто неизбежен. Это происходит не потому, что это модно или удобнее, но потому, что это технологичнее, существенно более оперативно, надежнее (не пропускаются при поиске нужные записи) и полностью исключается этап перевода электрического сигнала в магнитный след на ленте и обратно.

Но даже полностью перейдя на цифровую звукозапись, речевой сигнал, проходя все остальные звенья, показанные на рис. 11, все равно хоть и в меньшей степени, но неизбежно меняет свою форму. И вот тут-то мы подошли к очень важному вопросу: а как же тогда эксперты могут проводить идентификацию объектов по издаваемым ими звукам, если после передачи, фиксации и воспроизведения его следа-сигнала он внешне совершенно не похож на свой первоначальный вид?

Ответ на этот вопрос и прост, и сложен. Простая часть ответа такова – эксперты практически никогда (В действительности здесь есть некоторые исключения, в которые не целесообразно углубляться) не сравнивают следы звуков, и особенно речи, по их сигнальной форме (такой, как на рис. 12). Второй, сложной части ответа посвящено все дальнейшее изложение.

Начало - Фонограмма - След - Спектр - Речь - Фоноскопия - Вопросы

Hosted by uCoz