Компьютерные технологии обработки речевых сообщений. Женило В.Р.

Начало - Фонограмма - След - Спектр - Речь - Фоноскопия - Вопросы

  Фонограмма как носитель информации и документ

  История и становление фоноскопии

Слово “фоноскопия” достаточно молодо. Буквально оно обозначает рассматривание голоса, звука, речи, шума и т.п. Еще в середине прошлого века такое было практически невозможно. Никто и не думал, что наступит время, когда так же как и письменная речь, устная может быть зафиксирована и отражена в материальной форме, что зафиксированную устную речь можно будет исследовать во всех деталях, находить в ней индивидуальные признаки говорящего, определять, в каких условиях проходила беседа, что устную речь, как и всякий иной звук, можно будет раскладывать на элементарные составные части, которые можно копировать, перемещать, удалять, изменять или добавлять примерно так же, как в современной компьютерной технологии мы работаем с письменной речью.

Но это произошло. Постепенно фонограммы стали приобретать статус документа. И как у всякого документа, у нее появились проблемы сохранности, аутентичности (подлинности), защиты от подделки и многие другие.

В истории фоноскопии можно выделить три важных этапа:

Отдельным, если можно так сказать, этапом в истории фоноскопии, у которого нет начала и нет конца, является процесс научного исследования природы речеобразования. Речевой сигнал настолько же сложен, насколько сложен сам человек. В нем отражается не только физическая или физиологическая сторона человека, но и его психика, интеллект, настроение, образование, привычки, социальный статус и многое другое.

Установить “дату рождения” фоноскопии невозможно. Разные авторы по-своему видят корни ее развития. Почему-то чаще всего их связывают с некоторыми значимыми политическими событиями, а не с научными или техническими разработками. Показательным в этом плане является взгляд Г. Холлиена на историю фоноскопии, который он изложил в своей монографии “Акустика преступления” (Hollien H. The acoustics of crime: the new science of forensic phonetics. – NewYork and London: University of Florida, Plenum Press, 1990). В ней, пытаясь определить лидерство в новой отрасли - криминалистической фоноскопии, автор сначала упоминает историю фоноскопической лаборатории, описанную в романе А.И. Солженицына “В круге первом”. При этом затрагиваются лишь больные политические проблемы и совершенно не рассматриваются вопросы криминалистической фоноскопии. Затем, демонстрируя большой временной разрыв, автор указывает на то, что следы первого обсуждения допустимости применения “аурально-перцептивного” (т.е. на слух) свидетельского показания уходят на несколько столетий назад в Англию, где еще в 1660 г. рассматривалось дело некоего Вильяма Хьюлета. Реально же свидетельские показания об идентичности речи и голоса стали приниматься судами США и Великобритании наравне с другими уликами начиная с 1907 г. Но и тогда устная речь или ее фонограмма не играли роль вещественного (материального) доказательства. Это стало возможным лишь совсем недавно. Да и то следует признать, что и в настоящее время в проблеме идентификации личности по речи больше вопросов, чем достоверных ответов. Интуитивно большинство специалистов и обывателей чувствуют, что проблема идентификации личности по устной речи имеет положительное решение, но привести бесспорное доказательство в полном объеме и тем более предложить надежную процедуру (методику) идентификации личности по речи еще никому не удалось.

Основная задача криминалистической фоноскопии традиционно рассматривалась как идентификация личности по устной речи. Речь и голос человека так же, как и почерк, настолько индивидуальны, что даже у неспециалистов возможность такой идентификации обычно не вызывает сомнения. Объясняется это тем, что идентификация личности по голосу и речи повседневно осуществляется каждым. Однако если почерковедение заняло в криминалистике твердое положение, то фоноскопические исследования все еще никак не могут окончательно определиться.

Если сравнить уровень современного развития почерковедческих криминалистических исследований и фоноскопических, то явное превосходство оказывается у первых. Произошло это потому, что рукописные тексты и подписи издревле применялись как вещественные доказательства того или иного факта, и общество уже давно приняло эту бумажную форму информационной технологии. А новая безбумажная технология, к каковой относится и магнитная запись, хотя и пробила себе дорогу, но еще находится в стадии закрепления.

Об идентификации личности по речевому сигналу всерьез начали говорить лишь в середине двадцатого столетия, когда магнитофон стал применяться сначала в военных целях, а затем и во всех сферах информационной деятельности человека.

С появлением сначала механических средств звукозаписи - фонографов, а затем и электромагнитных – магнитофонов, исследователи получили возможность многократно и разносторонне исследовать одни и те же речевые сигналы, зафиксированные на фонограмме. Это событие родило волну новых исследований речи, но они, как правило, базировались на аудитивном анализе (на слух), что несет большой отпечаток субъективности.

Ключевым этапом развития фоноскопии вообще стало изобретение прибора, позволившего увидеть речевой сигнал в форме, ярко отражающей артикуляцию и голос говорящего. Именно с изобретением этого прибора вторая половина слова “фоноскопия” стала реальностью. Зарождался этот прибор долго. В течение 20-30-х годов нашего столетия во время известного оживления в научном мире ученые разных стран предлагали массу вариантов визуализации речевых сигналов. После долгих испытаний и естественного отбора лучшего способа к концу второй мировой войны был разработан прибор, факт существования которого долго хранился в тайне в силу его большого военного значения. Лишь 9 ноября 1945 г. в еженедельном журнале “Science” в статье “Видимые образы звука” Ральф Поттер впервые приоткрыл завесу секретности над новым инструментом, разработанным сотрудниками фирмы “Bell Telephone Laboratories”. Сначала его назвали звуковым спектрографом, но позже за ним закрепилось другое название – “сонограф”.

Появление сонографа, позволившего увидеть одновременно и артикуляционные, и голосовые особенности говорящего, уже к 1944 г. породило скороспелые прожекты полного решения проблемы идентификации личности по речевому сигналу. Позже даже появился долго остававшийся модным термин “voiceprint” - “отпечаток голоса” (по аналогии с термином “fingerprint” - “отпечаток пальца”), который обозначал всего лишь один из видов узкополосных сонограмм речевых сигналов, внешне очень напоминающих отпечатки пальцев (пример см. на рис. 29, 37, 44, 46).

Такое “удачное” терминологическое определение нового понятия сыграло своеобразную роль в дальнейшем развитии криминалистической фоноскопии. Поскольку в то время дактилоскопия была вне критики, это послужило как бы подменой прямого доказательства возможности идентификации личности по речевому сигналу. Однако терминологическая неточность сыграла крайне негативную роль в научном решении проблемы, поскольку администраторы от науки считали, что фоноскопическая проблема исчерпана, и поэтому прилагать какие-то усилия в этом направлении нет необходимости. Это в конечном итоге привело к тому, что научная обоснованность и убедительность выводов экспертов-фоноскопистов зачастую были, мягко говоря, не на должном уровне, и, как следствие, со временем развился обратный процесс недоверия фоноскопической экспертизе, который и сейчас дает о себе знать.

После первых попыток, предпринятых во время войны, и провала надежд на простое решение проблемы идентификации личности по речи внимание ведущих ученых было уделено объяснению природы речеобразования. В этой сфере были развернуты фундаментальные исследования, которые к концу 50-х годов позволили Г. Фанту в тесном сотрудничестве с Акустической лабораторией Массачусетского технологического института создать акустическую теорию речеобразования (Фант Г. Акустическая теория речеобразования / Пер. с англ. Л.А.Варшавского, В.И.Медведева / Под ред. В.С.Григорьева. – М.: Наука, 1964). Переход от артикуляционного описания речи, принятого в лингвистике, к акустическим методам и создание прочной теоретической базы возродили исследования индивидуальных признаков речи.

В начале 60-х годов советский ученый Г.С. Рамишвили начал системные исследования индивидуальных признаков речи и голоса, привлекая для этих целей аудиторные, экспертные и все доступные инструментальные методы анализа речевых сигналов. Были установлены акустические параметры речевых сигналов, отражающие те или иные индивидуальные особенности речеобразования, оценены их информативность и надежность определения.

В это же время за рубежом Керст предпринял новую попытку разработать методику идентификации личности по сонограммам речевого сигнала. Было заявлено, что его методика позволяет считать проблему идентификации личности по речи полностью решенной. Несмотря на то что идентификационные исследования по сонограммам носили все же более качественный и субъективный характер, за что не раз и обоснованно подвергались критике, эта методика все же нашла свое применение в криминалистической практике некоторых стран. Основная причина тому - легкость получения сонограмм при отсутствии иных технологически простых способов исследования речевых сигналов. Однако простота получения сонограмм с “отпечатками голоса” далеко не решила всех проблем идентификации в криминалистике. Поэтому, относясь критично к новому и еще далеко не совершенному виду криминалистических исследований, Международная ассоциация по идентификации (IAI - International Association of Identification) потребовала специальной подготовки экспертов-криминалистов по теоретической и практической части идентификации с обязательной сдачей экзамена для получения удостоверения на право производства фоноскопических экспертиз. В 1975-1977 гг. эта методика подверглась жесткой критике со стороны ведущих ученых и специалистов в области речевой технологии.

В эти же годы появляется ряд работ, посвященных поиску индивидуальных признаков речевых сигналов. В работах ведущих ученых (Б.Атал, Г.С.Рамишвили, Е.Бунге, А.Розенберг, Дж.Доддингтон и другие) приводились новые данные об отражении индивидуальных особенностей говорящего в его речевом сигнале.

После небольшого затишья в рекламной шумихе о всемогуществе ФБР в сфере речевой технологии в середине 80-х годов снова стали появляться сообщения об их “превосходных” достижениях в области идентификации личности по речи. Так, в авторитетнейшем акустическом научном журнале “The Journale of the Acoustic Society of America” появилась статья, в которой сообщалось о блестящих показателях работы ФБР по идентификации личности по речи. В ней указывалось, что ошибки идентификации первого рода (исключение тождества голосов одного и того же лица) составляют 0,53%, а ошибки второго рода (отождествление голосов разных лиц) - 0,31%.

С научной точки зрения, это были бы действительно очень высокие показатели надежности идентификации. Однако ведущим специалистам по речи они показались слишком уж хорошими, после чего в том же журнале ими была опубликована статья о нереальности таких показателей. Критика была настолько убедительна, что авторам из ФБР пришлось поместить в журнале ответную статью с пояснением того, что они в действительности имели в виду. Оказалось, что это не реальные показатели надежности системы идентификации, а показатели применительно к “очевидным случаям”. В остальных же случаях (которых оказалось большинство) эксперты обычно давали ответы типа: “материал не пригоден для исследования” или “ответить на вопрос не представляется возможным”.

Криминалистическая идентификация личности по речи включает в себя несколько задач разного типа. Одной из главных является задача идентификации личности по речи, зафиксированной на спорной фонограмме. Близка к ней задача дифференциации реплик одной фонограммы по лицам без решения вопроса идентификации. Самая трудноразрешимая задача - это диагностика личности по речи.

При первом знакомстве с этими задачами может показаться, что они однотипны, т.е. если найти средство или способ решения одной из этих задач, то автоматически можно будет решать и любую другую. Однако при близком знакомстве и тем более при попытке создать обозначенные системы опознавания личности становится ясно, насколько сложен речевой механизм.

Криминалистическая фоноскопия не ограничивается только вопросами идентификации личности по речи. Это основной, решающий вопрос, но он практически всегда влечет за собой ряд других вопросов, среди которых чаще всего встречаются следующие:

Задача диагностики личности по речи в настоящее время корректно существует только в постановочной части. В своей же повседневной работе эксперты-фоноскописты, решая вопросы идентификации личности по речевым сигналам, постоянно вынуждены делать поправки на влияние “мешающих” факторов: алкогольное или наркотическое опьянение, функциональные расстройства речевого или голосового аппарата, изменчивость эмоционального состояния говорящего, различие речевых ситуаций и психологического настроя участников беседы, сознательное искажение речи или голоса говорящего с целью не быть правильно распознанным и др. Поэтому вольно или невольно, но любой эксперт так или иначе все же решает (хотя бы для себя, не отражая этого в заключении экспертизы) часть вопросов диагностики состояния говорящего. Это необходимо для того, чтобы в идентификационном исследовании правильно оценить степень значимости и достоверности индивидуальных признаков речевого сигнала. Накопление всего этого опыта дает надежду на возможное решение соответствующих диагностических задач. Однако если сравнивать возможности их решения с основной задачей идентификации личности по речи, то следует признать, что на настоящем этапе развития криминалистической фоноскопии надежды на эффективное решение диагностических задач почти призрачны.

Обычно, говоря о задаче криминалистической идентификации личности по речи, не заостряют внимание на содержательных или технологических нюансах ее постановки и решения. А в действительности они существуют и их так много, что можно говорить о разных технологиях идентификационных исследований. Выбор конкретной технологии диктуется следующими условиями:

Современные возможности цифрового анализа сигналов в сочетании с достижениями в области фониатрии (Фониатрия – раздел отоларингологии, изучающий причины нарушений голоса и разрабатывающий методы их лечения (Советский энциклопедический словарь. - М.: Советская энциклопедия, 1989)), речевой акустики и смежных отраслей знаний делают проблему опознавания говорящего принципиально разрешимой. Но несмотря на это, следует признать, что единой универсальной методики опознавания по речи пока еще нет. Скорее всего, такая универсальная методика и не будет разрабатываться, поскольку практических задач существует очень много и каждая из них выдвигает свои требования к характеристикам системы опознавания.

Касаясь проблемы автоматического решения криминалистических задач опознавания личности по речи, отметим следующее. Предусмотреть в алгоритмической схеме исследования речевого сигнала все нюансы, начиная от чисто технических особенностей качества фонограммы речи и кончая умышленным искажением голоса говорящим, в настоящее время практически невозможно. Поэтому основным действующим лицом в решении этого вопроса был, остается и, по всей видимости, будет оставаться всегда высокообразованный и хорошо подготовленный эксперт-фоноскопист. Рассматривая и тщательно исследуя речевой сигнал со всех сторон с помощью мощных современных компьютерных технологий, только он может правильно (без ошибок) решить все основные задачи фоноскопии. 

Начало - Фонограмма - След - Спектр - Речь - Фоноскопия - Вопросы

Hosted by uCoz