Хостинг от HOST PROM - это надежное место для Ваших проектов !

 


ГОВОРЯЩИЕ и понимающие речь машины строятся сей­час на основе ЭВМ, которые включают, как правило, микропроцес­соры и другие большие интегральные схемы. А ЭВМ работают с числами, перерабатывают цифровую информацию. Лучше сказать так: все, что перерабатывает вычислительная машина, должно быть представлено в виде чисел. В понятие «все» входят, в частности, сигналы, получаемые с датчиков. Сюда относят сигналы, получае­мые медиками (кардиограммы, энцефаллограммы), и различные тех­нические шумы, например шумы двигателя, по которым ЭВМ может определить причину его неисправности, геофизические (шумы под­земных недр и моря), биологические шумы (разговоры дельфинов, пение птиц, мяуканье кошек и лай собак, кваканье лягушек), раз­личные двумерные сигналы (изображения). Сюда же относят и че­ловеческую речь. В этом разделе рассмотрим, как речь (речевой сигнал) превращается в набор чисел и какие превращения с эти­ми числами происходят до того, как «умная» машина произнесет нужную фразу или поймет с'!ысл высказывания.

Но мы должны помнить, что основные приборы и способы об­работки сигналов, превращенных в набор чисел, можно использо­вать и для работы с любыми сигналами, поступающими с соответ­ствующих датчиков информации, сигналами не обязательно речевой природы. Цифровые методы анализа открывают поистине безгранич­ные возможности вычислительной техники. Ученые показали, что если у непрерывно изменяющегося во времени сигнала брать доста­точно близко расположенные друг к другу цифровые отсчеты, то последовательность этих отсчетов будет почти полностью отражать все свойства этих сигналов. При обратном преобразовании этих цифр в речь она будет слышна без искажений. Это значит, что достаточно представить речевой сигнал в цифровом виде, в виде,

64

удобном для машинной обработки, и можно применять всю мощь программных средств ЭВМ для расшифровки смысла речевого со­общения в системах, понимающих речь. В говорящих же машинах используют обратное преобразование: «цифры — речевой сигнал». Полученную программно в виде последовательности чисел речь пропускают через специальные преобразователи «цифровая после­довательность—электрическое напряжение»   («цифра—аналог»). Далее речевой сигнал можно подавать на наушники или динамиче­ский громкоговоритель,  преобразующие электрический сигнал в колебание мембраны, или рупоры (диффузора) динамика, которые колеблют воздух в соответствии с электрическим сигналом, по­ступающим на вход.

Напомним, что сам речевой сигнал изменяется во времени до­статочно быстро. Это объясняется особенностями его образова­ния — фильтрацией сигналов возбуждения импульсов воздушного давления, толчков воздуха, поступающих с голосовых связок при их колебании, т. е. через открытые голосовые связки из легких при выдохе через резонансную систему (артикуляторные органы — гор­тань. язык, полости рта и носа). Свойства же речеобразующего тракта из-за его инерционности меняются медленно. И в вычисли­тельной машине в цифровой форме крайне желательно получать и хранить медленно меняющиеся параметры голосового тракта и ис­точника — частоты основного тона, формантные частоты, определя­ющие характер самого речевого сигнала. Поэтому здесь рассмот­рим и способы получения параметров речеобразующего тракта — формант и различных связанных с ними характеристик, которые иногда будем называть информативными параметрами. Изменение главного параметра голосового источника — частоты основного то­на—относится к просодическим характеристикам речи, некоторые методы его получения уже были рассмотрены.

Если по информативным параметрам и их изменениям во вре­мени (используя модели речеобразования) можно восстановить ре­чевую волну или распознать ее смысл (на основе модели речевос-приятия), то, кроме как с параметрами, вроде бы ни с чем и ра­ботать не надо. Параметры эти очень удобны, слабо меняются во времени, поэтому их гораздо меньше, чем цифровых отсчетов са-'

5 Заказ № 901

65

 

мого сигнала. Значит, меньший объем памяти можно занять под высказывание, которое анализируется или генерируется. Значит, меньше времени потребует машинная обработка при распознава­нии. Значит, меньшими машинными ресурсами можно снабдить систему автоматического распознавания или синтеза речи и тем сильно снизить ее стоимость. Но как автоматически получить эти параметры (признаки, лежащие в основе машинных моделей рас­познавания и синтеза речи)? Ведь при построении понимающих речь машин, например, мы имеем на входе машины лишь речевой сигнал. Как от него перейти к параметрам? Только создав аппара­туру, которая их выделяет и позволяет вводить в ЭВМ в цифро­вой форме, или разработав алгоритмы и соответствующие програм­мы, которые по оцифрованному речевому сигналу или по спектру позволяют получать эти параметры программным способом. В свя­зи с этим вводить в ЭВМ информацию о речевом сигнале в циф­ровой форме можно тремя способами. Первый способ осуществля­ется с помощью универсального прибора-преобразователя «ана­лог—цифра», который дает возможность вводить в память ЭВМ отдельные отсчеты речевого сигнала в виде последовательности чисел.

Второй способ включает сложный преобразователь, позволяю­щий вводить в ЭВМ информацию о спектре сигнала за относитель­но короткие временные интервалы. Обычно такая информация вво­дится с гребенки аналоговых полосовых фильтров, каждый из ко­торых пропускает лишь ограниченный диапазон частот. Вместе же фильтры гребенки перекрывают весь частотный диапазон речевого сигнала, прошедшего через технические устройства (микрофон и микрофонный усилитель). Использование устройств речевого ввода этого типа позволяет получать в памяти ЭВМ в цифровом виде картинку так называемой «видимой речи», динамическую спектро­грамму, которая раньше создавалась с помощью спектроанали-заторов, сонографов-приборов, сыгравших большую роль в изу­чении речи и ее параметров лингвистами. В настоящее время ин­формация о кратковременном спектре может быть получена с по­мощью специализированных БИС и СБИС цифровой обработки

66

сигналов, которые реализуют гребенку фильтров цифровыми ме­тодами.

И, наконец, третий способ — это устройства ввода в ЭВМ вы­деляемых аналоговым способом непосредственно из речевой волны главных параметров речеобразующего тракта, а также просодиче­ских параметров — формантных частот, усредненной мгновенной частоты, усредненной интенсивности сигнала, частоты основного тона и некоторых других признаков. Все эти параметры или их эквиваленты, вообще говоря, можно получить программно по оциф­рованной речи аналого-цифровым преобразователем или по спектру сигнала. Устройства ввода третьего типа позволяют получать эти параметры аналоговым способом в процессе произнесения предло­жения.

В связи с широким распространением микропроцессоров и ми­кроЭВМ, которые становятся основным инструментом анализа речи, и появлением микропроцессорных систем, обеспечивающих обработ­ку оцифрованных речевых сигналов  (введенных с универсальных аналого-цифровых преобразователей) с огромной скоростью, дости­гающей сотен миллионов операций в секунду, далее будут рассмот­рены методы первичной цифровой обработки речи. Эти методы ле­жат в основе современных систем автоматического распознавания и синтеза речи и связаны с получением текущей автокорреляции сиг­нала, энергетического спектра, параметров линейного предсказания, гомоморфной обработки, а также клиппированной речи. Будет обра­щено внимание на использование специализированных устройств ввода в ЭВМ информации об информативных признаках речевого сигнала.

2.1. УСТРОЙСТВА ВВОДА РЕЧЕВОЙ ИНФОРМАЦИИ В ЭВМ

Аналого-цифровое преобразование. Преобразователь типа «аналог—цифра» — это устройство, дающее возможность вводить в ЭВМ дискретные отсчеты речевого Сигнала, представлять непрерыв­ную речевую волну последовательностью чисел, сохраняя все ос­новные свойства сигнала. Как правило, такой ввод применяется,


Быстрый хостинг
Быстрый хостинг - Скорость современного online бизнеса

 

Яндекс.Метрика

Load MainLink_Second mode.Simple v3.0:
Select now URL.REQUEST_URI: webknow.ru%2Fkibernetika_00026.html
Char set: data_second: Try get by Socet: webknow.ru%2Fkibernetika_00026.html&d=1
					  

Google

На главную Авиация и космонавтика Административное право
Арбитражный процесс Архитектура Астрология
Астрономия Банковское дело Безопасность жизнедеятельности
Биографии Биология Биология и химия
Ботаника и сельское хозяйство Бухгалтерский учет и аудит Валютные отношения
Ветеринария Военная кафедра География
Геодезия Геология Геополитика
Государство и право Гражданское право и процесс Делопроизводство
Деньги и кредит Естествознание Журналистика
Зоология Издательское дело и полиграфия Инвестиции
Иностранный язык Информатика, программирование Исторические личности
История История техники Кибернетика
Коммуникации и связь Косметология Краткое содержание произведений
Криминалистика Криптология Кулинария
Культура и искусство Культурология Литература и русский язык
Литература зарубежная Логика Логистика
Маркетинг Математика Медицина, здоровье
Международное публичное право Частное право Отношения
Менеджмент Металлургия Москвоведение
Музыка Муниципальное право Налоги
Наука и техника Новейшая история Разное
Педагогика Политология Право
Предпринимательство Промышленность Психология
Психология, педагогика Радиоэлектроника Реклама
Религия и мифология Риторика Сексология
Социология Статистика Страхование
Строительство Схемотехника Таможенная система
Теория государства и права Теория организации Теплотехника
Технология Транспорт Трудовое право
Туризм Уголовное право и процесс Управление
Физика Физкультура и спорт Философия
Финансы Химия Хозяйственное право
Цифровые устройства Экологическое право Экология
Экономика Экономико-математическое моделирование Экономическая география
Экономическая теория Этика Юриспруденция
Языковедение Языкознание, филология

design by BINAR Design