Представление речевых сигналов в цифровой форме


Собственный материал Издания

Hits: 1366

Цифровое представление аналоговых сигналов, в частности – голоса, является фундаментальной основой современных телекоммуникационных систем.

В основе аналого-цифрового преобразования речи лежит получение мгновенных значений амплитуды речевого сигнала через определенные временные интервалы. Эта операция называется дискретизацией сигнала и показана на рисунке.

Известно, что любой сигнал можно охарактеризовать его спектром или занимаемой полосой частот. Согласно теореме В. Котельникова или критерию Г. Найквиста, частота дискретизации (взятия отсчетов) должна быть равна или превосходить удвоенное значение полосы, которую занимает сигнал. Человеческое ухо может улавливать сигналы с частотами до 20 кгц. Высокочастотные составляющие придают звуковому сигналу индивидуальность и выразительность и важны, например, при передаче музыкальных композиций. Так в цифровой записи на компакт-дисках используется частота дискретизации 44,1 кгц.
В аналоговой телефонии значимой для передачи речи является полоса 0,3 - 3,4 кгц., обеспечивающее так называемое телефонное качество. При этом достаточна частота дискретизации 8 кгц. Такая низкая частота дискретизации может служить причиной искажений при восстановлении оцифрованного естественного речевого сигнала, поэтому перед аналого-цифровым преобразованием он ограничивается по полосе с помощью фильтра низких частот (ФНЧ). Процесс получения дискрет называется амплитудно-импульсной модуляцией (АИМ).
Для передачи по цифровым каналам значений амплитуды каждой дискреты речевого сигнала производится их квантование по уровню. В зависимости от требований к качеству восстановленного аналогового сигнала, для представления его в цифровом виде могут использоваться кодовые последовательности с различной разрядностью. Для записи на компакт-дисках используется 16 разрядов, что соответствует 65536 шагам квантования. В телекоммуникациях используются только 8 разрядов, обеспечивающих 256 шагов квантования. Операция квантования изображена на рисунке.

Кодовая последовательность должна позволять описывать весь возможный диапазон амплитуды дискрет речевого сигнала, т.н. динамический диапазон. Линейное квантование, когда шаг квантования имеет линейную зависимость от входного сигнала, мало эффективно, так как вероятность появления дискрет с большой амплитудой достаточно мала и кодовое пространство “простаивает”. Вдобавок при линейной зависимости соотношение сигнал/шум для дискрет с большой амплитудой выше, чем для дискрет с малыми амплитудами. Для устранения этого явления и более точного кодирования малых значений применяется операция компадирования, когда шаг квантования имеет разное значение, увеличивающиеся с ростом амплитуды дискрет.
Используются две характеристики компадирования, одобренные ITU-T (рекомендация G.711). В США, Канаде, Японии и некоторых других странах нашло распространение компадирование по закону "мю", в Европе применяется компадирование по закону А.
Оба этих закона построены на одинаковых принципах. Весь динамический диапазон разделяется на 16 сегментов, 8 для положительной и 8 для отрицательной полярностей входного сигнала. Каждый сегмент в свою очередь разделен на 16 шагов квантования. Таким образом, кодовая последовательность состоит из одного разряда полярности, трех разрядов с номером сегмента и четырех разрядов с номером шага квантования. Характеристика компадирования по закону "мю" обеспечивает лучшую передачу слабых сигналов, но уступает закону А по динамическому диапазону. При использовании закона А реально получается 13 сегментов, четыре сегмента малых амплитуд аппроксимированы в один сегмент. На рисунке показана кривая компадирования по закону А.

На приемной стороне для восстановления исходного сигнала до цифро-аналогового преобразования применяется операция экспандирования. В настоящее время операции компадирования и экспандирования реализуются с помощью таблиц в ПЗУ.
Вместе операции дискретизации и квантования обеспечивают так называемое ИКМ (импульсно-кодовая модуляция, PCM - pulse code modulation) кодирование речевого сигнала в цифровой поток со скоростью 64 кбит/с, ставший стандартной для телефонии (G.711). Эта величина используется в цифровой коммутации и подразумевается под единицей емкости цифровой АТС - портом. Ранее также использовалась скорость 56 кбит/с с 7-ми разрядной последовательностью. Оставшийся разряд применялся для внутриканальной сигнализации. С введением сигнализации по общему каналу потребность в этой скорости отпала.
Разумеется, можно кодировать речевой сигнал с качеством записи на компакт-диски, но скорость цифрового потока 705,6 кбит/с экономически не эффективна для систем связи. Наиболее дефицитной частью телекоммуникационной системы являются соединительные линии между узлами связи, поэтому с целью обеспечения передачи большего числа речевых каналов стремятся снизить скорость цифрового потока в каждом канале.
Благодаря особенностям речевого сигнала, выражающимся в высокой степени корреляции между соседними дискретами вместо ИКМ-кодирования возможно использование адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ, ADPCM - adaptive differential pulse code modulation). Этот метод стандартизирован ITU-T (G.721) и обеспечивает скорость 32 кбит/с. Существуют другие способы, основанные на избыточности речи и обеспечиващие более низкую скорость. Это метод линейного предсказания с кодовым возбуждением (CELP - code-excited linear prediction), метод CELP с низкой задержкой (LD-CELP - low delay CELP), стандартизованный ITU-T (G.728) и обеспечивающий скорость 16 кбит/с.


Комментарии (0):

Добавить комментарий

 
Ваше имя:
Ваш комментарий:
Решите задачку (ответ напишите цифрами):
Один + Девять =

 
 
 
Наверх