Цифровое скремблирование
Альтернативным аналоговому скремблированию речи является шифрование речевых сигналов, преобразованных в цифровую форму, перед их передачей (см. рис. 19.3). Этот метод обеспечивает более высокий уровень закрытия по сравнению с описанными выше аналоговыми методами. В основе устройств, работающих по такому принципу, лежит представленные речевого сигнала в виде цифровой последовательности, закрываемой по одному из криптографических алгоритмов. Передача данных, представляющих дискретизированные отсчеты речевого сигнала или его параметров, по телефонным сетям, как и в случае устройств шифрования алфавитно-цифровой и графической информации, осуществляется через устройства, называемые модемами.
Основной целью при разработке устройств цифрового закрытия речи является сохранение тех ее характеристик, которые наиболее важны для восприятия слушателем. Одним из путей является сохранение формы речевого сигнала. Это направление применяется в широкополосных цифровых системах закрытия речи. Однако более эффективно использовать свойства избыточности информации, содержащейся в человеческой речи. Это направление разрабатывается в узкополосных цифровых системах закрытия речи.
Ширину спектра речевого сигнала можно считать приблизительно равной 3,3 кГц, а для достижения хорошего качества восприятия необходимо соотношение сигнал/шум примерно 30 дБ. Тогда, согласно теории Шеннона, требуемая скорость передачи дискретизированной речи будет соответствовать величине 33 кбит/с.
С другой стороны, речевой сигнал представляет собой последовательность фонем, передающих информацию. В английском языке, например, около 40 фонем, в немецком — около 70 и т.д. Таким образом, для представления фонетического алфавита требуется примерно 6-7 бит. Максимальная скорость произношения не превышает 10 фонем в секунду. Следовательно, минимальная скорость передачи основной технической информации речи — не ниже 60-70 бит/с.
Сохранение формы сигнала требует высокой скорости передачи и, соответственно, использования широкополосных каналов связи.
Так при импульсно-кодовой модуляции (ИКМ), используемой в большинстве телефонных сетей, необходима скорость передачи, равная 64 кбит/с. В случае применения адаптивной дифференциальной ИКМ скорость понижается до 32 кбит/с и ниже. Для узкополосных каналов, не обеспечивающие такие скорости передачи, требуются устройства, снижающие избыточность речи до ее передачи. Снижение информационной избыточности речи достигается параметризацией речевого сигнала, при которой сохраняются существенные для восприятия характеристики речи.
Таким образом, правильное применение методов цифровой передачи речи с высокой информационной эффективностью, является крайне важным направлением разработки устройств цифрового закрытия речевых сигналов. В таких системах устройство кодирования речи (вокодер), анализируя форму речевого сигнала, производит оценку параметров переменных компонент модели генерации речи и передает эти параметры в цифровой форме по каналу связи на синтезатор, где согласно этой модели по принятым параметрам синтезируется речевое сообщение. На малых интервалах времени (до 30мс) параметры сигнала могут рассматриваться, как постоянные. Чем короче интервал анализа, тем точнее можно представить динамику речи, но при этом должна быть выше скорость передачи данных. В большинстве случаев на практике используются 20-миллисекундные интервалы, а скорость передачи достигает 2400 бит/с.
Наиболее распространенными типами вокодеров являются полосные и с линейным предсказанием. Целью любого вокодера является передача параметров, характеризующих речь и имеющих низкую информационную скорость. Полосный вокодер достигает эту цель путем передачи амплитуды нескольких частотных полосных речевого спектра. Каждый полосовой фильтр такого вокодера возбуждается при попадании энергии речевого сигнала в его полосу пропускания. Так как спектр речевого сигнала изменяется относительно медленно, набор амплитуд выходных сигналов фильтров образует пригодную для вокодера основу. В синтезаторе параметры амплитуды каждого канала управляют коэффициентами усиления фильтра, характеристики которого подобны характеристикам фильтра анализатора.
Таким образом, структура полосового вокодера базируется на двух блоках фильтров — для анализа и для синтеза. Увеличение количества каналов улучшает разборчивость, но при этом требуется большая скорость передачи. Компромиссным решением обычно становится выбор 16-20 каналов при скорости передачи данных около 2400 бит/с.
Полосовые фильтры в цифровом исполнении строятся на базе аналоговых фильтров Баттерворта, Чебышева, эллиптических и др. Каждый 20-миллисекундный отрезок времени кодируется 48 битами, из них 6 бит отводится на информацию об основном тоне, один бит на информацию “тон–шум”, характеризующую наличие или отсутствие вокализованного участка речевого сигнала, остальные 41 бит описывают значения амплитуд сигналов на выходе полосовых фильтров.
Существуют различные модификации полосного вокодера, приспособленные для каналов с ограниченной полосой пропускания. При отсутствии жестких требований на качество синтезированной речи удается снизить количество бит передаваемой информации с 48 до 36 на каждые 20 мс, что обеспечивает снижение скорости до 1200 бит/с. Это возможно в случае передачи каждого второго кадра речевого сигнала и дополнительной информации о синтезе пропущенного кадра. Потери в качестве синтезированной речи от таких процедур не слишком велики, достоинством же является снижение скорости передачи сигналов.
Наибольшее распространение среди систем цифрового кодирования речи с последующим шифрованием получили системы, основным узлом которых являются вокодеры с линейным предсказанием речи (ЛПР).
Математическое представление модели цифрового фильтра, используемого в вокодере с линейным предсказанием, имеет вид кусочно-линейной аппроксимацией процесса формирования речи с некоторыми упрощениями: каждый текущий отсчет речевого сигнала является линейной функцией P предыдущих отсчетов. Несмотря на несовершенство такой модели, ее параметры обеспечивают приемлемое представление речевого сигнала. В вокодере с линейным представлением анализатор осуществляет минимизацию ошибки предсказания, представляющего собой разность текущего отсчета речевого сигнала и средневзвешенной суммы предыдущих отсчетов.
Существует несколько методов минимизации ошибки. Общим для всех является то, что при оптимальной величине коэффициентов предсказания спектр сигнала ошибки приближается к белому шуму и соседние значения ошибки имеют минимальную коррекцию. Известные методы делятся на две категории: последовательные и блочные, которые получили наибольшее распространение.
В вокодере с линейным предсказанием речевая информация передается тремя параметрами: амлитудой, решением “тон/шум” и периодом основного тока для вокализованных звуков. Так, согласно федеральному стандарту США, период анализируемого отрезка речевого сигнала составляет 22,5 мс, что соответствует 180 отсчетам при частоте дискретизации 8 кГц. Кодирование в этом случае осуществляется 54 битами, что соответствует скорости передачи 2400 бит/с. При этом 41 бит отводится на кодирование десяти коэффициентов предсказания, 5 — на кодирование величины амплитуды, 7 — на передачу периода основного тона и 1 бит определяет решение “тон/шум”. При осуществлении подобного кодирования предполагается, что все параметры независимы, однако в естественной речи параметры коррелированы и возможно значительное снижение минимально допустимой скорости передачи данных без потери качества, если правило кодирования оптимизировать с учетом зависимости всех параметров. Такой подход известен под названием векторного кодирования. Его применение к вокодеру с линейным предсказанием позволяет снизить скорость передачи данных до 800 бит/с и менее, с очень малой потерей качества.
Основной особенностью использования систем цифрового закрытия речевых сигналов является необходимость использования модемов. В принципе возможны следующие подходы к проектированию систем закрытия речевых сигналов.
1. Цифровая последовательность параметров речи с выхода вокодерного устройства подается на вход шифратора, где подвергается преобразованию по одному из криптографических алгоритмов, затем поступает через модем в канал связи, на приемной стороне которого осуществляются обратные операции по восстановлению речевого сигнала, в которых задействованы модем и дешифратор (см.рис. 19.3, 19.4). Модем представляет собой отдельное устройство, обеспечивающее передачу данных по одному из протоколов, рекомендованных МККТТ. Шифрующие/дешифрующие функции обеспечиваются либо в отдельных устройствах, либо в программно-аппаратной реализации вокодера.
2. Шифрующие/дешифрующие функции обеспечиваются самим модемом (так называемый засекречивающий модем), обычно по известным криптографическим алгоритмам типа DES и т.п. Цифровой поток, несущий информацию о параметрах речи, с выхода вокодера поступает непосредственно в такой модем. Организация связи по каналу аналогична приведенной выше.