ТЕМИНЫ

Voice Activity Detector

VAD — детектор речевой активности.

Наиболее простым классификатором речевого сигнала является VAD (Voice Activity Detector, детектор речевой активности), который выделяет во входном речевом сигнале активную речь и паузы.

Фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов с базовой скоростью 4 — 8 кбит/с.

Фрагменты, классифицированные как паузы, кодируются и передаются с низкой скоростью порядка 0.1 — 0.2 Кбит/с, либо не передаются вообще.

Когда срабатывает VAD, на приемной стороне автоматически генерируется так называемый «комфортный шум» чтобы у собеседника не возникало ощущение пропадания связи. При этом передача минимальной информации о фрагментах пауз предпочтительна.

Данная стратегия позволяет оптимизировать скорость кодирования до 2 — 4 кбит/с при достаточном качестве синтезируемой речи. При этом для особо критичных фрагментов речевого сигнала выделяется большая скорость передачи, для менее ответственных — меньшая.

ПОСЛЕДНИЕ НОВОСТИ