Все ли алгоритмы преобразования голоса в текст работают в режиме реального времени?

https://stackoverflow.com/questions/476299

speech-to-text

20-08-2019
|

Вопрос

Все ли алгоритмы преобразования голоса в текст, используемые в современных технологиях, работают в режиме реального времени?Я не имею в виду человека, сидящего за компьютером с микрофоном, а скорее вводящего предварительно записанный аудиофайл.

т. е.Если у вас есть 30-минутная запись голоса, всегда ли транскрибирование займет 30 минут?

Существуют ли там разные подходы?

Решение

Нет никаких причин, по которым распознавание речи должно занимать столько же времени, сколько длина выполняемого аудио.Однако из-за требуемых вычислений я не думаю, что вы не получите алгоритм намного быстрее, чем в реальном времени.Видишь этот раздел из статьи Википедии для получения более подробной информации (похоже, там не указано какое-либо время, хотя и дается приличный обзор производительности).

Другие советы

Ничто не мешает алгоритму работать быстрее, чем в реальном времени.Программное обеспечение Naturally Speaking 10 Professional предоставляет опцию "переписать из файла" для преобразования диктовки, сделанной вдали от компьютера, это работает настолько быстро, насколько это возможно на компьютере, на котором оно запущено.

Я полагаю, что реализации пакетной обработки существуют в области разведки сигналов, но такие программы, естественно, были бы недоступны для широких слоев населения.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow