Как преобразовать речь в текст?

https://stackoverflow.com/questions/491578

20-08-2019
|

Вопрос

Как я мог взять MP3 и преобразовать речь в текст?

У меня есть несколько записанных заметок с конференции и совещаний (на записи есть один голос, это мой голос).Я подумал, что было бы проще и интеллектуально интереснее преобразовать текст в текст с помощью инструментов преобразования речи в текст, а не просто расшифровывать вручную.Я знаю, что существуют технологии, особенно для приложений VoIP, использующих Asterisk и подкасты, но что это такое и как я могу их использовать?

Решение

Открытый источник: КМУ Сфинкс

Условно-бесплатное ПО: http://www.e-speaking.com/ (Окна)

Коммерческий: Дракон ЕстественноГоворящий (Окна)

Другие советы

.NET может сделать это с помощью своего пространства имен System.Speech.

Вам придется сначала преобразовать в .wav или записать звук в реальном времени с микрофона.

Подробности реализации можно найти здесь:Транскрипция аудио с помощью .NET

Дракон ЕстественноГоворящий вроде поддерживает вход MP3.

Если вы хотите версия с открытым исходным кодом (Я думаю, что есть несколько проектов интеграции Asterisk, основанных на этом).

Опоздал на вечеринку, поэтому отвечаю подробнее на будущее.

Достижения в этой области + мышление и программа Mozilla привели к созданию этих двух проектов с этой целью:

Последний имеет набор данных объемом 12 ГБ для загрузки.Насколько я понимаю, первый позволяет обучать модель с помощью ваших собственных аудиофайлов.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow