Facebook создала систему распознавания речи

Технологии не требуется база данных с транскрибированными записями речи носителей. Это совершенно другой принцип.

: fizkes / shutterstock

Екатерина Соколова

Редактор новостей о бизнесе и EdTech. Скроллить новостную ленту — и работа, и хобби.

Компания Facebook* AI представила систему wav2vec Unsupervised (wav2vec-U). В технологии используется новый подход к транскрибации речи. Как заявляют в компании, в систему можно загрузить голосовую запись или текст на нужном языке, а дальше она самостоятельно распознает слова и соотнесёт их со словарём.

Работа с аудио начинается с изучения структуры речи. Система делит запись на фонетические единицы. Например, слово cat система распознает как три звука — [k], [æ], [t]. За выявление отдельных сегментов в аудиозаписи отвечает специально обученная GAN (генеративная состязательная сеть). Она берёт фонему и пытается угадать, какому звуку в конкретном языке она соответствует.

wav2vec-U уже протестировали на тех языках, с которыми прежде не работали системы распознавания речи из-за нехватки данных для обучения. К ним относятся, например, суахили (один из наиболее значимых языков Африканского континента) и татарский язык. Система проанализировала 9,6 часа речи и 3 тысячи написанных фраз. wav2vec-U справилась на 60% лучше, чем предыдущая подобная технология.

«Это важный шаг на пути к созданию машин, которые смогут решать широкий спектр задач, обучаясь при помощи „наблюдения“. Мы думаем, что эта работа приблизит нас к миру, в котором речевые технологии доступны гораздо большему количеству людей», — говорится в блоге Facebook*.

* Решением суда запрещена «деятельность компании Meta Platforms Inc. по реализации продуктов — социальных сетей Facebook* и Instagram* на территории Российской Федерации по основаниям осуществления экстремистской деятельности».