Facebook создала систему распознавания речи
Технологии не требуется база данных с транскрибированными записями речи носителей. Это совершенно другой принцип.
: fizkes / shutterstock
Компания Facebook* AI представила систему wav2vec Unsupervised (wav2vec-U). В технологии используется новый подход к транскрибации речи. Как заявляют в компании, в систему можно загрузить голосовую запись или текст на нужном языке, а дальше она самостоятельно распознает слова и соотнесёт их со словарём.
Работа с аудио начинается с изучения структуры речи. Система делит запись на фонетические единицы. Например, слово cat система распознает как три звука — [k], [æ], [t]. За выявление отдельных сегментов в аудиозаписи отвечает специально обученная GAN (генеративная состязательная сеть). Она берёт фонему и пытается угадать, какому звуку в конкретном языке она соответствует.
wav2vec-U уже протестировали на тех языках, с которыми прежде не работали системы распознавания речи из-за нехватки данных для обучения. К ним относятся, например, суахили (один из наиболее значимых языков Африканского континента) и татарский язык. Система проанализировала 9,6 часа речи и 3 тысячи написанных фраз. wav2vec-U справилась на 60% лучше, чем предыдущая подобная технология.
«Это важный шаг на пути к созданию машин, которые смогут решать широкий спектр задач, обучаясь при помощи „наблюдения“. Мы думаем, что эта работа приблизит нас к миру, в котором речевые технологии доступны гораздо большему количеству людей», — говорится в блоге Facebook*.