Код

#статьи

8 сен 2021
0

К чёрту уроки английского: «Яндекс» тестирует закадровый машинный перевод видео

Разбираемся, смогут ли технологии заменить знание иностранных языков — сейчас или в будущем.

Polina Vari для Skillbox Media

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

В «Яндекс.Браузере» появилась экспериментальная функция — закадровый перевод иностранных видео на русский язык. С июля 2021 года технология работает в пилотном режиме: переводит только тестовые ролики с английского на русский. В будущем это должно работать так:

Вы открываете видеоролик на любом иностранном языке.
Нажимаете кнопку «Перевести».
Получаете русскоязычную озвучку — нейросеть в онлайн-режиме выполнит закадровый перевод и подберёт голоса под пол и темп речи спикеров.

Чтобы попробовать новую фичу уже сейчас — изучите инструкцию и скачайте «Яндекс.Браузер».

👉 Как работает технология закадрового перевода видео от «Яндекса».

Автоперевод видео в «Яндекс.Браузере». Ролик с канала «Яндекса»

Артемий Лебедев предрекает смерть школам английского

21 июля 2021 года в выпуске «Самых честных новостей» Артемий Лебедев предположил, что вскоре нейросети заменят переводчиков и людям не придётся тратить время на изучение иностранных языков. С Артемием согласилась часть читателей LiveJournal.

Красиво поют и производители карманных переводчиков вроде Pocketalk. Мол, покупаешь гаджет и свободно общаешься с иностранцами — а какой-нибудь кокни героев Гая Ричи или беглая разговорная речь уже как будто бы не проблема.

👉 Принцип работы и стандарты синхронного машинного перевода

Презентация устройства Pocketalk. Видео с канала POCKETALK 公式チャンネル

Давайте выясним, нужно ли учить иностранные языки, если любой перевод можно выполнить с помощью технологий. Посмотрим, как это работает сейчас и что изменится, когда нейросети научатся идеально переводить разговорную речь.

Пока технологии неспособны заменить знание иностранных языков

У современных нейросетей проблемы с контекстом. Они механически переводят слова и предложения и могут учитывать дополнительный смысл только в ограниченных случаях. Например, не понимают иронию, недосказанность, двусмысленные обороты, сленг, специфическую терминологию или нестандартные фразы.

👉 Что такое машинный перевод и как он работает (статья в «Википедии»)

12 февраля 2021 года журналист-полиглот из Wall Street Journal протестировал голосовой переводчик Pocketalk на улицах Барселоны. Он заказал кофе, но лёгкого общения с иностранцами не получилось: гаджет зависал при обработке запросов, вынуждал прохожих повторять сказанное и просто искажал смысл разговорной речи.

Тест карманного переводчика POCKETALK. Видео с канала Wall Street Journal

Голосовые переводчики Apple, Google и «Яндекса» работают не лучше Pocketalk. Если интересны подробности — посмотрите обзор на YouTube-канале Вячеслава Горбатенко.

Сколько ждать отмены уроков иностранного языка

«Яндекс» не сообщает, когда нейросеть начнёт переводить видеоролики на хорошем уровне — есть только общие упоминания о том, что это сложно и ещё никому в мире не удалось:

«В интернете очень много полезного контента, который недоступен людям из-за языкового барьера. И мы близки к тому, чтобы окончательно стереть все границы. „Яндекс.Браузер“ давно умеет переводить тексты, в этом году стал переводить изображения, перевод видео — следующий этап. Это большая, сложная задача, которую никто в мире ещё не решил. Мы тоже в начале пути, но у нас уже есть прототип и понимание, куда двигаться дальше».

Дэвид Талбот,
руководитель направления обработки естественного языка в «Яндексе»

Обратимся к истории. 7 января 1954 года учёные из Джорджтаунского университета и сотрудники IBM провели первую в мире демонстрацию машинного перевода. В ходе эксперимента вычислительная машина переводила короткие предложения с русского на английский. Вот несколько примеров из пресс-релиза IBM:

Исходный текст на русском языке	Машинный перевод на английский язык	Обратный перевод с английского на русский
Мы передаём мысли посредством речи.	We transmit thoughts by means of speech.	Мы передаём мысли с помощью речи.
Величина угла определяется отношением длины дуги к радиусу.	Magnitude of angle is determined by the relation of length of arc to radius.	Величина угла определяется отношением длины дуги к радиусу.
Международное понимание является важным фактором в решении политических вопросов.	International understanding constitutes an important factor in decision of political questions.	Международное взаимопонимание — важный фактор в решении политических вопросов.

После Джорджтаунского эксперимента у специалистов появилась задача: натаскать алгоритмы машинного перевода до такого уровня, чтобы они могли осмысленно переводить устную речь или текст на иностранном языке.

С осмысленным переводом возникла проблема. До сих пор учёные не разобрались, как обучить программу здравому смыслу — чтобы она, как человек, могла оценивать информацию, опираясь на личный опыт, логику, базовые знания о мире и контекст. Эта проблему называют «тёмной материей искусственного интеллекта».

👉 Исследование Эрнеста Дэвиса и Гэри Маркуса о здравом смысле в ИИ

Искусственный интеллект развивается постепенно, и для отслеживания изменений люди используют тесты. С 1950 по 2014 год учёные отслеживали тест Тьюринга — ждали момента, когда в переписке программа сможет выдать себя за человека.

В 2014 году программа «Евгений Густман» прошла тест Тьюринга — 30% судей поверили, что переписку вёл человек. Это знаковое событие для истории, но этого недостаточно, чтобы признать в искусственном интеллекте здравый смысл.

👉 Подробнее о тесте Тьюринга и программе «Евгений Густман» (статьи в «Википедии»)

Сейчас вместо теста Тьюринга используются схемы Винограда — более сложный тест, где программа получает вопрос и по подсказкам из контекста должна понять, о чём её спрашивают. Тест рассчитан на то, что нейросеть научится рассуждать на основе здравого смысла, и тогда её можно будет считать разумной.

Вот пример одного из вопросов:

Анна сделала намного [лучше / хуже], чем её хорошая подруга Люси, потому что она так усердно училась. Кто усердно учился?

Ответы: Анна / Люси.

Чтобы ответить на вопрос, человек и нейросеть должны уметь рассуждать:

В предложении два действующих лица: Анна и Люси.
Анна совершает действие, а Люси бездействует.
Действия Анны — усердная учёба.
Кто усерднее учился, тот обычно делает лучше.
Если Анна усерднее училась, значит, она сделала намного лучше.

Человеку легко рассуждать подобным образом, поскольку он начинает прокачивать здравый смысл с детства и не прекращает это увлекательное занятие на протяжении всей жизни. А так как эти знания обычно нигде не фиксируются, их сложно запрограммировать. Для этого кто-то должен собрать все очевидные и неочевидные факты о мире и загрузить их в нейросеть.

В 1984 году стартовал проект Cyc. Его цель — закодировать все знания, которые так или иначе связаны с понятием здравого смысла. За 37 лет в базе накопилось более 25 миллионов концепций и точных утверждений. Правда, и они не помогают решить проблему здравого смысла. Причина — сложная реальность, где очевидные факты постоянно переплетаются в бесконечное количество непредсказуемых сценариев.

Ситуация	Предсказуемые последствия	Непредсказуемые исключения из ситуации
Человек бросил спичку в стог сена.	Стог сена загорелся.	Ветер затушил спичку.
56	57	Человек промазал — спичка упала на асфальт.
57	57	Сено промокло под дождём и не загорелось.
57	57	…

В общем, плохие новости: непонятно, когда учёные научат нейросеть понимать здравый смысл. А пока этого не случилось, технологии не смогут выполнять точный перевод и не заменят знания иностранных языков.

Причина, которая может затормозить прогресс

Когда технология развивается десятилетиями, на неё могут влиять мировые события: войны, эпидемии, кризисы и другие обстоятельства. Например, во время Второй мировой войны и в годы послевоенной разрухи обществу было не до беспилотного транспорта — во многих странах люди боролись с голодом, безработицей, восстанавливали инфраструктуру и решали другие проблемы. Если бы не война, возможно, первые беспилотники появились бы в шестидесятых годах XX века.

👉 Видео РБК: «Почему мы до сих пор не пересели на беспилотные автомобили?»

В 1972 году появилось исследование World3. В нём учёные утверждали, что где-то к середине XXI века человечество пострадает из-за истощения природных ресурсов, наступит затяжной кризис. Эту гипотезу в 2021 году подтвердила компания KPMG.

Если прогнозы аналитиков сбудутся, то с 2040 года в большинстве стран начнётся голод, инфляция и безработица — примерно та же ситуация, что и с беспилотным транспортом перед войной. Скорее всего, развитие голосовых автопереводчиков замедлится, поскольку технологии будут направлены на воскрешение экономики.

Падающая красная линия показывает сценарий, в котором может оказаться экономика к 2040 году. Источник: KPMG. Инфографика: Майя Мальгина / Skillbox Media

Резюмируем

Современные технологии позволяют переводить простые слова и выражения с понятным контекстом. Можно заказать кофе в незнакомой стране, но вряд ли получится провести полноценные деловые переговоры с иностранными партнёрами — хотя продавцов на AliExpress это не смущает.
Учёные не знают, как обучить нейросеть здравому смыслу — передать ей тот опыт, который человек впитывает с рождения. Сколько ждать технологического прорыва в этой области — неизвестно.
В 2040 году планету может накрыть кризис, из-за которого многие технологии временно перестанут развиваться. Это серьёзно отсрочит технопрорыв.