Скидки до 50% и курс в подарок : : Выбрать курс
Код
#новости

Исследование: нейросети могут деградировать, обучаясь на сгенерированных данных

Разбираемся, почему это происходит и можно ли с этим бороться.

Сейчас большинство языковых моделей обучается на текстах, написанных человеком. Но ситуация не стоит на месте, и количество синтетического контента в интернете растёт. Из-за этого новые модели могут обучаться всё хуже и хуже, считают учёные из университетов Кембриджа и Оксфорда.

В своей статье «Проклятие рекурсии» исследователи назвали этот эффект «коллапсом больших языковых моделей». Разбираемся, в чём его суть.

Почему деградируют модели

Если коротко, всё дело в склонности нейросети работать с усреднёнными данными. Например, если «скормить» ей датасет с зарплатами сотрудников компании, на её ответы будут больше влиять средние и самые популярные значения — а к «деталям» она будет обращаться в последнюю очередь.

Проблема в том, что чем чаще мы прогоняем какие-то данные через нейронку, тем меньше в её ответах будет этих самых деталей и нюансов. Это как если дать тысяче художников перерисовать друг за другом «Звёздную ночь» Ван Гога — в конце эксперимента получится что-то, что мало похоже на оригинал.

Один из авторов исследования, профессор Кембриджского университета Росс Андерсон, в своём блоге приводит такую аналогию:

Допустим, мы обучаем модель, которая пишет музыку в стиле Моцарта. Скорее всего, её результаты будут напоминать произведения Моцарта, но без особого блеска, — поэтому назовем нашу модель «Сальери». Каждое поколение «Сальери» будет обучать последующее: первое — второе, второе — третье и так по цепочке. А теперь представьте, какую музыку будет генерировать пятое или шестое поколение.

Росс Андерсон
учёный, консультант по инженерной безопасности, профессор Кембриджского университета

Его коллега по университету, профессор Илья Шумайлов, в статье для VentureBeat иллюстрирует это явление чуть более детально:

Представьте, что у нас есть датасет с фотографиями 100 кошек — 10 из них с синим мехом и 90 с жёлтым. Модель справедливо считает жёлтых кошек более распространёнными, но при этом представляет голубых кошек «более жёлтыми», чем они есть на самом деле. И, когда нейросеть просят нарисовать новую картинку, она периодически будет возвращать зелёных кошек. Со временем первоначальная черта синего меха испаряется в результате последовательных циклов обучения, превращаясь из синего в зеленоватый и, в конечном итоге, в жёлтый. Это прогрессирующее искажение и возможная потеря характеристик данных меньшинства является коллапсом модели.

Илья Шумайлов
учёный, преподаватель Кембриджского университета

Как с этим бороться

По сути исследователи предлагают только один способ решения проблемы: использовать для обучения нейросетей данные, сгенерированные человеком. Это могут быть как новые, так и уже существующие датасеты, дополненные свежей информацией без примесей синтетического контента.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!



Изучайте IT на практике — бесплатно

Курсы за 2990 0 р.

Я не знаю, с чего начать
Бесплатный курс по Python ➞
Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе.
Смотреть программу
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована