22 фев 2023
0

Исследователи: нейросети могут прибегать к изощрённым способам плагиата

Копипаст — не единственное, на что они способны.

Александра Лапина

Редактор статей и новостей об образовании и EdTech. Магистр в области международных отношений. Интересуется сферой образования, изучением иностранных языков и с удовольствием путешествует.

К такому выводу пришли специалисты из Университета штата Пенсильвания (США). О результатах их работы сообщила пресс-служба вуза.

Как проводили исследование

Плагиат бывает разных видов — крадут и идеи, и отдельные элементы чужих работ, и целые сочинения. Учёные решили выяснить, какие из этих способов применяют нейросети, генерирующие тексты. Уточняется, что у искусственного интеллекта нет цели сжульничать, но плагиат относится к неизбежным издержкам использования таких решений.

Данное исследование — первая попытка изучить это явление. Исследователи сосредоточились на выявлении трёх форм плагиата:

дословное копирование текста;
изменение изначальных формулировок и реструктуризация текста без ссылок на первоисточники;
использование идеи из текста без указания авторства.

Они создали программу для автоматического обнаружения плагиата и протестировали её на GPT-2 — языковой модели, разработанной американской исследовательской лабораторией OpenAI в 2019 году. Учёные выбрали эту нейросеть, поскольку данные о её разработке доступны онлайн. Это позволило сравнить сгенерированные тексты с 8 млн документов, использованных для обучения GPT-2.

В рамках исследования они сгенерировали 210 тысяч текстов, которые затем проверили на плагиат.

Что выяснили

Обнаружилось, что нейросеть использовала все перечисленные виды плагиата. Причём оказалось, что в текстах по темам, которым нейросеть обучали на основе более широкого набора данных и параметров, больше заимствований чужого контента. Кроме того, отладка работы модели сокращала частоту дословного копирования, но увеличивала использование других форм плагиата.

По мнению исследователей, результаты подтверждают, что пока нейросети могут качественно справиться далеко не со всеми задачами. Например, уже сейчас они представляют собой полезный инструмент для поиска нужной информации, но вот написать хорошую учебную работу им пока не под силу — автора могут уличить в перефразировании чужого текста или заимствовании идей без указания источников.

Специалисты отметили, что плагиат в контенте, который генерируют языковые модели, — ожидаемое явление, поскольку их учат имитировать тексты, написанные человеком, но не заимствовать их согласно правилам этики. Предполагается, что это должно стать следующим шагом для разработчиков.

И хотя результаты исследования применимы только к GPT-2, учёные считают, что можно создать программы, выявляющие плагиат в текстах, которые сгенерированы другими нейросетями — например, ChatGPT. Однако для этого нужны данные об обучении программы.

Кстати, недавно российские эксперты оценили качество онлайн-курса, созданного ChatGPT. В этом случае результаты тоже говорят о том, что нейросеть пока не может создать качественный учебный контент. Кроме того, уже существует инструмент для выявления текстов, написанных нейросетью.

Читайте также: