Код

#статьи

11 авг 2021
0

GitHub Copilot не нарушает ваши авторские права

Рассказываем, почему копирайт к результатам его работы даже не применим.

Meery Mary для Skillbox Media

Екатерина Степанова

Фулстек-разработчик. Любимый стек: Java + Angular, но в хорошей компании готова писать хоть на языке Ада.

Юлия Реда

(Julia Reda)

об авторе

Немецкий политик и депутат Европарламента, член Пиратской партии Германии. Выступает за реформу авторского права.

Ссылки

Copilot — это программа с искусственным интеллектом (ИИ), который обучается на общедоступных исходных кодах и текстах. В режиме реального времени он подсказывает разработчику, как можно продолжить набираемый код.

Появление GitHub Copilot здорово взволновало сторонников свободного ПО. Дело в том, что сервис формирует кодовую базу из репозиториев с лицензиями копилефт (например, GPL). Поэтому GitHub и обвиняют в нарушении авторских прав. Вот пример таких обвинений, и ещё один.

Примечание переводчика

Авторское право (копирайт, copyright) позволяет автору разрешать или запрещать публикацию своего произведения (и его частей), то есть ограничивает их переработку и распространение.

Авторское лево (копилефт, copyleft) — вид лицензии, которая разрешает свободно использовать, копировать и изменять произведение, если все производные будут распространяться на тех же условиях.

Затык в том, что сам Copilot выпускается не под лицензией копилефт — после тестового периода сервис станет платным. Споры касаются сразу нескольких сторон авторского права. Но самое удивительное то, что за усиление позиций копирайта (за толкование его в самом широком смысле) выступают сегодня как раз сторонники свободного ПО.

Копилефт не выиграет от ужесточения законов об авторском праве

Авторское лево — гениальная придумка, палка в колёса закрытости и коммерциализации контента. Копилефт ставит авторское право на защиту интересов свободного ПО, позволяет легко обмениваться плодами культуры и инновациями.

Произведения с копилефт-лицензиями можно копировать, изменять и распространять только в том случае, если для всех копий и производных произведений будут применяться те же самые правила. То есть законы, которые призваны защищать исключительность прав, запрещают ограничивать доступ к копилефт-произведениям. И это прекрасно, потому что инновации становятся доступны большему числу людей.

Копирайт действует прямо противоположно, даёт правообладателям едва ли не абсолютный контроль над интеллектуальными творениями. Например, запрещает использовать и изменять программный код. Будь по-другому, смысла в копилефт-лицензиях попросту бы не было. При этом у лицензий свободного ПО всё равно осталась бы важная функция — гарантировать публикацию изменённых исходников.

Вот почему так абсурдна ситуация, когда сторонники копилефта выступают за усиление копирайта. Да, можно расширить запреты. И тогда свободные лицензии будут применяться чаще и распространяться быстрее. Но ещё больше усилятся позиции проприетарных лицензий — ведь их намного больше и цели их противоречат свободе ПО.

Именно к этому сейчас всё идёт. Microsoft, материнская компания GitHub, извлекает выгоду из анализа свободно распространяемого кода и создаёт на его основе коммерческий сервис. Поэтому кому-то кажется умным оспаривать это, используя закон об авторском праве. Но получается, что сторонники копилефта сами пилят сук, на котором сидят: усиление запретов станет фатальным для открытой культуры, которую продвигают лицензии на авторское лево.

На разработчиков Copilot нападают сразу с двух фронтов. Кто-то критикует GitHub за само использование бесплатного кода в коммерческом AI-приложении. Других больше волнует, что Copilot генерирует код на основе тренировочных данных, забивая на их лицензию. То и другое можно счесть неэтичным, а вот доказать незаконность таких действий — сложно, потому что авторские права при этом не нарушаются.

Интеллектуальный анализ текста и данных не нарушает авторские права

Похожим образом критикуют и парсинг кода без разрешения его авторов. И тут стоит отметить, что ни чтение, ни обработка информации не регулируются законами об авторском праве. То есть не требуют каких-то разрешений.

Если я прихожу в книжный магазин, беру с полки книгу и начинаю её читать, то не нарушаю чьи-то права.

Другое дело — парсинг кода для тренировки ИИ. Он всё же входит в сферу действия авторского права. Причина банальна: цифровой контент до обработки нужно сперва скопировать. И именно вокруг копирования ломаются копья при защите авторских прав в IT.

К счастью, политики и суды давно признали, что если получать разрешение на любое копирование, то цифровыми технологиями невозможно было бы пользоваться. Например, людям, которые слушают музыку с помощью цифровых слуховых аппаратов, пришлось бы покупать лицензии на неё, а интернет-провайдерам — лицензировать все мыслимые и немыслимые произведения, защищённые авторским правом. Ведь пользователи обмениваются ими через интернет.

Евросоюз ещё в 2001 году, несмотря на протесты развлекательной индустрии, разрешил такое копирование, которого технически сложно избежать. К сожалению, это разрешение распространяется только на временные, то есть промежуточные копии. Однако многие процессы предполагают создание некоего справочного хранилища, где контент хранится постоянно, — для оперативной обработки.

Издатели научных материалов давно пользуются этой оговоркой. Они запрещают пользователям скачивать по многу статей за раз, если те защищены копирайтом.

Представьте такую ситуацию: исследователю понадобилось так много статей, что успеть проанализировать их все можно только автоматически. И право доступа к этим материалам у него есть — например, по подписке в университете. Но справочное хранилище из них создать не получится. Издатели противодействуют этому техническими ограничениями и условиями договора. По их мнению, учёные должны читать статьи только своими глазами, а не с помощью технических средств. Подобная запретительная практика в своё время сильно подкосила машинные методы исследований вроде тех, которые применяются в цифровых гуманитарных науках.

Поэтому исследовательские ассоциации из ЕС потребовали у законодателей вмешаться и поставить точку — разрешить постоянное хранение контента для последующего автоматизированного анализа. Эта кампания проходила под девизом «The Right to Read is the Right to Mine» («Право читать — моё неотъемлемое право». — Пер.). К неудовольствию академических издателей, инициативу учёных поддержали в 2019 году. Соответствующая директива ЕС разрешила интеллектуальный анализ текста и данных.

Если правообладатель не желает, чтобы его произведение автоматически анализировали, то должен сообщить об этом в форме, которая будет понятна машине.

Например, в интернете за это отвечает файл robots.txt. Причём неважно, на коммерческих ли услових распространяется контент, защищён ли он копирайтом, — машина не будет этого выяснять, перед ней все равны.

Европейские законы об авторском праве позволяют парсить GPL-код и другой контент без оглядки на лицензии. В США парсинг контента тоже считается добросовестным использованием — это стало очевидным после прецедента с Google-книгами.

Комментарий переводчика

Писательская ассоциация Authors Guild подала в суд на Google, обвинив её в нарушении авторских прав «в гигантских масштабах». Дело в том, что в сервисе «Google Книги» есть поиск по текстам оцифрованных книг, а ещё там можно просматривать фрагменты произведений — даже тех, которые защищены авторским правом.

Однако и суды низших инстанций, и Верховный суд США посчитали эти возможности «Google Книг» добросовестным использованием защищённого контента.

Автогенерируемый код — это не производное произведение

Кто-то считает, что GitHub Copilot нарушает закон, обучая ИИ на лицензированном коде (а ведь весомая часть исходников выложена под GPL).

Иногда Copilot предлагает пользователю законченные, целостные фрагменты кода из обучающего набора, хоть и небольшие, — так написано в FAQ сервиса.

Но противоправным считают и то, что сервис вообще генерирует выходной код. Как раз его-то критики GitHub и приравнивают к производным произведениям. Аргумент тут простой: без обучающих данных ИИ ничего бы создать не смог.

Подобные рассуждения опасны по двум причинам.

1. Понижается порог уникальности

Получается, что копирование даже крохотных частей охраняемых произведений — это нарушение авторских прав. Но, вообще-то, это не так. Иначе авторы давно бы пересудились из-за простейших фраз типа «Bucks побеждает Hawks и выходит в финал NBA» или «i = i + 1». Короткие участки кода, которые воспроизводит Copilot, едва ли дотягивают до планки оригинальности.

Закон об авторском праве допускает исключения, но встречаются они редко. Например, когда копируемый отрывок представляет собой что-то из ряда вон — новое и выдающееся — и потому вопросов к его оригинальности и размеру даже не возникает.

Закон защищает только оригинальные фрагменты. Поэтому издательские дома Евросоюза успешно лоббировали изменения, которые позволяют им обходить условие об оригинальности. Они ограничивают поисковую выдачу: запрещают поисковикам показывать даже отдельные предложения со страниц сайта.

Именно подобные сомнительные инициативы и поддерживают сторонники свободного ПО, когда требуют контроля над мельчайшими фрагментами кода.

2. Любые творения ИИ можно будет защитить копирайтом

Чтобы считать генерируемый Copilot код производным произведением от тренировочных исходников, придётся допустить, что машина в принципе может создавать произведения. Но это предположение ошибочно и контрпродуктивно.

В чём ошибка

Авторское право всегда применялось только к интеллектуальным творениям, а где нет творца — нет и произведений. Это значит, что машинно генерируемый код — вроде того, что выдаёт Copilot, — вообще не является произведением по закону об авторском праве. А потому не может быть и производным произведением. Творения машины не подлежат защите со стороны авторского права — они являются общественным достоянием.

И это хорошая новость для борцов за открытость, а не то, с чем следует бороться.

В чём контрпродуктивность

Те, кто приравнивает подсказки Copilot к производному произведению, возможно, надеются, что GitHub одумается — и решит размещать результирующий код под GPL.

Сторонники свободного ПО напуганы до такой степени, что готовы защищать мелочный и жёсткий копирайт. У них попросту сносит крышу — и потому не получается трезво оценить последствия. Например, то, что любые результаты работы ИИ можно будет защитить по закону.

И что тогда помешает, скажем, музыкальному лейблу обучить ИИ на своём каталоге музыки: пусть день и ночь генерирует всевозможные мелодии, а результаты потом запретят использовать третьим лицам?

Что помешает издателям статей и книг бесконечно генерировать фразы и предложения — и в конце концов приватизировать сам язык?

Всемирная организация интеллектуальной собственности (WIPO) уже лоббирует распространение копирайта на произведения, созданные автоматически. Центральный вопрос обсуждений: «Требуется ли менять нынешнюю систему интеллектуальной собственности, чтобы обеспечить равнозначную защиту произведениям и изобретениям, которые создают машины».

Это интересно!

Пока одни думают, другие делают. Недавно «Сбер» зарегистрировал программу, написанную с помощью искусственного интеллекта. Приложение называется Artificial Vision («Искусственное зрение»).

Это первый такой случай в России. В авторах пока что числится не машина, а разработчики «Сбера» — именно они натренировали нейросеть и обучили языкам программирования, а та написала софт для распознавания зрительных образов.

Подытожим

Если сторонники жёсткого копирайта выиграют, то в дамках окажутся технологические гиганты вроде Microsoft. Просто потому, что крупным корпорациям легче разрабатывать и масштабировать ИИ-приложения. Так что лучше бы критикам GitHub Copilot не играть им на руку.