Инженер NVIDIA — о будущем нейросетей, беспилотных авто и зарплатах в IT
Нужны ли законы об ИИ? Когда нейросеть снимет кино? Как сделать из «Жигулей» беспилотник? Объясняет deep-learning-инженер NVIDIA Дмитрий Коробченко.
: пресс-служба google
Что не так с искусственным интеллектом
— Существует мнение, что искусственный интеллект — это термин для презентаций. Звучит красиво, но нет точного определения. Как бы вы определили ИИ?
— Этот термин очень быстро меняет значение. В разные периоды так называли разное. До появления нейронных сетей под искусственным интеллектом подразумевали какое-то подобие естественного человеческого интеллекта. Потом появились нейронные сети, они показали классные результаты, и все сказали: «Круто! Действительно распознаёт картинки как человек, давайте называть это искусственным интеллектом».
Позже пришло осознание, что алгоритмы, машинное обучение и нейронные сети — это всё ещё далеко от человеческого разума, и в профессиональном сообществе словосочетание «искусственный интеллект» превратилось в buzzword. Его активно использовали в рекламе, в научпопе и в презентациях для инвесторов.
Но сейчас, мне кажется, все уже более-менее привыкли отождествлять искусственный интеллект с конкретным набором алгоритмов. Прежде всего, это нейронные сети, машинное обучение и всё, что с этим связано. Но понятно, что это не тот ИИ, о котором человечество мечтало 20 лет назад. Для того, более мощного искусственного интеллекта придумали специальный отдельный термин AGI — artificial general intelligence. То есть общий искусственный интеллект. А его противоположность иногда называют «узким» ИИ — artificial narrow intelligence (ANI).
— А что такое общий искусственный интеллект?
— На сегодняшний день у нас есть только интеллектуальные алгоритмы, которые решают какие-то специфические узкопрофильные задачи. Например, классифицируют изображения, пишут текст, создают картинки. А идея artificial general intelligence в том, что ИИ будет справляться с разными задачами из разных областей. При этом сам он будет единым — не отдельная нейросеть для картинок, отдельная — для текстов, а некий универсальный алгоритм.
Представьте, что у вас есть картинка. И вы хотите задать ИИ вопрос на естественном языке: «Сколько котиков на этой картинке?» Алгоритм должен понять, что изображено на картинке, и распознать то, что мы попросили найти. Я даже не говорю о распознавании звуков — это и так понятно. Ему нужно понять смысл сказанного, а потом ещё сгенерировать ответ на естественном языке, например на русском или английском. Пока в мире нет единой универсальной нейронной сети, которая могла бы решать такие задачи, AGI как раз сможет это делать.
Правда, неясно, нужен ли нам AGI. Если мы просто хотим создать интеллект, подобный человеческому мозгу, — это одна история. А если он нам нужен для решения конкретных задач, то, может быть, достаточно будет «узкого» ANI, способного с ними справиться? Некоторые исследователи считают, что в AGI нет практического смысла.
«Тогда это ещё не было мейнстримом» — как хайп изменил нейросети
— Почему вы решили заниматься нейросетями? В какой момент это произошло?
— Дело в том, что нейросети связаны с областью под названием «компьютерное зрение». Она включает в себя, например, распознавание котиков и обработку картинок. Мне ещё в университете было интересно заниматься распознаванием изображений.
В 2011 году я выпустился и стал искать работу, связанную с компьютерным зрением. Поработал чуть-чуть в IBM не по специальности, а потом мне повезло попасть в Samsung на проект по обработке медицинских изображений. Мой тимлид был фанатом нейронных сетей, и он решил применить их в этом проекте.
Тогда это не было мейнстримом, нейросети ещё не выстрелили. Многие говорили про них: «Что это вообще такое? Зачем они нам нужны? Это неинтересно». Вот в этот момент мне удалось с ними познакомиться.
А потом внезапно на конкурсе по распознаванию изображений ImageNet впервые победил алгоритм на основе нейронных сетей. И все сразу ими заинтересовались.
У меня уже было базовое представление о том, как работать с нейросетями, был опыт. Поэтому я стал развиваться в этой области, «варился» во всём этом, следил за новыми проектами.
— Каким было самое необычное применение нейросетей, с которым вы сталкивались?
— Всё зависит от момента. То, что сейчас кажется обычным, ещё несколько лет назад вызывало реакцию: «Что?! Нейронные сети можно для этого применять? Ничего себе!»
Когда мы в Samsung только создавали сеть для обработки медицинских изображений, нейросети почти не применяли в компьютерном зрении, а в медицине и подавно. Представьте, что у вас есть трёхмерный МРТ-снимок мозга или грудной клетки. На нём нужно найти ключевые анатомические точки, чтобы через них провести двумерное сечение. Это необходимо для постановки диагноза, врач ведь не может посмотреть трёхмерный снимок из-за специфики медицинского оборудования. А применение компьютерного зрения существенно ускоряет процесс МРТ-исследования.
Тогда это было в новинку. Максимум, что делали с медицинскими снимками, — обрабатывали их на компьютере, повышали контрастность, например. Использовать нейросети для поиска ключевых точек — это было что-то запредельное. Но уже через год-два опубликовали «миллион» статей на эту тему.
Ещё один пример необычного применения. Нейросети изначально использовали для распознавания, а в 2015-м произошёл перелом, и их стали применять для синтеза. То есть с помощью нейронных сетей начали создавать изображения. Это вызывало реакцию вроде: «Зачем? Давайте для этого другой алгоритм изобретём. Это как использовать кочергу, чтобы мешать борщ. Может, для этого лучше ложку придумать?» Но потом оказалось, что нейросети хороши и в синтезе.
Сейчас вау-эффект создаёт уже не использование нейросети в новой области или для решения новой задачи, а качество работы этой сети. Если раньше алгоритмы генерировали что-то такое, что легко было отличить на глаз от созданного человеком или природой, то сейчас легко ошибиться.
Мне кажется, чем дальше, тем сложнее кого-то удивить. Если выпустить фейковую статью с названием «Искусственный интеллект сделал вот это» — хотя это ещё невозможно, — никто не удивится, потому что кажется, что ему всё под силу. Наверное, только когда напишут, что искусственный интеллект решил все проблемы человечества, люди удивятся. Хотя кто-то разочарованно скажет: «Окей, а я думал, это уже год назад сделали».
Как объяснять сложные вещи и на кого учиться: советует препод
— Вы преподаёте на курсе Skillbox и ведёте просветительский YouTube-канал про нейросети. Как так вышло, что вы решили учить? С чего всё началось?
Когда я только познакомился с нейронными сетями, начал рассказывать про них друзьям и знакомым. Им понравилось, так что на встречах друзей и друзей друзей я стал читать мини-лекции. Это постепенно переросло в выступления на конференциях. Выступлений становилось всё больше: люди знакомились с этой областью, и им нужна была информация.
К тому же мне всегда нравилось делать визуальный контент. Я люблю не просто о чём-то рассказывать, а заморочиться с презентацией, нарисовать красивые картинки. Мне нравится сам процесс создания чего-то наглядного. И в итоге эти две вещи соединились в моих выступлениях. В какой-то момент Skillbox предложил мне поучаствовать в создании курса. Я согласился, для меня это был интересный новый опыт.
С каналом отдельная, параллельная история. Я давно увлекаюсь созданием видео и графики. В YouTube-канале самое ценное — то, что меня никто не ограничивает. Вот сегодня я хочу о чём-то рассказать и записываю ролик.
— Поделитесь лайфхаками: как сделать рассказ о сложных вещах вроде глубокого обучения интересным?
— Прежде всего, нужна качественная визуализация. Если стоит выбор между слайдом с кучей текста и слайдом с одной красивой картинкой, на которую смотришь и сразу всё понимаешь, я выберу второе.
Но сложную вещь нельзя сразу нарисовать полностью во всех деталях. Нужно её немного упростить, создать картинку, а потом уже с этой картинкой рассказывать о каких-то нюансах, которые, возможно, на ней не изображены.
При этом важно не переборщить с упрощением. Например, если вы нарисуете коробочку с надписью «Алгоритм», понятнее не станет. Но если рисунок перегружен деталями, зритель просто не поймёт, куда смотреть. Идеальный уровень детализации — люди посмотрели и в целом поняли мою мысль. А потом они уже задают вопросы вроде: «А стрелочка в левом углу что обозначает?»
Говорят, что DS-инженеры получают 300 килорублей в секунду. Это правда, и это не изменится ни через три года, ни через пять лет.
— Как вы считаете, чему стоит учиться сейчас, чтобы хорошо зарабатывать в IT через три-пять лет?
— Я бы выделил два направления. Первое — data science. Даже если вы хотите программировать на каком-то одном языке, всё равно нужно иметь представление об этой области. Например, если вы занимаетесь разработкой продукта, то, скорее всего, в нём есть составляющая data science и вам нужно хоть немного разбираться в ней, чтобы взаимодействовать с другими членами команды.
Говорят, что DS-инженеры получают 300 килорублей в секунду. Это правда, и это не изменится ни через три года, ни через пять лет. Это правда, и это не изменится ни через три года, ни через пять лет. Наоборот, всё больше разработчиков, не связанных с data science, переходят во что-то, что связано с этой областью.
Второе направление, которое я бы рекомендовал, — это fullstack. В data science есть два направления: исследовательское и то, что ближе к «боевой» разработке реального продукта. Fullstack — это и то, и другое. Когда я провожу собеседования, то отдаю приоритет тем, кто в состоянии прожить весь цикл разработки начиная от исследований и заканчивая созданием прототипа, подготовкой кода для внедрения. Не факт, что человеку придётся всё это делать, но важно, чтобы он в любой момент мог включиться в этот процесс и помочь.
Искусственный интеллект по правилам и без
— Сейчас в Евросоюзе, США и России появляются предложения законодательно ограничить использование ИИ там, где его ошибки могут сильно навредить людям. Например, в сфере найма персонала и в оборонной отрасли. Что вы об этом думаете? Насколько это оправдано?
— Регулирование любой новой технологии — вещь оправданная. Когда появляется что-то новое, с чем люди раньше не сталкивались, нужны новые правила игры. Вспомним о распространении автомобилей. Понятно, что если они появились, то нужны и правила дорожного движения. Соответственно, раз появились новые алгоритмы, то нам нужны правила регулирования. Иначе получится, что кто как хочет, тот так и ездит.
Но конкретные инициативы я прокомментировать не готов. Кажется, они ещё на ранних этапах, нужно накопить опыт. Тяжело сразу взять и правильно всё отрегулировать. Во-первых, область новая. Во-вторых, она быстро меняется. Мы можем столкнуться с тем, что регулирование будет не успевать за прогрессом и даже в чём-то его сдерживать. Но это не значит, что можно оставить процесс без контроля.
Нейросеть-режиссёр и мозг без изъянов
Представьте, вы просто загружаете сценарий в нейросеть, а она выдаёт готовый фильм. Можно даже сценарий не писать, а просто обозначить, что должно происходить в фильме и сколько миллионов долларов надо собрать в прокате.
— Как вы видите будущее ИИ? Какие сдвиги произойдут в ближайшие три года, пять, десять лет? А чего точно не будет?
— Скажу о том, что точно будет. Есть области, где нейросети работают более или менее хорошо, но не на 100%. Например, они ошибаются только в редких случаях. Грубо говоря, 99% котиков распознают, а 1% — с трудом. Или автопилот в машине пока ещё не всё на свете видел и не со всеми ситуациями на дороге сталкивался. А нам хотелось бы, чтобы он хорошо справлялся даже с оставшимся 1% случаев.
В ближайшие годы качество работы алгоритмов будет повышаться благодаря обработке большего объёма данных. А ещё благодаря изобретению принципиально новых подходов. Я думаю, что через три-пять лет появятся архитектурные решения, которые помогут нейросетям справиться с тем 1% случаев, который сейчас им не по силам.
Второе. Вырастет качество синтеза. Ещё недавно нейросети генерировали картинки низкого качества. Сегодня они создают изображения, которые не отличить от реальных. Зайдите на сайт thispersondoesnotexist.com — и увидите созданные нейросетью фото несуществующих людей в высоком разрешении. Сегодня мы уже близки к тому, чтобы синтезировать осмысленные и продолжительные кусочки видео. Возможно, через несколько лет нейросети смогут «снимать» целые фильмы.
Представьте, вы просто загружаете сценарий в нейросеть, а она выдаёт готовый фильм. Можно даже сценарий не писать, а просто обозначить, что должно происходить в фильме и сколько миллионов долларов надо собрать в прокате. Пусть алгоритм сам пишет сценарий. Потом этот сценарий можно загрузить в следующую нейронную сеть, а она уже синтезирует фильм.
И это точно ещё не всё, что нас ждёт. Иногда говорят, что развитие ИИ упирается в какой-то потолок, я пока что этого потолка не чувствую. Кажется, прирост инноваций в этой области идёт если не по экспоненте, то по крайней мере линейно.
— Как вы относитесь к Джеффу Хоккинсу и его теории тысячи мозгов? Справедливо ли он критикует современный подход к ИИ?
— Я считаю, что надо прежде всего ответить на вопрос: а нужно ли нам создавать нечто, что работает так же, как человеческий мозг? Мы хотим решить какую-то конкретную задачу или просто создать такой искусственный интеллект ради того, чтобы он был?
Если мы выбираем первый вариант, то, возможно, и не нужно воспроизводить принцип работы человеческого мозга. Можно даже сделать так, чтобы в чём-то искусственный интеллект был лучше естественного. У человеческого интеллекта есть изъяны. Зачем переносить их в искусственный?
Но при этом для улучшения качества работы ИИ всё же важно изучать, как работает человеческий мозг. Мы можем подглядеть там что-то и применить потом в алгоритме.
У этого подхода есть очевидный сдерживающий фактор — деньги. Искусственный интеллект уже приносит миллиарды. Поэтому, если вы скажете: «А давайте будем заниматься чем-то совершенно экспериментальным», с точки зрения бизнеса будет непонятно, взлетит это или не взлетит. Намного выгоднее бросить все ресурсы на развитие технологий, которые уже обкатаны и приносят прибыль.
Именно поэтому сейчас рок-звёзды искусственного интеллекта уходят из университетов в крупные компании — Facebook*, Google, Apple — и работают там над задачами, которые важны здесь и сейчас, а не над тем, что может выстрелить в отдалённой перспективе.
Если я вас спрошу, в каком году родился Иван Грозный, то вы, скорее всего, зайдёте в Google, посмотрите, узнаете и назовёте мне ответ. Этот ответ будет результатом работы дополненного интеллекта.
— В недавнем видео Даниэль Канеман, известный психолог и основоположник поведенческой экономики, высказал мысль о том, что уже в течение ближайших ста лет человечество эволюционирует до неузнаваемости с помощью неорганических способов, а решения будут приниматься алгоритмически. Что вы думаете по этому поводу? Какова может быть роль ИИ в этом процессе?
— В каком-то смысле мы уже встали на этот путь. Я имею в виду дополненный интеллект — augmented intelligence. Смысл в том, что даже сейчас люди мало что делают, опираясь исключительно на свой интеллект. Многие решения мы принимаем с помощью композитного интеллекта — это, например, человеческий мозг плюс смартфон. Например, если я вас спрошу, в каком году родился Иван Грозный, то вы, скорее всего, зайдёте в Google, посмотрите, узнаете и назовёте мне ответ. Этот ответ будет результатом работы дополненного интеллекта — мозг плюс интернет. Если к этому добавить ИИ, то мы получим новый вектор развития.
Последние релизы NVIDIA: Google Docs для художников и беспилотные машины для всех
— Недавно прошла конференция, на которой NVIDIA представила несколько десятков новых проектов. Расскажите подробнее про один из них, Omniverse. Что это?
— Изначально идея Omniverse была следующей: сделать что-то вроде Google Docs для создателей контента. Представьте, что вы рисуете игру или фильм. Вы анимируете каких-то персонажей, и у вас есть, во-первых, команда, распределённая по разным частям света. А во-вторых, каждый работает в своей программе, и в какой-то момент все наработки нужно соединить. С помощью Omniverse это можно сделать в режиме реального времени.
— Такого сейчас ни у кого нет?
— Нет. Представьте времена до Google Docs, когда вы редактировали документы в Word и пересылали их по почте. Примерно так сейчас работает индустрия создания контента. Есть надежда, что крупные компании, такие как Disney, например, внедрят Omniverse в свою работу и помогут адаптировать его для других пользователей.
— Эти компании уже сейчас работают с Omniverse или с какой-то его частью?
— Они early adopters, то есть пользователи, с которыми у нас есть определённые договорённости. Это наши партнёры. Они тестируют Omniverse, дают нам фидбэк, мы его оцениваем и что-то меняем.
— А среди российских компаний есть early adopters?
— Насколько я знаю, нет. Но мы только что анонсировали открытую бета-версию. То есть кто угодно может прийти на сайт, зарегистрироваться, скачать её и протестировать.
— На презентации много говорили о попытках NVIDIA создать экосистему вокруг умного автомобиля. Чем она отличается от того, что предлагают конкуренты?
— Мы не делаем своих автомобилей, зато создаём технологию, которая позволит нашим партнёрам улучшить свои автомобили, внедрив ИИ и автопилот. Например, NVIDIA заключила такое партнёрство с Mercedes-Benz. Мы предоставляем партнёрам прежде всего ПО на основе искусственного интеллекта. Оно выполняет функции автопилота: распознавание, планирование маршрута, перестроение, «знает», что делать в тех или иных ситуациях.
Если вы хотите прямо завтра из своих «Жигулей» сделать беспилотный автомобиль, мы подскажем, что для этого нужно, какие сенсоры купить, куда их поставить и как всё подключить.
Кроме этого, у нас есть разработка по созданию процессора, на котором всё это считается. Специальный процессор для автомобилей. Есть рекомендации. Если вы хотите прямо завтра из своих «Жигулей» сделать беспилотный автомобиль, мы подскажем, что для этого нужно, какие сенсоры купить, куда их поставить и как всё подключить.
То есть мы предлагаем некий набор — от железа до софта, — используя который, можно любой автомобиль превратить в автопилот. У наших партнёров есть выбор: можно взять весь этот набор или какую-то его часть. Например, вы берёте процессор NVIDIA, а софт у вас свой. Либо наоборот.
Это доступно всем участникам соответствующей программы. Чтобы к ней подключиться, нужно зарегистрироваться и подписать несколько соглашений. Я знаю, что в России есть несколько компаний, которые занимаются беспилотными автомобилями и участвуют в этой программе.
— Как вы думаете, когда беспилотные автомобили станут привычной частью пейзажа и никто не будет им удивляться?
— Зависит от локации. Сложно загадывать, потому что непонятно, в какой стране власти раньше разрешат массовое использование беспилотных машин.
Скорее всего, внедрение начнётся не в мегаполисах, а в небольших тихих городах. Обычно именно в них тестируют подобные разработки. Если взять такое место, то, я думаю, лет через пять там уже никто не будет удивляться беспилотному автомобилю.