Google представил RT‑2 — новый ИИ для управления роботами

Это как если бы ChatGPT научился двигаться и общаться с помощью робота.

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Похоже, шутки про «Терминатора» скоро перестанут быть тривиальными: Google выпустил новый ИИ для управления роботами — называется Robotics Transformer 2. Он представляет собой генеративную нейросеть вроде GPT-4, но с возможностью перевода знаний и рассуждений в действия робота.

О возможностях нового ИИ рассказал в своём блоге Винсент Ванхоук, глава отдела робототехники Google DeepMind. Попробуем кратко изложить основные тезисы.

Главная проблема в обучении роботов

Обучить робота сложнее, чем нейросеть, так как он существует в реальном, постоянно изменяющемся, мире. Условно говоря, если чат-боту можно один раз рассказать, что такое яблоко, то робот должен уметь узнавать его в разных условиях — да ещё и отличать его, скажем, от теннисного мячика.

Современные ИИ немного улучшили способность роботов рассуждать и ориентироваться в пространстве, но не слишком. Это всё ещё похоже на игру в испорченный телефон: это как если вы сначала должны подумать о том, что хотите сделать, а потом сообщить об этом остальным частям тела.

Иными словами, компьютерный мозг и система управления движениями существовали на принципиально разных уровнях — но кажется, что новая нейронка от Google решает эту проблему.

Что придумали в Google

RT-2 — это модель «зрения-языка-действия». Это значит, что она умеет превращать в действия всё, чему научилась на открытых данных.

Например, чтобы научить робота старого образца выбрасывать мусор, нужно сначала показать ему, что вообще такое мусор и как его донести до урны. С RT-2 всё по-другому: модель уже знает, как выглядит мусор и как с ним обращаться, из своего обучающего датасета. Поэтому всё, что ей остаётся, — это просто донести свои знания до механического тела.

«Точно так же, как языковые модели обучаются на тексте из интернета для изучения общих идей и концепций, RT-2 передаёт знания из веб-данных, чтобы управлять поведением роботов. <...> Другими словами, RT-2 может говорить с роботом».

Винсент Ванхоук,
глава отдела робототехники Google DeepMind

По словам Ванхоука, новая модель позволяет роботам гораздо быстрее адаптироваться к новым ситуациям и условиям, чем при использовании классического метода обучения. Более того, в непредсказуемых сценариях она работает в два раза быстрее, чем предшественница — модель RT-1.

«Другими словами, с RT-2 на борту роботы могут учиться даже лучше, чем мы, перенося заученные концепции в новые ситуации», — подытожил Ванхоук.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Читайте также: