Похоже, шутки про «Терминатора» скоро перестанут быть тривиальными: Google выпустил новый ИИ для управления роботами — называется Robotics Transformer 2. Он представляет собой генеративную нейросеть вроде GPT-4, но с возможностью перевода знаний и рассуждений в действия робота.
О возможностях нового ИИ рассказал в своём блоге Винсент Ванхоук, глава отдела робототехники Google DeepMind. Попробуем кратко изложить основные тезисы.
Главная проблема в обучении роботов
Обучить робота сложнее, чем нейросеть, так как он существует в реальном, постоянно изменяющемся, мире. Условно говоря, если чат-боту можно один раз рассказать, что такое яблоко, то робот должен уметь узнавать его в разных условиях — да ещё и отличать его, скажем, от теннисного мячика.
Современные ИИ немного улучшили способность роботов рассуждать и ориентироваться в пространстве, но не слишком. Это всё ещё похоже на игру в испорченный телефон: это как если вы сначала должны подумать о том, что хотите сделать, а потом сообщить об этом остальным частям тела.
Иными словами, компьютерный мозг и система управления движениями существовали на принципиально разных уровнях — но кажется, что новая нейронка от Google решает эту проблему.
Что придумали в Google
RT-2 — это модель «зрения-языка-действия». Это значит, что она умеет превращать в действия всё, чему научилась на открытых данных.
Например, чтобы научить робота старого образца выбрасывать мусор, нужно сначала показать ему, что вообще такое мусор и как его донести до урны. С RT-2 всё по-другому: модель уже знает, как выглядит мусор и как с ним обращаться, из своего обучающего датасета. Поэтому всё, что ей остаётся, — это просто донести свои знания до механического тела.
«Точно так же, как языковые модели обучаются на тексте из интернета для изучения общих идей и концепций, RT-2 передаёт знания из веб-данных, чтобы управлять поведением роботов. <...> Другими словами, RT-2 может говорить с роботом».
Винсент Ванхоук,
глава отдела робототехники Google DeepMind
По словам Ванхоука, новая модель позволяет роботам гораздо быстрее адаптироваться к новым ситуациям и условиям, чем при использовании классического метода обучения. Более того, в непредсказуемых сценариях она работает в два раза быстрее, чем предшественница — модель RT-1.
«Другими словами, с RT-2 на борту роботы могут учиться даже лучше, чем мы, перенося заученные концепции в новые ситуации», — подытожил Ванхоук.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!