Исследователи Массачусетского технологического института представили алгоритм, который позволяет повысить надёжность моделей обучения с подкреплением при решении сложных задач с вариативностью. Он получил название Model-Based Transfer Learning (MBTL). Этот алгоритм выбирает лучшие в стратегическом плане задачи для обучения ИИ-агента, чтобы он мог эффективно выполнять все задания из одного набора.
Как это работает
Модели обучения с подкреплением используют многие современные системы принятия решений ИИ. Но когда они сталкиваются даже с небольшими корректировками задач, такие модели терпят фиаско. Например, при регулировке движения транспорта ИИ-агенту трудно контролировать набор перекрёстков с разными ограничениями скорости, количеством полос и схемами движения.
Алгоритм MBTL, который создали исследователи MIT, позволяет представлять каждый перекрёсток как одну задачу в общем пространстве, куда включены другие перекрёстки в городе. Разработанный метод задействует меньшее количество пересечений по задачам, которые при этом потенциально способствуют повышению эффективности алгоритма. Это также повышает производительность модели и сохраняет низкую стоимость обучения.
По словам исследователей, их метод в 5–50 раз эффективнее стандартных подходов к построению задач. Алгоритм, в свою очередь, быстрее находит лучшее решение, что в итоге повышает производительность ИИ-агента.
«Мы смогли увидеть невероятные улучшения производительности с помощью очень простого алгоритма, думая нестандартно. Алгоритм, который не очень сложен, имеет больше шансов быть принятым сообществом, потому что его легче реализовать и понять другим».
Кэти Ву, доцент Университета Томаса Д. и Вирджинии В. Кэбот
Как создавали алгоритм
Для обучения алгоритма управлению светофорами специалист чаще всего выбирает один из двух подходов. Он может обучить один алгоритм для каждого перекрёстка отдельно и при этом использовать только его данные. Либо специалист может обучить большой алгоритм, используя данные со всех перекрёстков, а затем применить его к каждому из них.
Кэти Ву и её коллеги использовали следующий метод: они выбирают подмножество задач и обучают один алгоритм для каждой задачи отдельно. Параллельно с этим инженеры отбирают отдельные задачи, которые потенциально улучшат общую производительность алгоритма при выполнении всех остальных.
Для определения нужных задач для обучения исследователи разработали алгоритм MBTL, который состоит из двух частей. Сначала он моделирует, насколько хорошо работал бы каждый алгоритм, если бы его обучали одной задаче отдельно. Затем MBTL представляет, насколько может ухудшиться производительность каждого алгоритма, если его перенести на другую задачу.
Работая по такому принципу, алгоритм MBTL способен оценить ценность обучения новой задаче. Причём он делает это последовательно. Сначала MBTL выбирает задачу, которая приводит к высокому приросту производительности, затем подбирает дополнительные, которые могут незначительно улучшить общую производительность.
Применение этого алгоритма позволило исследователям из MIT добиться увеличения эффективности в 5–50 раз по сравнению с другими методами. Стоит отметить, что при повышении эффективности в 50 раз MBTL способен обучаться всего на двух задачах. При этом он достигает той же производительности, что и стандартный метод, который использует данные 100 задач.
В ближайшем будущем команда исследователей хочет разработать алгоритмы MBTL для решения более сложных задач в многомерных пространствах. Кроме того, им интересно применить свой подход к реальным кейсам, в частности это касается мобильных систем следующего поколения.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!