Код
#статьи

Будь моими глазами: как GPT-4 и другие нейросети помогают слепым и слабовидящим

Умные очки, миниатюрные камеры и приложения для смартфонов, которые пытаются заменить трости и собак-поводырей.

Фото: Envision

ИИ-технологии используются не только для развлечений. Они помогают писать код, ставить диагнозы по рентгеновским снимкам и следят за посевами фермеров. Но это не всё. Сегодня нейросети используют для создания ассистентов, которые помогают жить слепым и слабовидящим.

Машинное зрение, основанное на нейросетях, способно распознавать тексты, объекты и лица, а затем переводить информацию в формат, подходящий для незрячих людей. Например, озвучивать её или передавать в виде вибраций. Из этой статьи вы узнаете о популярных приложениях и гаджетах для слабовидящих и слепых и о том, можно ли с их помощью заменить человеческие глаза.

Seeing AI: «говорящая камера» от Microsoft

Проект Microsoft Seeing AI был первым успешным мобильным приложением для людей с нарушениями зрения. Программа, выпущенная семь лет назад, до сих пор обновляется и пользуется популярностью у пользователей.

Что умеет делать Seeing AI? Приложение при включении камеры распознаёт и озвучивает:

  • Информацию об окружающих предметах: их расположение, размеры и другие особенности.
  • Данные о людях. Оно может подсказать их пол, приблизительный возраст, совершаемые действия и выражения лиц. Если контакт человека сохранён в телефоне с фотографиями, то приложение назовёт его имя.
  • Текст, в том числе в рукописных или напечатанных документах.
  • Названия продуктов, которые определяет по штрихкодам.
  • Цвета предметов и яркость освещения.
  • Номинал бумажных денег.

Программа может работать с фотографиями и изображениями, рассказывая пользователю об их содержании. Можно сказать, что функции Seeing AI легли в основу всех приложений аналогов, о которых мы поговорим дальше.

Возможности приложения Seeing AI
Источник: Microsoft

Почему Seeing AI стало успешным? Одна из причин — в команде приложения есть незрячие программисты, которые лучше других понимают потребности слепых людей. Например, команду разработчиков курирует инженер-программист Сакиб Шейх, который потерял зрение в возрасте семи лет.

Сакиб много лет мечтал об умной «говорящей камере», которая могла бы описывать словами то, что его окружает. Поскольку таких решений не было, он выучился на разработчика и решил самостоятельно создать такую программу.

Шейх устроился на работу в Microsoft в 2006 году. Сначала он помогал компании совершенствовать ИИ-сервисы: голосовой помощник Cortana и интернет-поисковик Bing. В середине 2010-х смартфоны стали набирать популярность, а технологии компьютерного зрения достигли нужного уровня, чтобы с их помощью можно было создать рабочий вариант «говорящей камеры».

В то же время, Microsoft организовала хакатон Deep Vision для поиска лучших разработчиков в области машинного обучения и компьютерного зрения. В нём приняли участие более 13 тысяч человек со всего мира. Четверо из них получили работу в корпорации и стали частью команды Сакиба Шейха.

«Впервые я задумался об этом проекте, когда учился в университете. Во время обсуждения новых идей в общежитии я сказал „Мы должны сделать очки с камерой, которая могла бы смотреть на мир вокруг нас и описывать его вслух“. Тогда уровень технологий не позволял этого сделать.

Но в 2014 году у нас в Microsoft прошёл первый хакатон. И я снова вернулся к этой идее и предложил её для участников соревнования. Первые прототипы, которые удалось создать, были примитивными. Они с трудом проводили распознавание лиц и слабо справлялись с другими простейшими функциями. Но затем мы объединили усилия с лучшими учёными исследовательского отдела корпорации.

Технологии и алгоритмы глубокого обучения, а также облачные вычисления постоянно совершенствовались. В конце концов мы добились того, чтобы программа смогла описывать то, что запечатлено на фотографии. Это был настоящий прорыв».

Сакиб Шейх,
инженер-программист Microsoft, руководитель проекта Seeing AI

Генеральный директор Microsoft Сатья Наделла и инженер-программист Сакиб Шейх представляют прототип Seeing AI на конференции Build 2016
Источник: Microsoft Research

Рабочий вариант Seeing AI был создан в 2016 году, а публичный релиз приложения для iOS состоялся в июле 2017 года. Только за первые полгода после публикации программа помогла людям с нарушениями зрения выполнить более трёх миллионов различных задач.

Сейчас Seeing AI работает на базе Azure Cognitive Services, которая обеспечивает текстовое объяснение изображений и их чтение вслух. В 2021 году алгоритмы приложения обновили с помощью технологии Visual Vocabulary (VIVO), основанной на модели нейросетей Transformer.

В результате новая версия программы на изображениях из тестового набора nocaps показала результат в два раза лучше, чем предыдущая. Теперь Seeing AI не просто озвучивало, какие предметы находятся перед камерой смартфона, например: «Человек и кошка», но и объясняла, как они взаимодействуют между собой, например: «Человек гладит кошку».

Разработка была отмечена несколькими наградами, в том числе престижной премией Хелен Келлер от Американского фонда помощи слепым, общество слепых и слабовидящих пользователей продуктов Apple три года подряд (с 2017-го по 2019-й) года признавало Seeing AI лучшим приложением.

«Обнаружение дверей» в смартфонах Apple

Компания Apple в 2022 году встроила в свои новые гаджеты интересную функцию — Door Detection («Обнаружение дверей»). Эта фича, как следует из названия, предназначена для помощи слабовидящим и незрячим владельцам гаджетов при поиске входа и выхода из помещений или зданий. Она является частью стандартного яблочного приложения «Лупа» для iOS версии 16 и выше.

Программа, основанная на машинном обучении, обнаруживает на изображениях, получаемых с помощью камеры смартфона, дверные проёмы. Но это не всё. Door Detection определяет расстояние до двери, её положение — закрыта или открыта, и может давать голосовые подсказки о том, как её следует открывать: потянуть за ручку, толкнуть от себя и так далее.

Для определения расстояния приложение использует датчик LiDAR, которым оснащаются флагманы Apple начиная с модели 12 Pro. Поэтому владельцам старых смартфонов функция Door Detection недоступна.

Кроме обнаружения дверей, в яблочной «Лупе» можно активировать функции распознавания текста, описания окружающих объектов и обнаружения людей поблизости.

Обзор функции Door Detection от незрячего пользователя Питера Хейтона
Источник: Thomas Pocklington Trust

Lookout и Lens: приложения-помощники от Google

Seeing AI и Door Detection доступны только на iOS, но у владельцев смартфонов на Android есть альтернативы со схожими функциями.

Например, компания Google с 2018 года предлагает бесплатное приложение Lookout — Assisted vision, помогающее слепым и слабовидящим. Оно с помощью алгоритмов компьютерного зрения описывает голосом информацию об окружающем мире.

Помимо этого, приложение умеет распознавать тексты, номинал денежных купюр и определять товары по штрихкодам на упаковке. Работает Lookout без доступа к интернету, выполняя все операции на смартфоне пользователя.

Приложение уже скачали более 100 тысяч раз. При его создании программисты Google консультировались с Американским обществом слепых, члены которого активно используют Lookout в своей жизни.

Обзор приложения Google Lookout от Школы Северной Дакоты для слепых
Источник: North Dakota School for the Blind

В одной из публикаций слабовидящая блогерка Вероника Льюис рассказывает, что использует вместе с Lookout два другие приложения компании Google на своём смартфоне во время путешествий: Assistant («Ассистент») и Lens («Объектив»).

Google-ассистент понимает голосовые команды, выдаёт подсказки на основе интернет-поиска и открывает нужные приложения по запросу. Lens в свою очередь переводит тексты с иностранных языков и может искать схожие изображения в интернете.

Продвинутые алгоритмы визуального поиска Google Lens помогают пользователю с нарушениями зрения уточнить особенности находящихся перед ним предметов. Например, определить вид растения или породу собаки.

«В чём разница между приложениями Lens и Lookout от Google? Lens больше похоже на фотоаппарат, так как пользователь должен нажать кнопку, чтобы получить информацию об объекте, в то время как Lookout больше похоже на видеокамеру, которая постоянно выдаёт информацию об окружающих предметах и произносит описания вслух. У меня загружены оба приложения, хотя я чаще использую Google Lens».

Вероника Льюис,
автор блога Veronica With Four Eyes

К сожалению, пользователи из России не могут полноценно пользоваться приложением Lookout, так как оно не переведено на русский язык. И если эту проблему можно решить за счёт знания английского или другого языка, то функции распознавания денежных купюр и штрихкодов продуктов для россиян точно окажутся бесполезными.

Полезные ИИ-приложения для слепых и слабовидящих

Помимо Seeing AI и Lookout, людям с нарушениями зрения доступны и другие приложения с ИИ, способные повысить комфортность их жизни. Расскажем о самых популярных среди них.

Envision AI

Одно из самых скачиваемых в мире мобильных ИИ-приложений для людей с нарушениями зрения. Доступно бесплатно для Android и iOS. Поддерживает русский и ещё более 60 языков.

Разработчик пишет об Envision AI как о «самом быстром и самом надёжном приложении для оптического распознавания». И это не пустые слова. В 2022 году программа получила награду Общества слепых и слабовидящих пользователей продуктов Apple.

Envision AI может распознавать и озвучивать тексты, документы, электронные книги, определять продукты по штрихкодам, описывать изображения, идентифицировать цвета, «узнавать» лица людей из списка контактов. Из недостатков можно отметить отсутствие функции определения номиналов денежных банкнот, а также то, что приложение не работает автономно без доступа к интернету.

Sullivan+

Ещё одна программа с аналогичным набором функций от южнокорейской фирмы TUAT, специализирующейся на разработке программ с нейросетями. Sullivan+ — это бесплатное приложение для Android и iOS с поддержкой русского языка. Оно выдаёт точные и подробные описания объектов, попадающих в объектив камеры смартфона. В 2020 году приложение стало победителем премии GLOMO (Global Mobile Awards) в номинации «Лучшая мобильная инновация для обеспечения доступности и инклюзивности».

В линейке продуктов TUAT для слепых можно найти «облегчённые» варианты приложения Sullivan+ с меньшим набором функций, предназначенные для гаджетов со скромными аппаратными возможностями: Sullivan Lite и Sullivan A. Последний работает только с чтением документов.

Но есть и недостатки. Sullivan+ работает только при наличии подключения к интернету и не умеет распознавать штрихкоды продуктов и номинал денежных купюр.

Обзор приложения Sullivan+
Источник: Henshaws

Supersense — AI for Blind

Разработка дочернего ИИ-стартапа Массачусетского технологического института (MIT), знаменитого своими инновациями. Приложение работает без подключения к интернету, имеет русскоязычную версию и доступно пользователям Android и iOS. Обладает всеми функциями конкурентов — от чтения штрихкодов на продуктах в супермаркете до чтения рукописного текста. Но многие из них доступны только в платной версии.

AudiVision

Бесплатное приложение от одноимённого стартапа, основанного в 2022 году. Пока что доступна только бета-версия для Android-смартфонов. iOS-вариант разработчики обещают выпустить позже.

Программа поддерживает 12 языков, среди которых нет русского. Все функции работают автономно, без доступа к интернету. Из интересных фич стоит отметить две: Safe street и Expiry date. Первая помогает слепым и слабовидящим ходить по улице, реагируя на приближение пешеходов, а Expiry date определяет срок годности продуктов по маркировке, нанесённой на упаковку.

Обзор приложения AudiVision
Источник: The Blind Life

Cash Reader: определитель купюр

Приложение делает только одно — определяет номинал купюр по их изображению. Зато делает это очень эффективно. Cash Reader имеет русскоязычную версию и способно распознавать банкноты большинства популярных валют, включая рубли. Информация может быть озвучена или передана в виде вибросигналов смартфона.

Cash Reader позволяет конвертировать валюты по актуальному курсу. Большинство функций приложения работают без доступа к интернету. Есть версии программы для Android и iOS. К недостаткам можно отнести то, что приложение платное, хотя есть небольшой пробный период.

Возможности приложения Cash Reader
Источник: Cash Reader

Особый взгляд

Российское приложение, которое помогает людям с нарушениями зрения при просмотре фильмов и другого видеоконтента. «Особый взгляд» выдаёт голосовой тифлокомментарий, автоматически синхронизируемый с видеорядом с помощью ИИ. Программа создана в рамках проекта благотворительного фонда «Искусство, наука и спорт».

«Особый взгляд» работает просто. Перед тем как смотреть фильм, необходимо скачать на смартфон тифлокомментарии к нему. После этого открыть приложение и запустить его. Алгоритмы сами синхронизируют видеоряд и озвучиваемый текст.

Программа бесплатна, доступна для смартфонов на Android и iOS.

GPT-4: «Виртуальный волонтёр»

Все приложения, о которых мы рассказали ранее, работают так, что пользователь не может задать к полученному описанию уточняющие вопросы. Поэтому многие детали предметов или особенности людей остаются неясными.

Новые модели нейросетей, например GPT-4, решают эту проблему. Помимо популярной функции генерации текста модель от OpenAI способна выдавать подробные описания для изображений в режиме диалога с человеком.

Неслучайно возможность опробовать мультимодальные возможности GPT-4 первыми получили именно слепые и слабовидящие люди. Для этого языковую модель интегрировали в приложение Be My Eyes («Будь моими глазами») в рамках функции Virtual Volunteer («Виртуальный волонтёр»).

«Разница между GPT-4 и моделями машинного обучения предыдущего поколения заключается как в возможности вести с ней свободную беседу, так и в значительно возросшем качестве анализа изображений, обеспечиваемом технологией.

Существовавшие ранее приложения для распознавания изображений сообщали только о тех предметах, которые непосредственно находились перед камерой. Они не могли вести диалог, чтобы понять, есть ли в лапше те или иные ингредиенты или представляет ли объект опасность для пользователя, чтобы сообщить об этом».

Джеспер Хвирринг Хенриксен,
технический директор Be My Eyes (цитата: OpenAI)

В базовом варианте приложение Be My Eyes не использует ИИ, а полагается на помощь сотрудников, готовых подключиться по видеосвязи к камере смартфона незрячего пользователя, чтобы ответить на его вопросы об окружающей обстановке. Однако некоторые пользователи испытывают трудности в общении с людьми или вынуждены ждать, пока волонтёр со знанием нужного языка освободится и будет готов помочь.

«Виртуальный волонтёр» на GPT-4 будет доступен круглосуточно, а по качеству ответов, как утверждают разработчики, он сопоставим с обученным сотрудником сервиса. Кроме того, с нейросетью можно поговорить и на отвлечённые темы. Например, направив камеру на открытый холодильник с продуктами, пользователь сможет узнать у программы не только их описание, но и варианты рецептов блюд, которые можно из них приготовить.

Примеры работы функции «Виртуальный волонтёр»: приложение помогает при стирке белья, настройке телевизора и поиске контактов на интернет-страничке
Изображение: Be My Eyes

Virtual Volunteer находится на стадии бета-тестирования и доступна ограниченному числу пользователей из 12 европейских стран. Чтобы её опробовать нужно установить на смартфон приложение Be My Eyes — Android и iOS — и подать заявку на регистрацию в списке ожидания.

Создатели приложения обещают, что со временем доступ к возможностям GPT-4 будет бесплатным для всех пользователей. В случае, если человека не устроит качество работы ИИ, он всегда сможет обратиться к живому оператору.

Слепая журналистка Люси Эдвардс тестирует функцию Virtual Volunteer в приложении Be My Eyes
Источник: GPT-3 Demo

«Благодаря ИИ я могу обойтись без помощи людей. Есть только я и мой телефон, я и технология. Это даёт мне чувство независимости. В некотором смысле это похоже на возвращение моего зрения».

Люси Эдвардс,
журналистка, телеведущая, блогер

Чтобы понять, как будет работать Virtual Volunteer, можно попробовать другой сервис под названием ImageChat, предоставляющий схожий набор функций. Эта программа разработана американской компанией Chooch, специализирующейся на ИИ-продуктах. Она сочетает в себе алгоритмы компьютерного зрения и мощь больших языковых моделей.

ImageChat можно бесплатно установить на смартфоны с Android и iOS, или попробовать в веб-режиме через любой браузер.

ImageChat выдаёт ответы только на английском языке, но «понимает» уточняющие вопросы на русском. Для работы потребуется интернет-соединение. Программа не имеет функции озвучки, поэтому людям со слабым зрением придётся использовать сторонние скринридеры для преобразования текста в речь.

Пример описания изображения, выданного программой ImageChat, с последующим уточнением интересующих пользователя деталей с помощью текстового диалога
Скриншот: ImageChat / Skillbox Media

Умные очки и гаджеты с искусственным интеллектом

Слепым и слабовидящим людям не всегда удобно пользоваться смартфонами. Гаджет необходимо держать в руках, а это ограничивает одновременное использование трости, которая необходима для перемещения в пространстве. Кроме того, камеру телефона нужно ещё навести в правильную сторону, что тоже непросто.

Всё это прекрасно понимал создатель первого приложения для слепых Seeing AI Сакиб Шейх. Изначально он хотел встроить ИИ в оправу очков и даже реализовал это в виде прототипа, созданного на базе умных очков Pivothead SMART. Но проект не взлетел и ему пришлось ограничиться мобильным приложением, разрабатываемым в Microsoft.

Зато эту идею подхватили и смогли довести до реального продукта другие производители. Сегодня на рынке представлено несколько моделей серийных «умных» очков для слепых. В качестве примера можно вспомнить Envision Glasses, созданные компанией — разработчиком популярного мобильного приложения для людей с нарушениями зрения Envision AI.

Расположение основных элементов умных очков для слепых Envision Glasses
Изображение: Envision

Envision Glasses выполняют те же функции, что и приложение Envision AI: распознают предметы и людей, зачитывают текст и так далее. Очки реализованы на базе умного устройства Google Glass, имеют собственную встроенную камеру, динамик, процессор и аккумулятор. Для активации устройства и переключения режимов пользователю необходимо коснуться пальцем сенсорной панели, расположенной на правой дужке.

Основной недостаток гаджета — его стоимость. Версия со всеми функциями обойдётся в 3499 долларов США. Производитель предлагает и более простые варианты с меньшим набором опций под названиями Home Edition и Read Edition. Они стоят 2499 и 1899 долларов соответственно.

Ролик с презентацией возможностей умных очков для слепых Envision Glasses
Источник: Envision

Другой гаджет под названием OrCam MyEye выполнен в компактном и лёгком корпусе, напоминающем по форме флешку. Его масса — всего 22,5 грамма. Устройство можно закрепить на обычных очках или просто держать в руке. Гаджет оснащён камерой на 13 мегапикселей, имеет встроенные элементы LED-подсветки и миниатюрный динамик.

OrCam MyEye изобретён известным израильским учёным и предпринимателем Амноном Шашуа в сотрудничестве со специалистами Еврейского университета в Иерусалиме.

Устройство предлагает стандартный набор функций, характерный для современных гаджетов для незрячих. Оно может читать текст, распознавать лица членов семьи и друзей, идентифицировать продукты по штрихкодам и многое другое.

Из необычного — умный гаджет воспринимает голосовые команды пользователя на 25 языках, включая русский. Также OrCam MyEye с помощью камеры отслеживает указательный палец владельца, озвучивая названия и особенности предметов, на которые он направлен. Именно этот набор функций принёс гаджету престижную награду CES 2022 в области инноваций.

Устройство OrCam MyEye
Изображение: OrCam

Устройство тестировали на выборах в израильский Кнессет в 2019 году. Оно помогло слепым и слабовидящим избирателям проголосовать самостоятельно, без участия ассистентов, сохранив тайну волеизъявления. Гаджет работает автономно, не записывает и не сохраняет звуки и изображения, что подходит для его использования в подобных случаях.

Самый дорогой вариант OrCam MyEye стоит 4250 долларов США. Также есть версия с меньшим набором функций и ценой от 3500 долларов.

Ролик с презентацией возможностей устройства OrCam MyEye
Источник: OrCam

В России существуют свои устройства для людей с нарушениями зрения. Одно из них — гаджет «Робин». Его производит московская организация «Лаборатория „Сенсор-Тех“», известная по бесплатным приложениям для незрячих «Определитель предметов» и «Определитель купюр».

Устройство массой 480 грамм оснащено двумя встроенными видеокамерами, ультразвуковым и лазерным датчиками, светодиодной подсветкой, микрофоном и аккумулятором для автономной работы. Во время использования подключение к интернету не требуется, но возможно сопряжение гаджета со смартфоном через Bluetooth.

«Робин» умеет распознавать лица, предметы, препятствия и определять расстояния до них. Результат озвучивается пользователю в голосовом виде через наушники или с помощью вибросигналов.

Официальный видеообзор умного помощника «Робин»
Источник: Laboratory Sensor-Tech

Отдельное направление ИИ-технологий для слепых — гаджеты для визуального распознавания текстов (OCR) с их голосовой озвучкой. Примерами таких устройств являются сканер SensePlayer от американской компании HIMS и «умный маркер» Scanmarker, позволяющий пользователю построчно читать тексты, водя устройством по листу бумаги.

Гаджеты для визуального распознавания текстов: HIMS SensePlayer (слева) и Scanmarker (справа)
Фото: Sight and Sound / Scanmarker

Подведём итоги: ИИ полезен, но пока не всесилен

Решения на основе нейросетей активно используются для помощи слепым и слабовидящим. Но даже самые продвинутые программы и гаджеты всё же не могут обеспечить качества работы, сопоставимого с такими проверенными средствами, как белая трость, собака-поводырь или сопровождение зрячего человека.

Если внимательно прочесть дисклеймеры всех описанных в этой статье программ и устройств, то мы найдём в них предупреждения о том, что предлагаемые технологии всё ещё несовершенны и являются лишь дополнением к традиционным средствам. Поэтому производители не рекомендуют полагаться только на них.

«Мы сказали бета-тестерам, что программа не заменит белую трость. Она не заменит и собаку-поводыря. Будьте благоразумны и осторожны. Берегите себя».

Майк Бакли,
генеральный директор Be My Eyes

Тем не менее программисты и люди, потерявшие зрение, с большим оптимизмом оценивают перспективы ИИ-технологий в ближайшем будущем. Например, создатель приложения Seeing AI Сакиб Шейх считает, что вскоре каждый человек на Земле будет обеспечен своим личным ИИ-помощником, вне зависимости от того, есть ли у него проблемы со зрением.

«Я оптимистично смотрю в будущее. Думаю, через несколько лет у каждого будет собственный „личный ассистент“ на базе ИИ. Я представляю это так, как будто друг сидит у меня на плече, смотрит вокруг и шепчет подсказки на ухо. Этот ассистент будет знать, что важно для меня и как сказать об этом наиболее подходящим способом.

Это то, к чему мы идём, — маленькие агенты, которые воспринимают мир. Такие помощники будут созданы не только для людей с ограниченными возможностями. Датчики и периферийные вычисления будут поддерживать технологии, которые смогут понимать и объяснять окружающий мир».

Сакиб Шейх,
инженер-программист Microsoft, руководитель проекта Seeing AI

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Изучайте IT на практике — бесплатно

Курсы за 2990 0 р.

Я не знаю, с чего начать
Освойте топовые нейросети за три дня. Бесплатно
Знакомимся с ChatGPT-4, DALLE-3, Midjourney, Stable Diffusion, Gen-2 и нейросетями для создания музыки. Практика в реальном времени. Подробности — по клику.
Узнать больше
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована