Код
#статьи

История «Яндекса»: от идеи до IT-империи

«Закурить не найдётся?» — «Найдётся всё. Поисковая система „Яндекс“».

Иллюстрация: Оля Ежак для Skillbox Media

Утро многих россиян начинается с проверки «Яндекс Почты», планирования маршрута в «Яндекс Картах» и просмотра «Яндекс Погоды». Дорогу на работу помогает преодолеть «Яндекс Такси» и любимый плейлист в «Яндекс Музыке».

Сложно представить современную жизнь без сервисов «Яндекса». Однако так было не всегда, и в начале существовал лишь один поисковый алгоритм. Впрочем, и он появился не сразу. Сейчас мы расскажем, как всё начиналось.

Содержание

Первые шаги: CompTek, «Аркадия» и гиперинфляция

Основателями будущей самой дорогой компании Рунета были Аркадий Волож и Илья Сегалович. Они познакомились в физико-математической школе в Алматы, Казахстан. В школе они сидели за одной партой, получали одно из лучших образований в Союзе и участвовали в многочисленных олимпиадах. Оба окончили её с золотыми медалями и планировали поступать в МГУ, но им это не удалось:

«Аркаша четко был нацелен на МГУ. Мы все четко понимали, кто куда поступает. Он собирался в МГУ. Они с Ильей вместе поехали. На следующее утро после выпускного вечера мы всем классом поехали провожать тех, кто поступал в Москву, — пошли на аэровокзал их провожать. Мы знали, кто идет, куда идет. Был такой в Союзе момент — „пятая графа“. Думаю, это сыграло. У нас в МГУ поступало четыре человека — два мальчика, две девочки. Безусловно, мальчики были сильнее. Но поступили две девочки. А два мальчика были евреями. Тогда это не педалировалось, но на самом деле было понятно».

Из рассказа одноклассника основателей «Яндекса» Дмитрия Шубина

В 1981 году пути друзей на время разошлись: Волож поступил в Институт нефтехимической и газовой промышленности имени Губкина, а Сегалович — в Московский геологоразведочный институт имени Серго Орджоникидзе (МГРИ).

На фото Аркадий Волож (слева) и Илья Сегалович (в центре) в период обучения в Республиканской физико-математической школе в Алматы
Фотография: «Яндекс»

После окончания института в 1986 году Аркадий Волож работал в Институте проблем управления и занимался исследованиями в сфере обработки больших объёмов данных. В этот период в СССР начали активно развиваться кооперативы, что дало гражданам возможность создавать частные предприятия и управлять ими.

Сначала Аркадий Волож занимался продажей компьютеров в кооперативе «Магистр», где он получил долю, будучи молодым научным сотрудником. Позже он познакомился с американцем Робертом Стабблбайном. Вместе они привезли в Москву первую партию компьютеров на сумму 20 тысяч долларов и основали компанию CompTek.

Волож и Стабблбайн наладили поставки оборудования, занялись автоматизацией рабочих мест на предприятиях и сделали CompTek прибыльной компанией, которая работает по сей день.

В 1990 году в СССР началась эпоха цифровизации и постепенного отказа от бумажных носителей. Документы оцифровывались, но централизованной базы данных с функцией поиска ещё не существовало.

В связи с этим у Аркадия Воложа возникла идея создать компьютерную программу, способную находить информацию в больших текстах с учётом морфологии русского языка. То есть человек мог ввести любое слово и получить результат со всеми его формами. Например, можно было написать слово «читать» и получить такие формы, как «читал», «читающий», «прочитав» и так далее

Для реализации идеи Аркадий Волож привлёк специалиста по компьютерной лингвистике Аркадия Барковского, и вместе они основали компанию «Аркадия».

В 1990 году к проекту присоединился Илья Сегалович, которому Волож предложил должность ведущего разработчика в «Аркадии» и зарплату, значительно превышающую его институтскую.

На фото сотрудники компании «Аркадия» в её первом офисе, расположенном в квартире Аркадия Воложа
Фотография: «Яндекс»

Специалисты компании «Аркадия» в течение двух лет разработали по заказу Центрального научно-исследовательского института патентной информации две поисковые информационные системы: «Международную классификацию изобретений» и «Классификатор товаров и услуг».

Были и другие заказы на подобные программы, которые записывались на дискеты и продавались различным научно-исследовательским институтам и организациям в сфере патентоведения.

«Международная классификация изобретений» — бумажная версия в музее «Яндекса»
Фото: личный архив Марии Толчёновой

Некоторое время спрос на поисковые программы был неплохим, однако в 1992 году ситуация ухудшилась. В России началась гиперинфляция, экономика пошла на спад, многие предприятия закрывались. В таких условиях предприниматели пытались не обанкротиться, и покупка поисковой системы была последним, о чём они думали:

«Основными покупателями патентных программ тогда были бюджетные организации, а в начале 90-х бюджет страны заметно поиздержался, и за наши программы перестали платить. Кроме того, мы поняли, что программы для пользователей — не наш профиль, наше дело — разработка технологий. В результате „Аркадия“ стала маленьким отделом в CompTek. Закрывать фирму нам было жалко, потому что все понимали, что разработки в общем-то уникальные. А зарплата пяти сотрудникам большую компанию, какой являлась CompTek, не разоряла».

Комментарий Аркадия Воложа

Yet ANother inDEXer

В 1993 году «Аркадия» обладала уникальной программой-поисковиком с морфологическим распознаванием запросов. Однако алгоритм обрабатывал всего три слова в секунду, и разработчиков это не устраивало.

Для усовершенствования системы Аркадий Волож приобрёл лицензионный орфографический словарь русского языка, выпущенный Институтом проблем передачи информации (ИППИ РАН) под руководством Юрия Апресяна. После интеграции словаря переработанный алгоритм научился распознавать более 100 тысяч новых слов, а скорость поиска возросла до 1000 слов в секунду.

Илья Сегалович предложил называть новую программу «Yet Another Indexer», что переводится как «ещё один индексатор». Такой выбор связан с традицией пользователей UNIX-систем называть новые продукты оборотом «Yet Another», что означает «ещё один». Это может быть «ещё один» текстовый редактор или «ещё один» почтовый клиент, а в данном случае — «ещё один» поисковик.

Позже название «Yet Another Indexer» сократилось до «Yandex». Однако Аркадий Волож захотел подчеркнуть русское происхождение продукта и заменил первую букву на Я, что привело к появлению названия «Яndex». В 2008 году все латинские буквы были заменены на русские, и компания получила окончательное название «Яндекс».

Для тестирования возможностей поискового алгоритма нужен был большой объём текста, с которым можно работать бесплатно. И в 1994 году Российское библейское общество выпустило оцифрованную версию Библии, на основе которой Волож и Сегалович разработали «Библейский компьютерный справочник» с функцией поиска. Позже они получили заказы на индексирование произведений Пушкина и Грибоедова.

Интерфейс «Библейского компьютерного справочника» в музее «Яндекса». После выхода программа пользовалась популярностью и распространялась на дискетах
Фото: личный архив Марии Толчёновой

Благодаря улучшенному орфографическому словарю, Библии и русским классикам поисковый алгоритм «Яндекса» с каждым годом становился совершеннее. Однако проект по-прежнему оставался убыточным, с редкими продажами. Единственным спасением было финансирование со стороны CompTek, которая активно развивалась и даже стала генеральным дистрибьютором оборудования компании Cisco.

Ситуация усложнялась тем, что с 1994 года в России развивался интернет и увеличивалась конкуренция среди поисковых систем:

  • В 1995 году в Рунете появился американский поисковик AltaVista, который выделялся мощными 64-битными серверами DEC Alpha. Эти серверы позволяли обрабатывать до миллиона запросов в день.
  • В 1996 году начала работу поисковая система «Рамблер», которая сначала использовала вычислительные мощности Курчатовского института атомной энергии, а позже создала собственные серверы.
  • В 1997 году появился «Апорт», который первым в Рунете использовал технологию PageRank для ранжирования страниц в выдаче. «Апорт» функционировал на основе той же технологии, что и Google.

Новые поисковики могли обрабатывать запросы только на английском языке, поэтому Волож и Сегалович разработали надстройку «Яndex.Site». Этот инструмент позволял интегрировать функции поиска «Яндекса» на страницы других сайтов, чтобы пользователи могли находить информацию на русском языке.

Позже они выпустили модуль «Яndex.Dict», предназначенный для морфологического анализа и обработки текстов на русском языке. С этим модулем поисковые системы могли выдавать более релевантные результаты с учётом грамматических особенностей русского языка.

Новые продукты могли значительно улучшить любую поисковую систему, однако они оказались невостребованными и не покрывали даже затраты на производство. Например, компания «Рамблер» не захотела вкладываться в эту технологию и добавлять поиск на русском языке.

Аркадий Волож планировал продать компанию, включая наработки и услуги команды разработчиков, за 15 000 долларов. Однако предложений о покупке не поступило, поскольку цена была сочтена завышенной. Перед Воложем встал выбор: закрыть проект или попытаться привлечь инвестиции и сделать его успешным.

В поисках инвестиций

23 сентября 1997 года компания CompTek поучаствовала в московской выставке Softool и представила широкой аудитории свою поисковую машину. В основе поисковика лежал механизм «Яndex-Web», который индексировал сайты в доменных зонах .su и .ru, а также русскоязычные сайты за пределами России.

«Яndex-Web» работал с логическими операторами И, ИЛИ, НЕ и ежедневно обрабатывал значительный объём данных. В выдаче учитывались не только точные вхождения, но и словоформы, близкие по значению слова, количество упоминаний в тексте и даже расстояние между словами.

Изначально поисковая машина работала на трёх серверах под управлением операционной системы FreeBSD и веб-сервера Apache: один сервер обходил интернет и индексировал документы, второй был поисковым, а третий дублировал поисковый сервер.

Аркадий Волож и Илья Сегалович на выставке Softool в 1997 году
Фото: «Яндекс»
Интерфейс первой поисковой машины «Яndex‑Web», 1997 год
Изображение: «Яндекс»

Вскоре после выставки «Яндекс» внедрил поддержку естественно-языковых запросов, что стало важным шагом в развитии поисковых систем. Этот подход позволил пользователям формулировать запросы так, как если бы они говорили с человеком, без необходимости использовать специальные знаковые системы или думать над «правильными» формулировками.

К 2000 году к «Яndex.Site» и «Яndex.Dict» добавились два новых продукта:

  • «Яndex.CD» — решение для поиска документов на дисках, упрощающее доступ к информации, хранящейся на CD-ROM.
  • «Яndex.Lib» — полнофункциональная библиотека для разработчиков. С помощью «Яndex.Lib» можно было интегрировать функции поиска в различные базы данных и приложения.
Первый сервер «Яндекса» выглядел как обычный персональный компьютер. Он работал на процессоре Pentium II с тактовой частотой 266 МГц и оперативной памятью объёмом 384 МБ. Изначально на нём была установлена ОС FreeBSD, но сейчас в музее он загружается с компакт-диска Windows 3.1 вместе с программой «Поиск по Библии»
Фото: личный архив Марии Толчёновой

Помимо выпуска новых продуктов, в 2000 году Аркадию Воложу удалось найти инвесторов. Поддержать «Яндекс» согласились фонд Ru-Net Holdings Limited и московский инвестиционный банк United Financial Group. В обмен на 5,28 миллиона долларов они получили 35,72% акций компании.

Инвесторы позволили «Яндексу» получить необходимое финансирование и свободу действий. В результате обычный поисковый сайт преобразился в полноценную компанию, в которой Аркадий Волож стал генеральным директором, а Илья Сегалович — директором по технологиям и разработке.

Первым шагом после привлечения инвестиций стало обновление поисковика. Он начал просматривать данные информационных агентств и онлайн-магазинов. Это дало пользователям возможность находить актуальные новости, статьи, товары и многое другое:

«Мы три раза меняли технологию по ходу дела. Мы делали один продукт, и брали на себя все риски, и верили, что оно взлетит. И оно взлетело. А дальше мы к этому, так сказать, летящему самолету прицепили мешок других сервисов, потащили и подняли их и тоже пытаемся их фокусировать и делать интересными.

Главную идею компании мы теперь формулируем так: „‚Яндекс‘ дает ответ“». Мы даем точный и полный ответ, исчерпывающий и уместный в любой среде, в любом окружении: на мобильном устройстве, на iPad, в интернете, на всех платформах, на Nokia, на iPhone, в машине, в телевизоре и так далее. Этот ответ закрывает все информационные потребности пользователя. Это может относиться и к классическому веб-поиску, и к специализированным поискам, которые мы тоже стараемся строить и умеем правильно привязывать к «большому» поиску».

Комментарий Ильи Сегаловича корреспонденту «Эксперта»

Страница Яндекса от 5 апреля 2000 года
Скриншот: «Яндекс»

Также в 2000 году «Яндекс» стал одной из поисковых систем, встроенных в Internet Explorer для русскоязычных пользователей. Это было сделано для улучшения локализации и популяризации продуктов Microsoft в России.

Интерфейс браузера Internet Explorer, позволяющий выбрать «Яндекс» в качестве основной поисковой системы
Скриншот: Internet Explorer / Skillbox Media

Из забавного в этом году стоит вспомнить рекламный ролик с участием Артемия Лебедева, который вышел 21 апреля 2000 года на канале НТВ:

Золотая жила Контекстная реклама и «Яндекс Директ»

В начале двухтысячных поисковая система с быстрым поиском нуждалась в монетизации, и «Яндекс» пробовал развивать новые сервисы. Были созданы «Яндекс Товары», «Яндекс Почта», «Яндекс Новости», «Яндекс Телепрограммы» и бесплатный конструктор сайтов на домене narod.ru.

В этот же период на сайте впервые появилась контекстная реклама, которая отличалась от рекламы в других поисковых системах. Она подбиралась на основе интересов пользователя и не засоряла интернет-страницы раздражающими баннерами.

В 2001 году появился сервис «Яндекс Директ» для автоматизированной закупки контекстной рекламы. Компании получили возможность самостоятельно настраивать рекламу через личный кабинет, отслеживать статистику и корректировать стратегию размещения объявлений.

Сервис быстро стал популярным — за первый год с его помощью разместили рекламу 2500 человек. Для того времени это было значительное число, учитывая, что интернетом пользовались менее 9% россиян.

Рекламодатели поверили в потенциал интернета, что позволило «Яндексу» выйти на самоокупаемость в 2003 году вместо запланированного 2005-го. Вслед за этим акционеры «Яндекса» получили свои первые дивиденды в размере 100 000 долларов, что стало первым подобным событием в русскоязычном интернете.

График роста месячной интернет-аудитории в период с 2004 по 2012 год показывает, что в 2004 году интернетом пользовались чуть больше 10 миллионов человек. Точных данных за 2002 год нет, но, вероятно, пользователей было ещё меньше. Несмотря на небольшое число пользователей, контекстная реклама пользовалась спросом
Инфографика: «Яндекс»

В 2003 году произошло ещё одно важное событие: «Яндекс Директ» перешёл на аукционную модель закупки рекламы. Теперь рекламодатели платили не за показы рекламы, а за клики по объявлениям. Это позволило им контролировать расходы и оценивать эффективность рекламы.

В свою очередь, это стимулировало «Яндекс» к дальнейшему улучшению поисковых алгоритмов, чтобы целевая аудитория получала более релевантные объявления и рекламодатели были довольны результатами.

Интерфейс личного кабинета в «Яндекс Директе»
Скриншот: «Яндекс Директ» / Skillbox Media

В 2005 году была запущена Рекламная сеть Яндекса (РСЯ) — сервис-посредник для рекламодателей и владельцев сайтов. Реклама, которую заказывали в РСЯ, размещалась на сайтах, включённых в сеть, а доходы от рекламы делились. Например, если рекламу показывали на сайте новостей, то доходы от кликов распределялись между «Яндексом» и владельцем этого сайта.

Такая модель была выгодна обеим сторонам: «Яндекс» получал дополнительный доход за размещение рекламы, а владельцы сайтов зарабатывали деньги за предоставление места для объявлений. Это стимулировало их размещать рекламные блоки и увеличивать аудиторию, что способствовало росту интереса к рекламе на платформе.

«Реклама на поисковой машине сегодня считается новой моделью бизнеса в интернете, наряду с электронной коммерцией и традиционной баннерной рекламой. 2/3 своего оборота мы получаем от контекстной рекламы. При этом объемы баннерной рекламы тоже растут. Большое количество клиентов гарантирует независимость „Яндекса“ от небольшого количества крупных рекламодателей. Диверсификация и предсказуемость — основа нашего бизнеса».

Объяснение Аркадия Воложа после запуска «Яндекс Директа»

«Матрикснет», «Толока», YaLM и нейросети

В 2009 году «Яндекс» обновил свой поисковый алгоритм, внедрив новый метод машинного обучения под названием «Матрикснет». Этот метод использует сложные математические модели, учитывающие множество факторов для точного определения наиболее релевантных сайтов.

Процесс можно сравнить с промыванием золота, когда из песка извлекаются крупинки драгоценного металла. В этом случае золотом является внимание пользователя, которого «Матрикснет» защищает от избыточной информации.

Например, если вы ищете «лучшие рестораны в Пекине», алгоритм будет учитывать множество факторов одновременно: тип кухни, рейтинг, отзывы пользователей, местоположение и другие параметры. Если один ресторан имеет высокий рейтинг, но находится далеко от центра города, «Матрикснет» может учесть это и предложить рестораны поближе.

Визуальная демонстрация разницы между «Матрикснетом» и другими методами поиска
Скриншот: «Яндекс» / Skillbox Media

Для достижения таких результатов «Матрикснет» прошёл несколько этапов:

  • Сканирование: поисковые роботы сканировали интернет для поиска релевантных страниц.
  • Оценка: люди-асессоры проверяли эти страницы, оценивая их качество и релевантность запросу.
  • Анализ: роботы анализировали страницы, отобранные асессорами, и присваивали им поисковые индексы.

На финальном этапе алгоритм «Матрикснет» анализировал полученные списки и выявлял важные закономерности, такие как скорость загрузки сайта и плотность ключевых слов. Всё это в совокупности позволило сократить время поиска и повысить точность результатов.

Взаимодействие «Матрикснета» с рекламными технологиями «Яндекса»
Скриншот: «Рекламная сеть Яндекса» / Skillbox Media

После внедрения «Матрикснета» в 2014 году появился краудсорсинговый сервис «Яндекс Толока». Это платформа, где исполнители выполняют различные задания заказчиков за вознаграждение. Заказчиками могут быть как сервисы «Яндекса», так и сторонние компании, которым необходимо собрать или подготовить данные для машинного обучения.

Задания для толокеров могут быть разными: от простой пометки объектов на картинках до поездки в определённое место для фотографирования объектов. Эти задачи помогают улучшать поисковые алгоритмы и развивать сервисы «Яндекса». Например, когда толокеры собирают информацию об улицах, дорожных знаках и разметке, это способствует развитию технологий беспилотного такси.

Основные возможности «Яндекс Толоки»:

  • Оценка качества сайтов и приложений с последующим предложением идей по их улучшению.
  • Разметка данных в различных форматах: изображений, текстов, аудио и видео.
  • Обработка текстов на разных языках для систем автоматического перевода и анализа тональности.
  • Выполнение заданий по проверке фактов для предотвращения распространения ложной информации.

Продвинутый поисковый алгоритм «Матрикснет» и сервис «Яндекс Толока» для разметки больших объёмов данных позволили «Яндексу» в 2016 году разработать модель YaLM 100B. На основе этой модели в 2023 году была создана нейросеть YandexGPT, способная генерировать разнообразные тексты — от стихов и научных работ до коммерческих текстов и шуток.

В версию YandexGPT2 был интегрирован голосовой помощник «Алиса». Третья версия умеет воспринимать естественный язык, поэтому для неё не нужно формулировать сложные запросы. Кроме того, YandexGPT3 умеет анализировать изображения. Нужно только загрузить фотографию и попросить нейросеть описать её содержимое.

YandexGPT3 в действии: ответ на вопрос по изображению
Изображение: freepik / Freepik / «Яндекс Браузер»

YandexGPT3 также умеет одновременно отвечать на несколько вопросов. Например, если вы планируете туристический маршрут по городу и хотите найти хорошие рестораны по пути, нейросеть сможет учесть все эти запросы. Она не ограничивается только данными, заранее загруженными в её систему, а ищет информацию по всему интернету. Это позволяет ей предоставлять актуальные и точные рекомендации.

Чтобы минимизировать ошибки и обеспечить точность ответов, команда разработчиков и AI-тренеров постоянно работает над улучшением и обучением нейросети. Это помогает YandexGPT3 меньше «галлюцинировать» и давать более надёжные и полезные ответы.

Предположим, YandexGPT3 указала, что музей открыт в выходные, хотя на самом деле он закрыт в субботу. Когда разработчики заметят эту ошибку, они обновят данные и скорректируют алгоритм. Поэтому в следующий раз нейросеть подскажет, что музей в субботу закрыт.

Кладбище сервисов и перспективы

В 2024 году «Яндекс» вошёл в 10 самых популярных сайтов мира, а его сервисами пользуется около 100 миллионов человек ежемесячно. За свою историю компания разработала и приобрела множество полезных продуктов, среди которых «Поиск», «Карты», «Погода», «Кинопоиск», «Почта», «Музыка», «Авто.ру» и другие.

Были и неудачные проекты. Рассмотрим некоторые из них:

  • «Яндекс.Пиво» (2001–2004) — сервис описывал сорта пива, рассказывал истории и рекомендовал места для дегустации. Закрылся, поскольку в России люди знают про пиво всё.
  • «Яндекс.WiFi» (2004–2008) — помогал находить точки доступа Wi-Fi, но не работал без интернета.
  • «Яндекс.Персональный поиск» (2005–2007) — десктопная программа для поиска файлов на компьютере.
  • «Яндекс.Нано» (2007–2009) — платформа для экспериментальных идей, из которой выросла «Яндекс.Лента».
  • «Яндекс.Антивирус» (2011–2013) — антивирус от «Касперского», которым мало кто пользовался.
  • «Яндекс.Город» (2014–2016) — сервис для обмена отзывами об организациях и предприятиях.
  • «Яндекс.Ответы» (2009–2010) — попытка создать сервис вопросов и ответов от пользователей.
  • «Яндекс.Кит» (2014–2015) — прошивка для Android, которая не оправдала ожиданий и проиграла конкурентам.
  • «Яндекс.Мастер» (2014–2015) — сервис для поиска мастеров по ремонту.
  • «Яндекс.Прогулки» (2015) — сервис, который анализировал фотографии с геопривязкой и рекомендовал маршруты для прогулок.
Проекты «Яндекса», которые закрылись в период с 2000 по 2018 год
Инфографика: Ольга Аксенова / PromoPult

В отчёте исследователей Epoch AI от ноября 2023 года «Яндекс» назван единственной российской компанией, которая активно развивает технологии искусственного интеллекта. Это особенно касается таких сфер, как распознавание речи и текста, анализ данных, машинное обучение, компьютерное зрение, робототехника и беспилотные автомобили.

Сопоставим два факта: «Яндекс» не боится экспериментировать и вкладывать ресурсы в новые проекты, а также ориентирован на активное развитие искусственного интеллекта. Поэтому в ближайшие годы мы можем ожидать появления множества новых сервисов в этой сфере.

Возможно, «Яндекс» сосредоточится на медицинском обслуживании, новых формах финансового анализа или создании платформ для юристов. Точно сказать трудно, но мы уверены, что многие из этих новых продуктов вскоре станут частью нашей повседневной жизни.

Что дальше

Если вы хотите узнать больше об истории «Яндекса», рекомендуем посмотреть одну из последних лекций Ильи Сегаловича. В ней он почти два часа рассказывает о становлении компании. Качество видео не очень, но на «Хабре» есть текстовая расшифровка:

Из книг рекомендуем почитать «Яндекс Воложа» Владислава Дорофеева и «Яндекс.Книгу» Дмитрия Соколова-Митрича.

Скриншот: Ozon / Skillbox Media

А если вы будете в Москве, Санкт-Петербурге или Белграде, посетите музей «Яндекса».

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Изучайте IT на практике — бесплатно

Курсы за 2990 0 р.

Я не знаю, с чего начать
Научитесь работать с нейросетями — бесплатно!
Большая конференция по ИИ: пять экспертов и 10 нейросетей. Освойте нейросети — работа с ними становится обязательным навыком. Нажмите на баннер, чтобы узнать подробности.
Смотреть программу
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована