Код
#статьи

Нейросеть DeepSeek — что она умеет и почему о ней все говорят

Языковая модель из Поднебесной, которая поставила на уши индустрию.

Иллюстрация: Оля Ежак для Skillbox Media

Китай наносит ответный удар в схватке ИИ: компания DeepSeek выпустила языковую модель, которая сопоставима по возможностям с GPT-o1, но при этом дешевле в разработке и доступна пользователям бесплатно.

После выхода модели DeepSeek-R1 акции американских бигтех-компаний обвалились, а в интернете начали рассуждать о приближающемся господстве китайского ИИ. В этой статье рассказываем про нашумевшую нейросеть — чем она хороша, почему о ней все говорят и как её приручить.

Содержание


Что такое DeepSeek

DeepSeek — большая языковая модель с открытым исходным кодом, которую разработала одноимённая китайская компания при поддержке хедж-фонда High-Flyer. По своим возможностям нейросеть сопоставима с GPT-o1 от OpenAI, а в некоторых бенчмарках решение от китайского стартапа даже превосходит o1.

В январе 2025 года стартап выпустил свою «рассуждающую» языковую модель DeepSeek-R1, и она сразу же вызвала ажиотаж среди разработчиков и пользователей. Китайская нейросеть стоит меньше, у неё открытый код и работает она не хуже закрытых собратьев. А ещё языковая модель доступна в России без ограничений.

Кстати, мы писали про DeepSeek ещё в начале 2024 года в статье про бесплатные аналоги ChatGPT — почитайте, если хотите увидеть полный список потенциальных «убийц» знаменитого чат-бота.

Почему все говорят о DeepSeek

DeepSeek начала исследования в области машинного обучения в 2019 году, но заговорили о ней только спустя шесть лет. Объясняем, почему так произошло.

Тёмная лошадка

До 2025 года про DeepSeek слышали только исследователи и энтузиасты, а из китайских языковых моделей у конкурентов вызывала опасения только Qwen от Alibaba. Никто не ожидал, что клона ChatGPT представит малоизвестный стартап.

Все продукты DeepSeek — сторонние проекты хедж-фонда High-Flyer. В 2015 году его основали выпускники Чжэцзянского университета и сразу начали использовать алгоритмы машинного обучения для анализа фондового рынка. В 2019 году отдел разработки нейросетей выделили в дочернюю компанию High-Flyer AI, а в середине 2023 года её переименовали в DeepSeek и заявили о начале работы над AGI — искусственным интеллектом общего назначения.

В декабре 2024 года компания представила языковую модель DeepSeek-V3 — конкурента GPT-4o и Llama 3.1, а спустя ещё месяц выпустила «рассуждающую» нейросеть DeepSeek-R1. Всего за полтора года китайским инженерам удалось создать модель, которая может потягаться с продуктами OpenAI, хотя начинала компания с разработки ИИ-решений для торгов на бирже.

Бюджетная нейросеть

На обучение DeepSeek-V3 ушло всего 5,5 млн долларов, тогда как на разработку GPT-4, её прямого конкурента, потратили больше 100 млн долларов. Забавный факт: генеральный директор OpenAI Сэм Альтман в 2024 году приобрёл редкий спорткар Koenigsegg Regera, которой также стоит около 5 млн долларов.

Стоит ещё учесть, что руки китайских разработчиков связывали экспортные санкции США, из-за чего они не могли закупать современные видеокарты NVIDIA и AMD. Для обучения DeepSeek использовали ограниченное количество видеоускорителей NVIDIA H100 и A100.

Успех DeepSeek вызвал падение стоимости акций американских технологических компаний. Больше всех пострадала NVIDIA, потеряв более 600 млрд долларов капитализации. Однако эффект от релиза R1 ощутили все компании, которые разрабатывают ИИ-сервисы и нейросети. Инвесторы задумались: если китайские инженеры смогли малыми силами создать ИИ мирового уровня, то чем мы хуже?

Кроме того, DeepSeek-R1 оказалась выгодной для разработчиков. Вывод 1 млн токенов с помощью модели GPT-o1 обходится в 60 долларов, а для R1 цена составляет всего 2,19 доллара. Простая математика: если вы используете в своём приложении нейросеть от OpenAI и решите перейти на разработку китайских инженеров, то сможете сократить расходы более чем в 27 раз. Обычные пользователи выигрывают ещё больше. Всеми возможностями нейросети можно пользоваться бесплатно.

Открытый исходный код

В названии DeepSeek нет слова open, но это не мешает ей публиковать свои разработки в открытом доступе. Все нейросети компании можно скачать и запустить на собственном железе. Однако запустить её на обычном MacBook не выйдет: в DeepSeek-R1 671 млрд параметров и для работы с ней требуется не менее 720 ГБ видеопамяти. Но если вы IT-компания с собственным или арендованным дата-центром, развернуть DeepSeek можно уже сейчас.

Политическое влияние

21 января 2025 года Дональд Трамп сообщил о запуске компании Stargate, на которую консорциум американских бигтехов выделит рекордные 500 млрд долларов в течение 10 лет. Новый проект, по задумке, должен вывести страну в лидеры в сфере машинного обучения путём строительства дорогостоящей инфраструктуры для развития ИИ. Аналитики даже прозвали Stargate Манхэттенским проектом XXI века.

Слева направо: Дональд Трамп (президент США), Ларри Эллисон (CTO Oracle), Масаёси Сон (CEO Softbank) и Сэм Альтман (CEO OpenAI)
Кадр: The White House / YouTube

Однако за день до этого заявления DeepSeek выпускает R1, смазав американским технократам радость от вступления в «новую эру ИИ». После роста популярности китайской нейросети эксперты начали говорить о том, что США ввязались в гонку, не оценив силы соперника.

Случилось именно то, чего опасалась OpenAI. В своём плане экономического развития аналитики компании писали, что, если не соблюдать ограничения экспортного контроля, Китай сможет обучить более продвинутые нейросети и вырваться в лидеры. Оказалось, что от появления китайских «трансформеров» не спасли ни ограничения, ни тотальная закрытость исходников самой OpenAI.

Расследование

29 января 2025 года, спустя девять дней после релиза DeepSeek-R1, Microsoft и OpenAI начали расследование, чтобы выяснить, на каких данных китайские инженеры обучили нейросеть. Американские компании подозревают, что DeepSeek дистиллировала инференс ChatGPT, что помогло ей удачно скопировать механизм рассуждения.

В пользу этого предположения говорят ответы самой языковой модели. На русском языке нейросеть иногда начинает называть себя YandexGPT. Вероятно, что русскоязычный датасет сгенерировали с помощью модели «Яндекса» и не очистили данные перед обучением.

Скриншот: DeepSeek / Skillbox Media

Утечка данных: что известно

29 января исследователи из компании Wiz Research заявили, что нашли в открытом доступе данные пользователей DeepSeek. Более миллиона строк базы данных ClickHouse оказались без защиты.

В утечке обнаружили секретные ключи, логи, данные о серверной инфраструктуре и пользовательские чаты. Исследователи пока не знают, какая ещё информация может находиться под угрозой.

Что умеет DeepSeek-R1

DeepSeek-R1 — большая языковая модель, похожая на ChatGPT, YandexGPT или GigaChat. Пользователь может с ней общаться, генерировать тексты, получать советы, искать информацию в интернете и писать код. DeepSeek понимает, русский, английский, китайский и другие языки.

Главное преимущество R1 перед другими открытыми языковыми моделями в том, что она умеет рассуждать, как GPT-o1. Перед генерацией ответа нейросеть возьмёт время на размышление и проговорит про себя всё, что она поняла из запроса, и составит примерный план ответа.

Мы решили протестировать DeepSeek на разработке бота для Telegram. Во время размышлений языковая модель поняла, что чаще всего такие проекты пишут на Python, разделила будущий ответ на части и решила не давать много подробностей, так как запрос общий.

Скриншот: DeepSeek / Skillbox Media

Функция «рассуждений» полезна для отладки запросов в случаях, когда нейросеть генерирует нерелевантные ответы. Например, если вы попросили её написать код функции на JavaScript, а получили результат на Java, то можно отследить, где именно языковая модель ошиблась.

Помимо текстовых запросов, в DeepSeek есть и другие функции:

  • Поиск. В DeepSeek есть встроенная функция поиска информации в интернете. Благодаря этому нейросеть не привязана к датасету, который со временем может устареть. Если надо узнать что-то о последних событиях, то можно попросить DeepSeek погуглить за вас.
  • Работа с файлами. Нейросеть распознаёт текст на изображениях и документах. Например, можно отправить ей PDF-версию этой статьи и попросить пересказать.
Например, можно попросить пересказать прайс-лист
Скриншот: DeepSeek / Skillbox Media

Как пользоваться DeepSeek

На момент написания статьи DeepSeek приостановила регистрацию из-за большого количества пользователей и DDoS-атак. Если у вас не получается зарегистрироваться прямо сейчас, ничего страшного — просто попробуйте позже.

Веб-версия

Самый простой способ начать общаться с DeepSeek — открыть веб-приложение.

  • Шаг 1. Перейдите на официальный сайт DeepSeek и выберите вход с помощью аккаунта Google или пройдите регистрацию по почте. Войти по номеру телефона могут только пользователи из Китая.
Скриншот: DeepSeek / Skillbox Media
  • Шаг 2. В левой части экрана хранится история чатов, а запросы можно писать в строке ввода текста.
Интерфейс чат-бота DeepSeek. Наглядная иллюстрация мема «только не списывай точь-в-точь» :)
Скриншот: DeepSeek / Skillbox Media

Мобильное приложение

Доступ к нейросети можно получить через официальное мобильное приложение. Оно доступно для Android и iOS (Google Play, App Store). Рассмотрим процесс установки на примере iPhone:

  • Шаг 1. Установите приложение из App Store и запустите его.
Скриншот: DeepSeek / Skillbox Media
  • Шаг 2. Войдите с помощью аккаунта Google, Apple или пройдите регистрацию по электронной почте.
Скриншот: DeepSeek / Skillbox Media
  • Шаг 3. Интерфейс приложения интуитивный и напоминает ChatGPT. Включить модель R1 можно с помощью кнопки Глубокое мышление.
Скриншот: DeepSeek / Skillbox Media

Локальный запуск

DeepSeek-R1 можно запустить локально, например с помощью Ollama. Сразу скажем: работать с оригинальной нейросетью с 671 млрд параметров на ноутбуке или домашнем компьютере не получится. Если хотите запустить DeepSeek дома, используйте дистиллированные модели, они больше подходят для локального запуска. Однако для хорошего результата всё равно нужна производительная видеокарта и много оперативной памяти.

Вот как запустить DeepSeek на своём компьютере с помощью Ollama:

  • Шаг 1. Скачайте Ollama с официального сайта. Запустите файл и следуйте инструкциям установщика.
  • Шаг 2. Перейдите на страницу DeepSeek в Ollama.
  • Шаг 3. Скопируйте команду запуска подходящей нейросети. Мы запустим самую маленькую версию DeepSeek с 1,5 млрд параметров — DeepSeek-R1-Distill-Qwen-1.5B. Для неё потребуется чуть больше гигабайта свободного места на диске.
Скриншот: Ollama / Skillbox Media
  • Шаг 3. Вставьте команду в терминал и выполните её. Дождитесь окончания загрузки модели.
  • Шаг 4. Отправьте свой запрос в терминал, и нейросеть сгенерирует ответ.
Мы выбрали самую компактную модель, поэтому инференс низкого качества
Скриншот: macOS / Skillbox Media

Какие ещё нейросети есть у DeepSeek

Помимо больших языковых моделей, DeepSeek работает и над другими нейросетями:

  • DeepSeekCoder-V2 — модель машинного обучения для генерации кода, сопоставимая по производительности с GPT4-Turbo.
  • DeepSeek-Math — нейросеть для решения математических задач.
  • Janus-Pro — модель машинного обучения для распознавания изображений и генерации картинок. В бенчмарке GenEval она опережает DALL-E 3 от OpenAI и Stable Diffusion 3 Medium.

Самое важное

  • DeepSeek — нейросеть, которую разработала одноимённая китайская компания. В некоторых тестах она превосходит GPT-4o от OpenAI.
  • Технологические компании не ожидали, что первой «рассуждающей» китайской нейросетью станет решение от DeepSeek.
  • Релиз языковой модели R1 спровоцировал падение стоимости акций IT-компаний, особенно пострадала NVIDIA.
  • OpenAI и Microsoft считают, что DeepSeek обучалась на инференсе GPT.
  • У всех нейросетей DeepSeek открытый код, поэтому разработчики могут улучшать её, а пользователи — запускать локально.
  • API DeepSeek обходится в 27 раз дешевле, чем API OpenAI, поэтому китайскую языковую модель выгодно использовать в приложениях.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Изучайте IT на практике — бесплатно

Курсы за 2990 0 р.

Я не знаю, с чего начать
Научитесь: Профессия Python-разработчик Узнать больше
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована