Нейросеть DeepSeek — что она умеет и почему о ней все говорят
Языковая модель из Поднебесной, которая поставила на уши индустрию.
Иллюстрация: Оля Ежак для Skillbox Media
Китай наносит ответный удар в схватке ИИ: компания DeepSeek выпустила языковую модель, которая сопоставима по возможностям с GPT-o1, но при этом дешевле в разработке и доступна пользователям бесплатно.
После выхода модели DeepSeek-R1 акции американских бигтех-компаний обвалились, а в интернете начали рассуждать о приближающемся господстве китайского ИИ. В этой статье рассказываем про нашумевшую нейросеть — чем она хороша, почему о ней все говорят и как её приручить.
Содержание
- Что такое DeepSeek
- Почему все говорят о DeepSeek
- Утечка данных в DeepSeek: что известно
- Что умеет DeepSeek-R1
- Как пользоваться DeepSeek
- Какие ещё нейросети есть у DeepSeek
Что такое DeepSeek
DeepSeek — большая языковая модель с открытым исходным кодом, которую разработала одноимённая китайская компания при поддержке хедж-фонда High-Flyer. По своим возможностям нейросеть сопоставима с GPT-o1 от OpenAI, а в некоторых бенчмарках решение от китайского стартапа даже превосходит o1.
В январе 2025 года стартап выпустил свою «рассуждающую» языковую модель DeepSeek-R1, и она сразу же вызвала ажиотаж среди разработчиков и пользователей. Китайская нейросеть стоит меньше, у неё открытый код и работает она не хуже закрытых собратьев. А ещё языковая модель доступна в России без ограничений.
Кстати, мы писали про DeepSeek ещё в начале 2024 года в статье про бесплатные аналоги ChatGPT — почитайте, если хотите увидеть полный список потенциальных «убийц» знаменитого чат-бота.
Почему все говорят о DeepSeek
DeepSeek начала исследования в области машинного обучения в 2019 году, но заговорили о ней только спустя шесть лет. Объясняем, почему так произошло.
Тёмная лошадка
До 2025 года про DeepSeek слышали только исследователи и энтузиасты, а из китайских языковых моделей у конкурентов вызывала опасения только Qwen от Alibaba. Никто не ожидал, что клона ChatGPT представит малоизвестный стартап.
Все продукты DeepSeek — сторонние проекты хедж-фонда High-Flyer. В 2015 году его основали выпускники Чжэцзянского университета и сразу начали использовать алгоритмы машинного обучения для анализа фондового рынка. В 2019 году отдел разработки нейросетей выделили в дочернюю компанию High-Flyer AI, а в середине 2023 года её переименовали в DeepSeek и заявили о начале работы над AGI — искусственным интеллектом общего назначения.
В декабре 2024 года компания представила языковую модель DeepSeek-V3 — конкурента GPT-4o и Llama 3.1, а спустя ещё месяц выпустила «рассуждающую» нейросеть DeepSeek-R1. Всего за полтора года китайским инженерам удалось создать модель, которая может потягаться с продуктами OpenAI, хотя начинала компания с разработки ИИ-решений для торгов на бирже.
Бюджетная нейросеть
На обучение DeepSeek-V3 ушло всего 5,5 млн долларов, тогда как на разработку GPT-4, её прямого конкурента, потратили больше 100 млн долларов. Забавный факт: генеральный директор OpenAI Сэм Альтман в 2024 году приобрёл редкий спорткар Koenigsegg Regera, которой также стоит около 5 млн долларов.
Стоит ещё учесть, что руки китайских разработчиков связывали экспортные санкции США, из-за чего они не могли закупать современные видеокарты NVIDIA и AMD. Для обучения DeepSeek использовали ограниченное количество видеоускорителей NVIDIA H100 и A100.
Успех DeepSeek вызвал падение стоимости акций американских технологических компаний. Больше всех пострадала NVIDIA, потеряв более 600 млрд долларов капитализации. Однако эффект от релиза R1 ощутили все компании, которые разрабатывают ИИ-сервисы и нейросети. Инвесторы задумались: если китайские инженеры смогли малыми силами создать ИИ мирового уровня, то чем мы хуже?
Кроме того, DeepSeek-R1 оказалась выгодной для разработчиков. Вывод 1 млн токенов с помощью модели GPT-o1 обходится в 60 долларов, а для R1 цена составляет всего 2,19 доллара. Простая математика: если вы используете в своём приложении нейросеть от OpenAI и решите перейти на разработку китайских инженеров, то сможете сократить расходы более чем в 27 раз. Обычные пользователи выигрывают ещё больше. Всеми возможностями нейросети можно пользоваться бесплатно.
Читайте также:
Открытый исходный код
В названии DeepSeek нет слова open, но это не мешает ей публиковать свои разработки в открытом доступе. Все нейросети компании можно скачать и запустить на собственном железе. Однако запустить её на обычном MacBook не выйдет: в DeepSeek-R1 671 млрд параметров и для работы с ней требуется не менее 720 ГБ видеопамяти. Но если вы IT-компания с собственным или арендованным дата-центром, развернуть DeepSeek можно уже сейчас.
Читайте также:
Политическое влияние
21 января 2025 года Дональд Трамп сообщил о запуске компании Stargate, на которую консорциум американских бигтехов выделит рекордные 500 млрд долларов в течение 10 лет. Новый проект, по задумке, должен вывести страну в лидеры в сфере машинного обучения путём строительства дорогостоящей инфраструктуры для развития ИИ. Аналитики даже прозвали Stargate Манхэттенским проектом XXI века.
Однако за день до этого заявления DeepSeek выпускает R1, смазав американским технократам радость от вступления в «новую эру ИИ». После роста популярности китайской нейросети эксперты начали говорить о том, что США ввязались в гонку, не оценив силы соперника.
Случилось именно то, чего опасалась OpenAI. В своём плане экономического развития аналитики компании писали, что, если не соблюдать ограничения экспортного контроля, Китай сможет обучить более продвинутые нейросети и вырваться в лидеры. Оказалось, что от появления китайских «трансформеров» не спасли ни ограничения, ни тотальная закрытость исходников самой OpenAI.
Расследование
29 января 2025 года, спустя девять дней после релиза DeepSeek-R1, Microsoft и OpenAI начали расследование, чтобы выяснить, на каких данных китайские инженеры обучили нейросеть. Американские компании подозревают, что DeepSeek дистиллировала инференс ChatGPT, что помогло ей удачно скопировать механизм рассуждения.
В пользу этого предположения говорят ответы самой языковой модели. На русском языке нейросеть иногда начинает называть себя YandexGPT. Вероятно, что русскоязычный датасет сгенерировали с помощью модели «Яндекса» и не очистили данные перед обучением.
Утечка данных: что известно
29 января исследователи из компании Wiz Research заявили, что нашли в открытом доступе данные пользователей DeepSeek. Более миллиона строк базы данных ClickHouse оказались без защиты.
В утечке обнаружили секретные ключи, логи, данные о серверной инфраструктуре и пользовательские чаты. Исследователи пока не знают, какая ещё информация может находиться под угрозой.
Что умеет DeepSeek-R1
DeepSeek-R1 — большая языковая модель, похожая на ChatGPT, YandexGPT или GigaChat. Пользователь может с ней общаться, генерировать тексты, получать советы, искать информацию в интернете и писать код. DeepSeek понимает, русский, английский, китайский и другие языки.
Главное преимущество R1 перед другими открытыми языковыми моделями в том, что она умеет рассуждать, как GPT-o1. Перед генерацией ответа нейросеть возьмёт время на размышление и проговорит про себя всё, что она поняла из запроса, и составит примерный план ответа.
Мы решили протестировать DeepSeek на разработке бота для Telegram. Во время размышлений языковая модель поняла, что чаще всего такие проекты пишут на Python, разделила будущий ответ на части и решила не давать много подробностей, так как запрос общий.
Функция «рассуждений» полезна для отладки запросов в случаях, когда нейросеть генерирует нерелевантные ответы. Например, если вы попросили её написать код функции на JavaScript, а получили результат на Java, то можно отследить, где именно языковая модель ошиблась.
Помимо текстовых запросов, в DeepSeek есть и другие функции:
- Поиск. В DeepSeek есть встроенная функция поиска информации в интернете. Благодаря этому нейросеть не привязана к датасету, который со временем может устареть. Если надо узнать что-то о последних событиях, то можно попросить DeepSeek погуглить за вас.
- Работа с файлами. Нейросеть распознаёт текст на изображениях и документах. Например, можно отправить ей PDF-версию этой статьи и попросить пересказать.
Как пользоваться DeepSeek
На момент написания статьи DeepSeek приостановила регистрацию из-за большого количества пользователей и DDoS-атак. Если у вас не получается зарегистрироваться прямо сейчас, ничего страшного — просто попробуйте позже.
Веб-версия
Самый простой способ начать общаться с DeepSeek — открыть веб-приложение.
- Шаг 1. Перейдите на официальный сайт DeepSeek и выберите вход с помощью аккаунта Google или пройдите регистрацию по почте. Войти по номеру телефона могут только пользователи из Китая.
- Шаг 2. В левой части экрана хранится история чатов, а запросы можно писать в строке ввода текста.
Мобильное приложение
Доступ к нейросети можно получить через официальное мобильное приложение. Оно доступно для Android и iOS (Google Play, App Store). Рассмотрим процесс установки на примере iPhone:
- Шаг 1. Установите приложение из App Store и запустите его.
- Шаг 2. Войдите с помощью аккаунта Google, Apple или пройдите регистрацию по электронной почте.
- Шаг 3. Интерфейс приложения интуитивный и напоминает ChatGPT. Включить модель R1 можно с помощью кнопки Глубокое мышление.
Локальный запуск
DeepSeek-R1 можно запустить локально, например с помощью Ollama. Сразу скажем: работать с оригинальной нейросетью с 671 млрд параметров на ноутбуке или домашнем компьютере не получится. Если хотите запустить DeepSeek дома, используйте дистиллированные модели, они больше подходят для локального запуска. Однако для хорошего результата всё равно нужна производительная видеокарта и много оперативной памяти.
Вот как запустить DeepSeek на своём компьютере с помощью Ollama:
- Шаг 1. Скачайте Ollama с официального сайта. Запустите файл и следуйте инструкциям установщика.
- Шаг 2. Перейдите на страницу DeepSeek в Ollama.
- Шаг 3. Скопируйте команду запуска подходящей нейросети. Мы запустим самую маленькую версию DeepSeek с 1,5 млрд параметров — DeepSeek-R1-Distill-Qwen-1.5B. Для неё потребуется чуть больше гигабайта свободного места на диске.
- Шаг 3. Вставьте команду в терминал и выполните её. Дождитесь окончания загрузки модели.
- Шаг 4. Отправьте свой запрос в терминал, и нейросеть сгенерирует ответ.
Какие ещё нейросети есть у DeepSeek
Помимо больших языковых моделей, DeepSeek работает и над другими нейросетями:
- DeepSeekCoder-V2 — модель машинного обучения для генерации кода, сопоставимая по производительности с GPT4-Turbo.
- DeepSeek-Math — нейросеть для решения математических задач.
- Janus-Pro — модель машинного обучения для распознавания изображений и генерации картинок. В бенчмарке GenEval она опережает DALL-E 3 от OpenAI и Stable Diffusion 3 Medium.
Самое важное
- DeepSeek — нейросеть, которую разработала одноимённая китайская компания. В некоторых тестах она превосходит GPT-4o от OpenAI.
- Технологические компании не ожидали, что первой «рассуждающей» китайской нейросетью станет решение от DeepSeek.
- Релиз языковой модели R1 спровоцировал падение стоимости акций IT-компаний, особенно пострадала NVIDIA.
- OpenAI и Microsoft считают, что DeepSeek обучалась на инференсе GPT.
- У всех нейросетей DeepSeek открытый код, поэтому разработчики могут улучшать её, а пользователи — запускать локально.
- API DeepSeek обходится в 27 раз дешевле, чем API OpenAI, поэтому китайскую языковую модель выгодно использовать в приложениях.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!