Скидка до 60% и курс по ИИ в подарок 3 дня 09 :37 :59 Выбрать курс
Блог Skillbox
#статьи

Когда текст говорит сам себя: студенты Skillbox ускорили производство аудиокниг в «Эксмо»

Команда студентов разработала автономный веб‑сервис на базе GPT для разметки художественных текстов и подбора шумовых эффектов к аудиокнигам.

Иллюстрация: Colowgee для Skillbox Media

Команда студентов школ Skillbox Holding совместно с издательством «Эксмо» создала прототип системы, которая разбивает текст на сцены, выделяет «смысловые» звуковые точки и упрощает процесс генерации звуков для аудиокниг. Это готовый коммерческий проект для портфолио — его задействуют в системе создания аудиоспектаклей.

Поговорили с одним из участников проекта, студентом курса «Python-разработчик» в SkillFactory Павлом Изоргиным, и делимся его впечатлениями о прошедшем хакатоне.

Контекст: что такое IT‑песочница и зачем в ней «копаться»

IT‑песочница — это практический формат Skillbox Holding, где студенты из разных школ холдинга (Skillbox, Skillfactory и Contented) собираются в мультидисциплинарные команды и решают задачи бизнеса и НКО. Например:

  • создают сервисы для решения конкретных задач;
  • разрабатывают игры и игровые прототипы;
  • придумывают и презентуют инструменты автоматизации;
  • проводят созвоны с партнёрами и учатся работать с запросами и болями заказчика.

Участвовать могут представители любых направлений. Например, в осенней IT-песочнице приняли участие студенты-разработчики, UХ-дизайнеры, менеджеры продукта, маркетологи, тестировщики и аналитики. Наборы и анонсы публикуются на страницах направлений и курсов Skillbox, и главное — в ходе проекта студенты работают с реальными заказчиками и пополняют портфолио.

Если вы в начале пути и хотите развить лидерские навыки и умение работать в команде, присмотритесь к курсам и трекам тимлидера — именно через такой трек в IT-песочницу попал Павел.

Павел Изоргин

Тимлид технической разработки совместного хакатона с «Эксмо»


— В IT я пришёл осознанно после многих лет в производстве. Прошёл курс «Python-разработчик» в SkillFactory и решил поискать хакатон, чтобы опробовать свои силы на практике. На тот момент по бэкенду подходящих ивентов не было, зато я увидел курс по тимлидерству для проектов IT‑песочницы и решил попробовать.

Первый шаг — обучение роли лидера: теория, правила коммуникации, постановка личных целей. Павел выбрал две: довести проект до конца и провести работу над ошибками после.

Выбор партнёра: почему именно «Эксмо»

Командам представили десять партнёров и предложили выбрать проекты. Павел просмотрел презентации, изучил компании и задания — и остановился на «Эксмо».

Запрос издательства звучал так:

  • Нужен сервис, который автоматически собирает таблицу звуковых подсказок по тексту: что, где и когда должно звучать — от смены локации до хлопка двери.
  • Боль партнёра: существующие таблицы неточны, из‑за этого нейросети, генерирующие звуки, дают осечки. Продакшен остаётся дорогим и длительным, а участие редакторов и звукорежиссёров — чрезмерным.

— Задача была нестандартной. Я никогда не думал, как создаются аудиокниги изнутри. В книжке многое не проговаривается, но мы «слышим» это в голове. Например, звуки леса, звон посуды на кухне во время готовки, скрипы полов при ходьбе в старом доме. Мне захотелось ответить на вопрос: можно ли научить модель улавливать такие моменты и переводить их в точные звуковые подсказки для звукорежиссёра?

На первом созвоне с партнёром задача прояснилась и приобрела конкретные рамки. Нам нужно было продумать алгоритм, который сможет отсматривать участки текста и по словам, шаблонам, текстовым «сигналам» находить точки, где необходим конкретный звук.

Павел Изоргин

Как проходила работа

Павел собрал кросс‑функциональную команду — от UX до бэкенда — через студенческие чаты. Начали с быстрых технических гипотез:

  • Модель Whisper — для сегментации дикторского чтения, чтобы разметка подстраивалась под паузы и акценты.
  • Llama — для первичного подбора простых шумов по сегментам.
  • Библиотека звуковых дорожек — для накопления и переиспользования найденных решений.

— Я сделал аудиозапись тестового рассказа, через Whisper разметил аудио на сегменты. Llama сгенерировала базовые звуки, а дальше я собрал это в библиотеку дорожек. С этим мы вышли на второй созвон с «Эксмо» — и зацепили технического директора AI‑направления. Он дал точные наводки, куда копать дальше.

Павел Изоргин

Партнёр предложил смотреть на текст как на театральную сцену: ключевые факторы — смена локаций, героев и времени года. Команда Павла построила разметку вокруг этих трёх осей, и это помогло убрать «линзовый» подход и увидеть целостную аудиокартину текста.

Кризис третьего созвона и неожиданное решение

Команда перепробовала множество моделей для генерации эффектов — готовые решения не справлялись, а обучение с нуля оказалось слишком ресурсозатратным. К счастью, команда фронтенд-разработки и UХ-дизайнеров не подкачала: к третьему созвону визитной картой команды стал интерфейс приложения для саунд-продюсеров аудиокниг.

При этом ключевой алгоритм был явно не дожат.

— Мы бесконечно тестировали, обучали, обсуждали — решение никак не находилось, а дедлайн близился. Накануне третьего созвона я, почти ни на что не надеясь, подключил GPT — и результат нас шокировал. GPT справился лучше всех моделей, что мы тестировали до этого.

Павел Изоргин

Рабочий прототип — что получилось:

  • Сценическая разметка текста и экспорт в XLS.
  • Автоматические подсказки по шумам и эффектам: от «карета, копыта, опушка леса» до «монета упала, дверь хлопнула, эхо».
  • Синхронизация с дикторским чтением через сегментацию Whisper.
  • Интерфейс для редактора и саунд‑продюсера с возможностью быстро подкрутить параметры вручную.

— В итоге на финальной встрече я представил таблицу звуков и тестовый аудиофрагмент. Партнёр сказал: «Практически один в один попадает в наши готовые версии». Это ощущалось как победа.

Павел Изоргин

Как работа студентов влияет на бизнес — практический результат хакатона с «Эксмо»

Стандартный флоу производства аудиокниги выглядит так:

  • Редактор адаптирует текст под аудио.
  • Диктор озвучивает.
  • Саунд-продюсер подбирает короткие саундтреки и отбивки вручную или через генеративные инструменты.

Команда студентов продвинула этот алгоритм в сторону оптимизации: производство становится дешевле и быстрее за счёт умной разметки текста. Алгоритм снимает рутину поиска и подбора звуков, а редактор и звукорежиссёр могут сконцентрироваться на общем звучании произведения.

— Проект нестандартный — готовых рецептов пока просто не существует. Поэтому было архиважно, чтобы у каждого в команде был голос. Идеи, инициативность и упорство — вот что помогло нам дойти до конца. Команда провела титаническую работу, особенно по тестам: мы выжали максимум из неподходящих моделей, прежде чем точно убедились, что они не заходят.

Павел Изоргин

Из прошедшего хакатона Павел вынес три важных урока:

  • Не спешите

Если дописали код вечером — не сдавайте сразу, оставьте до утра. Свежий взгляд спасает от ошибок и неточностей. Так команде на обсуждение и тесты уходит более функциональный продукт.

  • Всегда закладывайте время на доработку

Минимум 50% от всего имеющегося срока работы уйдёт на тестирование и докрутку продукта. А лучше отдать на это все 75%, ведь всегда есть риск в ходе тестов понять, что идея нерабочая и нужно начинать всё сначала.

  • Соблюдайте дисциплину встреч

Чтобы командные созвоны оставались действительно рабочими, лучше разделять разработчиков и дизайнеров, строго соблюдать тайминг встречи и выносить в начало созвона конкретную задачу, которую нужно решить.

— Нам не хватало коротких планёрок. Идеальный формат — по пять минут на участника: что сделал, что будет делать, какие блокеры. 20 минут — и вся группа в курсе. У нас часто уходили в долгие разговоры — это съедало силы, и в конце оставалось ощущение, что классно поболтали, но ничего толком не успели.

Павел Изоргин

«Это вдохновляет и мотивирует работать дальше»: эмоциональные итоги хакатона

Павел всегда любил читать: мало что сравнится с запахом свежей краски на новеньких страницах. Разве что возможность полноценно погрузиться в атмосферу произведения, подкреплённую музыкой, звуками книжного мира и голосами героев. «Возможность приложить руку к развитию любимого дела и создать настоящее волшебство погружения в наушниках миллионов — всё это очень мотивирует расти и дальше развиваться в профессии», — отмечает Павел.

Подобные хакатоны — регулярная часть обучения в Skillbox: студенты работают с реальными заказчиками, осваивают командные роли и собирают портфолио из внедряемых решений. Если вам тоже важно создавать новое и получать при этом конкурентные навыки, ждём вас на курсах Skillbox!



Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована