Когда текст говорит сам себя: студенты Skillbox ускорили производство аудиокниг в «Эксмо»
Команда студентов разработала автономный веб‑сервис на базе GPT для разметки художественных текстов и подбора шумовых эффектов к аудиокнигам.
Команда студентов школ Skillbox Holding совместно с издательством «Эксмо» создала прототип системы, которая разбивает текст на сцены, выделяет «смысловые» звуковые точки и упрощает процесс генерации звуков для аудиокниг. Это готовый коммерческий проект для портфолио — его задействуют в системе создания аудиоспектаклей.
Поговорили с одним из участников проекта, студентом курса «Python-разработчик» в SkillFactory Павлом Изоргиным, и делимся его впечатлениями о прошедшем хакатоне.
Контекст: что такое IT‑песочница и зачем в ней «копаться»
IT‑песочница — это практический формат Skillbox Holding, где студенты из разных школ холдинга (Skillbox, Skillfactory и Contented) собираются в мультидисциплинарные команды и решают задачи бизнеса и НКО. Например:
- создают сервисы для решения конкретных задач;
- разрабатывают игры и игровые прототипы;
- придумывают и презентуют инструменты автоматизации;
- проводят созвоны с партнёрами и учатся работать с запросами и болями заказчика.
Участвовать могут представители любых направлений. Например, в осенней IT-песочнице приняли участие студенты-разработчики, UХ-дизайнеры, менеджеры продукта, маркетологи, тестировщики и аналитики. Наборы и анонсы публикуются на страницах направлений и курсов Skillbox, и главное — в ходе проекта студенты работают с реальными заказчиками и пополняют портфолио.
Если вы в начале пути и хотите развить лидерские навыки и умение работать в команде, присмотритесь к курсам и трекам тимлидера — именно через такой трек в IT-песочницу попал Павел.
Павел Изоргин
Тимлид технической разработки совместного хакатона с «Эксмо»
— В IT я пришёл осознанно после многих лет в производстве. Прошёл курс «Python-разработчик» в SkillFactory и решил поискать хакатон, чтобы опробовать свои силы на практике. На тот момент по бэкенду подходящих ивентов не было, зато я увидел курс по тимлидерству для проектов IT‑песочницы и решил попробовать.
Первый шаг — обучение роли лидера: теория, правила коммуникации, постановка личных целей. Павел выбрал две: довести проект до конца и провести работу над ошибками после.
Выбор партнёра: почему именно «Эксмо»
Командам представили десять партнёров и предложили выбрать проекты. Павел просмотрел презентации, изучил компании и задания — и остановился на «Эксмо».
Запрос издательства звучал так:
- Нужен сервис, который автоматически собирает таблицу звуковых подсказок по тексту: что, где и когда должно звучать — от смены локации до хлопка двери.
- Боль партнёра: существующие таблицы неточны, из‑за этого нейросети, генерирующие звуки, дают осечки. Продакшен остаётся дорогим и длительным, а участие редакторов и звукорежиссёров — чрезмерным.
— Задача была нестандартной. Я никогда не думал, как создаются аудиокниги изнутри. В книжке многое не проговаривается, но мы «слышим» это в голове. Например, звуки леса, звон посуды на кухне во время готовки, скрипы полов при ходьбе в старом доме. Мне захотелось ответить на вопрос: можно ли научить модель улавливать такие моменты и переводить их в точные звуковые подсказки для звукорежиссёра?
На первом созвоне с партнёром задача прояснилась и приобрела конкретные рамки. Нам нужно было продумать алгоритм, который сможет отсматривать участки текста и по словам, шаблонам, текстовым «сигналам» находить точки, где необходим конкретный звук.
Павел Изоргин
Читайте также:
Как проходила работа
Павел собрал кросс‑функциональную команду — от UX до бэкенда — через студенческие чаты. Начали с быстрых технических гипотез:
- Модель Whisper — для сегментации дикторского чтения, чтобы разметка подстраивалась под паузы и акценты.
- Llama — для первичного подбора простых шумов по сегментам.
- Библиотека звуковых дорожек — для накопления и переиспользования найденных решений.
— Я сделал аудиозапись тестового рассказа, через Whisper разметил аудио на сегменты. Llama сгенерировала базовые звуки, а дальше я собрал это в библиотеку дорожек. С этим мы вышли на второй созвон с «Эксмо» — и зацепили технического директора AI‑направления. Он дал точные наводки, куда копать дальше.
Павел Изоргин
Партнёр предложил смотреть на текст как на театральную сцену: ключевые факторы — смена локаций, героев и времени года. Команда Павла построила разметку вокруг этих трёх осей, и это помогло убрать «линзовый» подход и увидеть целостную аудиокартину текста.
Кризис третьего созвона и неожиданное решение
Команда перепробовала множество моделей для генерации эффектов — готовые решения не справлялись, а обучение с нуля оказалось слишком ресурсозатратным. К счастью, команда фронтенд-разработки и UХ-дизайнеров не подкачала: к третьему созвону визитной картой команды стал интерфейс приложения для саунд-продюсеров аудиокниг.
При этом ключевой алгоритм был явно не дожат.
— Мы бесконечно тестировали, обучали, обсуждали — решение никак не находилось, а дедлайн близился. Накануне третьего созвона я, почти ни на что не надеясь, подключил GPT — и результат нас шокировал. GPT справился лучше всех моделей, что мы тестировали до этого.
Павел Изоргин
Рабочий прототип — что получилось:
- Сценическая разметка текста и экспорт в XLS.
- Автоматические подсказки по шумам и эффектам: от «карета, копыта, опушка леса» до «монета упала, дверь хлопнула, эхо».
- Синхронизация с дикторским чтением через сегментацию Whisper.
- Интерфейс для редактора и саунд‑продюсера с возможностью быстро подкрутить параметры вручную.
— В итоге на финальной встрече я представил таблицу звуков и тестовый аудиофрагмент. Партнёр сказал: «Практически один в один попадает в наши готовые версии». Это ощущалось как победа.
Павел Изоргин
Как работа студентов влияет на бизнес — практический результат хакатона с «Эксмо»
Стандартный флоу производства аудиокниги выглядит так:
- Редактор адаптирует текст под аудио.
- Диктор озвучивает.
- Саунд-продюсер подбирает короткие саундтреки и отбивки вручную или через генеративные инструменты.
Команда студентов продвинула этот алгоритм в сторону оптимизации: производство становится дешевле и быстрее за счёт умной разметки текста. Алгоритм снимает рутину поиска и подбора звуков, а редактор и звукорежиссёр могут сконцентрироваться на общем звучании произведения.
— Проект нестандартный — готовых рецептов пока просто не существует. Поэтому было архиважно, чтобы у каждого в команде был голос. Идеи, инициативность и упорство — вот что помогло нам дойти до конца. Команда провела титаническую работу, особенно по тестам: мы выжали максимум из неподходящих моделей, прежде чем точно убедились, что они не заходят.
Павел Изоргин
Из прошедшего хакатона Павел вынес три важных урока:
- Не спешите
Если дописали код вечером — не сдавайте сразу, оставьте до утра. Свежий взгляд спасает от ошибок и неточностей. Так команде на обсуждение и тесты уходит более функциональный продукт.
- Всегда закладывайте время на доработку
Минимум 50% от всего имеющегося срока работы уйдёт на тестирование и докрутку продукта. А лучше отдать на это все 75%, ведь всегда есть риск в ходе тестов понять, что идея нерабочая и нужно начинать всё сначала.
- Соблюдайте дисциплину встреч
Чтобы командные созвоны оставались действительно рабочими, лучше разделять разработчиков и дизайнеров, строго соблюдать тайминг встречи и выносить в начало созвона конкретную задачу, которую нужно решить.
— Нам не хватало коротких планёрок. Идеальный формат — по пять минут на участника: что сделал, что будет делать, какие блокеры. 20 минут — и вся группа в курсе. У нас часто уходили в долгие разговоры — это съедало силы, и в конце оставалось ощущение, что классно поболтали, но ничего толком не успели.
Павел Изоргин
«Это вдохновляет и мотивирует работать дальше»: эмоциональные итоги хакатона
Павел всегда любил читать: мало что сравнится с запахом свежей краски на новеньких страницах. Разве что возможность полноценно погрузиться в атмосферу произведения, подкреплённую музыкой, звуками книжного мира и голосами героев. «Возможность приложить руку к развитию любимого дела и создать настоящее волшебство погружения в наушниках миллионов — всё это очень мотивирует расти и дальше развиваться в профессии», — отмечает Павел.
Подобные хакатоны — регулярная часть обучения в Skillbox: студенты работают с реальными заказчиками, осваивают командные роли и собирают портфолио из внедряемых решений. Если вам тоже важно создавать новое и получать при этом конкурентные навыки, ждём вас на курсах Skillbox!