Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы

Подкаст «Люди и код», выпуск №57: Влад Гоцуляк.

Иллюстрация: Polina Vari / Skillbox Media

Тимур Тукаев

Фанат Free Software Foundation, использует Linux и недолюбливает Windows. Пишет истории про кодинг и программы на Python. Влюблён в Lisp, но пока что не умеет на нём программировать.

Влад Гоцуляк

Директор по Data&AI в «Еаптеке». Окончил МФТИ. В свободное время читает лекции по big data для студентов кафедры БИТ в МФТИ.

Содержание выпуска

Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить.
Из каких источников в систему приходят сырые данные.
Куда данные сохраняются и в каком виде.
Как предварительно обрабатываются и готовятся данные.
Как отбираются данные для обработки и анализа.
Как происходит анализ в DS и чем он отличается от традиционной аналитики.
Какие решения и инструменты существуют для анализа и изучения данных в data science.
Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное.
Чем занимается отдел data science. Какие роли связаны с data science.
Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться.
Насколько data science — программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков.
Какие языки и для каких задач используются.
Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры.
Какие зарплаты, специализации и перспективы есть в data science.

Полезные ссылки

Apache Spark
Apache Hadoop
Язык программирования Scala
Amazon Simple Storage Service
Redis
MLflow
CI/CD
Apache Kafka
Debezium
Micro Batching
Витрина данных
Слои в data science
REST API
Модель вычислений MapReduce
Google File System
HDFS
Захват изменения данных
Apache NiFi
Nginx
Apache Airflow
Dimensional modeling
Сайт-тренажёр
«Книга с кабанчиком»
Codewars
LeetCode
Ютуб-канал «Диджитализируй!»
Марк Лутц. «Изучаем Python»
Эви Немет, Гарт Снайдер, Трент Хейн, Бэн Уэйли, Дэн Макин. «Unix и Linux: руководство системного администратора»

Слушайте <a href='https://music.yandex.ru/album/20602720/track/111172890'>Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы</a> на Яндекс Музыке

Предложить тему, стать гостем подкаста, похвалить или поругать выпуск: code.media@skillbox.ru, t.me/tym83.