Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы
Подкаст «Люди и код», выпуск №57: Влад Гоцуляк.
Иллюстрация: Polina Vari / Skillbox Media
Влад Гоцуляк
Директор по Data&AI в «Еаптеке». Окончил МФТИ. В свободное время читает лекции по big data для студентов кафедры БИТ в МФТИ.
Содержание выпуска
- Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить.
- Из каких источников в систему приходят сырые данные.
- Куда данные сохраняются и в каком виде.
- Как предварительно обрабатываются и готовятся данные.
- Как отбираются данные для обработки и анализа.
- Как происходит анализ в DS и чем он отличается от традиционной аналитики.
- Какие решения и инструменты существуют для анализа и изучения данных в data science.
- Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное.
- Чем занимается отдел data science. Какие роли связаны с data science.
- Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться.
- Насколько data science — программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков.
- Какие языки и для каких задач используются.
- Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры.
- Какие зарплаты, специализации и перспективы есть в data science.
Полезные ссылки
- Apache Spark
- Apache Hadoop
- Язык программирования Scala
- Amazon Simple Storage Service
- Redis
- MLflow
- CI/CD
- Apache Kafka
- Debezium
- Micro Batching
- Витрина данных
- Слои в data science
- REST API
- Модель вычислений MapReduce
- Google File System
- HDFS
- Захват изменения данных
- Apache NiFi
- Nginx
- Apache Airflow
- Dimensional modeling
- Сайт-тренажёр
- «Книга с кабанчиком»
- Codewars
- LeetCode
- Ютуб-канал «Диджитализируй!»
- Марк Лутц. «Изучаем Python»
- Эви Немет, Гарт Снайдер, Трент Хейн, Бэн Уэйли, Дэн Макин. «Unix и Linux: руководство системного администратора»
Предложить тему, стать гостем подкаста, похвалить или поругать выпуск: code.media@skillbox.ru, t.me/tym83.
Слушать выпуск
Наш подкаст удобно слушать на популярных платформах:
Подписывайтесь, ставьте лайки, делитесь с друзьями и оставляйте комментарии!
Понравилась статья?
Да