Data Science, доступный каждому: работаем с данными в облаке Google Colab
Арендуем лабораторию без регистрации и SMS — потребуются только браузер и адрес Gmail.
vlada_maestro / shutterstock
Чтобы обрабатывать и визуализировать данные, не обязательно устанавливать специальные программы и тратить время на их настройку. Можно совершенно бесплатно взять в аренду у Google виртуальный компьютер и решать ваши задачи Data Science в облаке. Рассказываем, как это сделать.
Anaconda и Jupyter Notebook
Дата-сайентисты чаще всего работают с так называемым Jupyter Notebook — инструментом, который позволяет запускать и отлаживать ваши алгоритмы небольшими фрагментами. Это хорошо для работы с данными: запустил фрагмент кода в ячейке — посмотрел результат — изменил код — снова запустил и так далее.
Один из популярных дистрибутивов, в составе которого есть Jupyter Notebook, — Anaconda. Кроме собственно Jupyter, на ваш компьютер будут установлены языки Python и R, а также более 250 различных программ и библиотек для исследования данных и разработки моделей машинного обучения.
Такое изобилие нужно не всегда, особенно начинающим, да и не всегда можно установить всё локально. Для тех, кому это неудобно, есть специальные онлайн-сервисы, один из которых — Google Colaboratory (сокращённо Colab).
Как начать работать с Colab
Сервис абсолютно бесплатен — для работы понадобится только почтовый адрес Gmail. На своей странице Gmail зайдите в меню приложений: решётка возле вашей аватарки справа вверху. Найдите и кликните «Диск», далее «Создать», а затем в открывшемся меню — «Ещё».
Если кликнуть на «Подключить другие приложения», откроется окно с выбором приложений для установки на Диск.
Через строку поиска найдите приложение Colaboratory и добавьте к себе на Диск, нажав значок с плюсиком справа внизу под логотипом.
После этого создайте на своём Диске папку — например, Data_Science, а уже в ней ноутбук колаба: Диск — Создать — Ещё — Google Colaboratory.
Вот как он выглядит:
Вашему колаб-ноутбуку нужен сервер для вычислений. Чтобы соединиться с ним, нажмите в меню кнопку «Подключиться» и выберите «Подключиться к удалённой среде выполнения». Google несколько секунд подумает и выдаст вам в пользование виртуальный компьютер.
Существуют и другие подобные сервисы: IBM Cloud, Kaggle, AWS от Amazon, а также отечественные платформы от Яндекса и Mail.Ru Group. Они более специализированы и, как правило, сложнее в освоении.
Как ввести и запустить код
В ячейках Colab можно запускать код на языке Python:
Для исполнения нужно нажать Ctrl+Enter или кнопку «Запустить код» слева.
Новые ячейки добавляются кнопкой «+ Код». Теперь вся мощь Python к вашим услугам — без установки интерпретатора и настройки окружения.
Как добавить текст
Кроме кода, в проектах часто необходим сопровождающий текст: введение, оглавление, комментарии к модулям, заголовки смысловых частей. Для этого есть второй тип ячеек — текстовые.
Нажмите на кнопку добавления текстовой ячейки «+ Текст» слева вверху. Появится ячейка, разделённая на две половины: слева поле редактора, где вы правите текст, а справа предпросмотр того, что получается.
В текстовых ячейках поддерживается популярный язык разметки Markdown. Например, заголовок в нём выделяется с помощью символов # и пробела, как видно на картинке. Здесь можно посмотреть подробную шпаргалку на русском языке.
Как работать с файлами
Данные, которые нужно обработать, загружаются в ноутбуки Colab в виде файлов самых разных форматов: текстовые, табличные и даже картинки. Скачаем, например, этот текстовый файл себе на компьютер и выгрузим его в раздел «Файлы» (пиктограмма папки слева) с помощью кнопки «Выбрать файл». Среда предупредит нас, что после перезапуска файл исчезнет.
Добавим ячейку кода с помощью кнопки «+ Код» и введём туда:
В первой строке мы создали переменную txt и с помощью встроенной в Python команды open () записали туда содержимое только что загруженного нами текстового файла. Во второй с помощью функции read () прочитали его.
Для считывания файлов других форматов (Excel, CSV и так далее) и работы с ними используются дополнительные библиотеки, например Pandas. Большинство нужных библиотек уже предустановлены в Colab и загружаются в ноутбук стандартной командой import.
Как поделиться готовым кодом с коллегами
Ноутбук можно расшарить с помощью кнопки «Поделиться» справа вверху. В появившемся окне выберите «Скопировать ссылку» и пришлите её, например, вашему коллеге.
Имейте в виду, что делитесь вы только кодом в ноутбуке, а не файлами из раздела «Файлы» в боковой панели. Ведь у адресата будет уже свой виртуальный компьютер и эти файлы ему нужно получать и загружать отдельно. Иначе при запуске ячеек Python выдаст ошибку «Нет такого файла или папки»:
Что дальше
Облачная Google Colaboratory — пожалуй, наиболее дружелюбная к новичкам среда разработки. Виртуальный компьютер, который Google выдаёт пользователю, не слишком мощный по меркам современного Machine Learning и особенно Deep Learning. Зато он доступен всем и каждому.
Хотите большего? На наших бесплатных интенсивах и на курсе «Профессия Data Scientist» под руководством опытных наставников вы освоите не только Colab, но и множество других необходимых дата-сайентисту инструментов.