Код
#статьи

Data Science, доступный каждому: работаем с данными в облаке Google Colab

Арендуем лабораторию без регистрации и SMS — потребуются только браузер и адрес Gmail.

 vlada_maestro / shutterstock

Чтобы обрабатывать и визуализировать данные, не обязательно устанавливать специальные программы и тратить время на их настройку. Можно совершенно бесплатно взять в аренду у Google виртуальный компьютер и решать ваши задачи Data Science в облаке. Рассказываем, как это сделать.

Anaconda и Jupyter Notebook

Дата-сайентисты чаще всего работают с так называемым Jupyter Notebook — инструментом, который позволяет запускать и отлаживать ваши алгоритмы небольшими фрагментами. Это хорошо для работы с данными: запустил фрагмент кода в ячейке — посмотрел результат — изменил код — снова запустил и так далее.

Один из популярных дистрибутивов, в составе которого есть Jupyter Notebook, — Anaconda. Кроме собственно Jupyter, на ваш компьютер будут установлены языки Python и R, а также более 250 различных программ и библиотек для исследования данных и разработки моделей машинного обучения.

Такое изобилие нужно не всегда, особенно начинающим, да и не всегда можно установить всё локально. Для тех, кому это неудобно, есть специальные онлайн-сервисы, один из которых — Google Colaboratory (сокращённо Colab).

Как начать работать с Colab

Сервис абсолютно бесплатен — для работы понадобится только почтовый адрес Gmail. На своей странице Gmail зайдите в меню приложений: решётка возле вашей аватарки справа вверху. Найдите и кликните «Диск», далее «Создать», а затем в открывшемся меню — «Ещё».

Если кликнуть на «Подключить другие приложения», откроется окно с выбором приложений для установки на Диск.

Через строку поиска найдите приложение Colaboratory и добавьте к себе на Диск, нажав значок с плюсиком справа внизу под логотипом.

После этого создайте на своём Диске папку — например, Data_Science, а уже в ней ноутбук колаба: Диск — Создать — Ещё — Google Colaboratory.

Вот как он выглядит:

Вашему колаб-ноутбуку нужен сервер для вычислений. Чтобы соединиться с ним, нажмите в меню кнопку «Подключиться» и выберите «Подключиться к удалённой среде выполнения». Google несколько секунд подумает и выдаст вам в пользование виртуальный компьютер.

Всё готово — можно использовать ноутбук

Существуют и другие подобные сервисы: IBM Cloud, Kaggle, AWS от Amazon, а также отечественные платформы от Яндекса и Mail.Ru Group. Они более специализированы и, как правило, сложнее в освоении.

Как ввести и запустить код

В ячейках Colab можно запускать код на языке Python:

print('Hello, world!')

Для исполнения нужно нажать Ctrl+Enter или кнопку «Запустить код» слева.

Новые ячейки добавляются кнопкой «+ Код». Теперь вся мощь Python к вашим услугам — без установки интерпретатора и настройки окружения.

Как добавить текст

Кроме кода, в проектах часто необходим сопровождающий текст: введение, оглавление, комментарии к модулям, заголовки смысловых частей. Для этого есть второй тип ячеек — текстовые.

Нажмите на кнопку добавления текстовой ячейки «+ Текст» слева вверху. Появится ячейка, разделённая на две половины: слева поле редактора, где вы правите текст, а справа предпросмотр того, что получается.

В текстовых ячейках поддерживается популярный язык разметки Markdown. Например, заголовок в нём выделяется с помощью символов # и пробела, как видно на картинке. Здесь можно посмотреть подробную шпаргалку на русском языке.

Как работать с файлами

Данные, которые нужно обработать, загружаются в ноутбуки Colab в виде файлов самых разных форматов: текстовые, табличные и даже картинки. Скачаем, например, этот текстовый файл себе на компьютер и выгрузим его в раздел «Файлы» (пиктограмма папки слева) с помощью кнопки «Выбрать файл». Среда предупредит нас, что после перезапуска файл исчезнет.

Добавим ячейку кода с помощью кнопки «+ Код» и введём туда:

txt = open('text_skillbox.txt')
txt.read()

В первой строке мы создали переменную txt и с помощью встроенной в Python команды open () записали туда содержимое только что загруженного нами текстового файла. Во второй с помощью функции read () прочитали его.

Для считывания файлов других форматов (Excel, CSV и так далее) и работы с ними используются дополнительные библиотеки, например Pandas. Большинство нужных библиотек уже предустановлены в Colab и загружаются в ноутбук стандартной командой import.

Как поделиться готовым кодом с коллегами

Ноутбук можно расшарить с помощью кнопки «Поделиться» справа вверху. В появившемся окне выберите «Скопировать ссылку» и пришлите её, например, вашему коллеге.

Имейте в виду, что делитесь вы только кодом в ноутбуке, а не файлами из раздела «Файлы» в боковой панели. Ведь у адресата будет уже свой виртуальный компьютер и эти файлы ему нужно получать и загружать отдельно. Иначе при запуске ячеек Python выдаст ошибку «Нет такого файла или папки»:

Что дальше

Облачная Google Colaboratory — пожалуй, наиболее дружелюбная к новичкам среда разработки. Виртуальный компьютер, который Google выдаёт пользователю, не слишком мощный по меркам современного Machine Learning и особенно Deep Learning. Зато он доступен всем и каждому.

Хотите большего? На наших бесплатных интенсивах и на курсе «Профессия Data Scientist» под руководством опытных наставников вы освоите не только Colab, но и множество других необходимых дата-сайентисту инструментов.

Научитесь: Профессия Data Scientist Узнать больше
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована