Российский институт искусственного интеллекта AIRI совместно с разработчиками из Sber AI, а также с исследователями МГУ и Минералогического музея имени А. Е. Ферсмана представил датасет для обучения нейросетей определению минералов по фото. Это поможет разрабатывать модели машинного обучения для быстрой классификации горных пород.
Для чего нужен такой набор данных?
Исследователи рассказали, что всего известно около 6 тысяч разновидностей минералов. Из них только несколько сотен хорошо изучены и представляют ценность для промышленности. Такие породы активно добывают и перерабатывают. Остальные минералы настолько редкие, что не каждый геолог видел их вживую. Из-за этого процесс их классификации может затягиваться на несколько дней. За это время геологи успевают просмотреть фотографии наиболее похожих образцов и найти закономерности.
С помощью представленного датасета можно разработать модель машинного обучения, которая сможет определять вид минерала по его фотографии. Система призвана освободить геологов от рутинных задач и минимизировать ошибки визуального анализа, при котором их количество может достигать 20%.
Также с помощью датасета можно автоматически определять приблизительный размер образца. Система может предположить длину и ширину объекта по фотографии, и это позволяет быстро подобрать коробку для хранения минерала.
Из чего состоит датасет?
Для составления набора данных исследователи использовали коллекцию Минералогического музея имени А. Е. Ферсмана, в которой хранится более 170 тысяч образцов. За всё время существования музея удалось описать около 5 тысяч видов полезных ископаемых.

Скриншот: Сергей Нестерук / «Яндекс Диск»
Датасет опубликован на GitHub и «Яндекс Диске». В каждой таблице содержатся изображения минералов, описание и название на русском и английском языках, размеры и данные для составления классификации. Архив весит около 6 Гб и доступен бесплатно.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!