Код
#новости

Исследователи из Тель-Авивского университета создали NLP-бенчмарк для больших текстов

Это набор тестов для NLP-нейросетей, который содержит длинные последовательности текстов из разных источников.

Специалисты из университета Тель-Авива, Meta AI, IBM Research и Allen AI разработали Standardized CompaRison Over Long Language Sequences — SCROLLS. Эта система позволяет пользователям проверять корректность и эффективность работы их NLP-сетей на больших текстах.

Авторы провели множество экспериментов — например, вопросно-ответный формат и суммирование текста — на семи различных наборах данных, которые содержали текстовые строки длиной в тысячи символов. Результаты описаны в статье на arXiv.

Главная цель SCROLLS — расширять возможности NLP-нейросетей и позволить разработчикам обрабатывать тексты гораздо большего размера. SCROLLS содержит различные наборы данных, которые моделируют разнообразные ситуации — от отчётов правительства до сценариев телепрограмм. Авторы утверждают:


Мы надеемся, что SCROLLS вдохновит NLP-сообщество идти за границы в несколько предложений или параграфов, а также позволит справляться с задачами обработки более длинных текстов.


Набор данных для SCROLLS доступен на сайте бенчмарка, а код для воспроизведения экспериментов из статьи — на GitHub.



Онлайн-школа для детей Skillbox Kids
Учим детей программированию, созданию игр, сайтов и дизайну. Первое занятие бесплатно! Подробности — по клику.
Узнать больше
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована