mGPT: обучение few-shot в многоязычном масштабе

Недавние исследования сообщают, что авторегрессионные языковые модели могут успешно решать многие задачи NLP с помощью парадигм few-shot & zero-shot learning, что открывает новые возможности для использования предобученных языковых моделей. В этой статье представлены две авторегрессионные модели, подобные GPT, с 1,3 миллиардами и 13 миллиардами параметров, обученные на 60 языках из 25 языковых семей с использованием Wikipedia и Colossal Clean Crawled Corpus. Мы воспроизводим архитектуру GPT-3, используя источники GPT-2 и механизм sparse attention; Фреймворки Deepspeed и Megatron позволяют нам эффективно распараллеливать этапы обучения и инференса. Полученные модели показывают производительность наравне с недавно выпущенными моделями XGLM от Facebook, охватывая больше языков и расширяя возможности NLP для малоресурсных языков стран СНГ и малых народов России. Мы подробно описываем мотивы выбора архитектуры, подробно описываем пайплайн подготовки данных и обучаем пять небольших версий модели для выбора наиболее оптимальной стратегии многоязычной токенизации. Мы измеряем сложность модели на всех рассматриваемых языках и оцениваем ее по широкому спектру многоязычных задач, включая классификацию, генерацию, маркировку последовательностей и исследование знаний. Модели оценивались методами zero-shot & few-shot learning. Кроме того, мы сравнили задачи классификации с современной многоязычной моделью XGLM. исходный код и модель mGPT XL опубликованы.

Читать еще

Управление исследований и инноваций • Управление внутрибанковской безопасности
17 апреля 23
Создание инструмента второго мнения для классического полиграфа
Асонов Дмитрий Валерьевич, Крылов Максим Андреевич, Омелюсик Владимир Степанович, Рябикина Анастасия Евгеньевна, Литвинов Евгений Вячеславович, Митрофанов Максим Алексеевич, Михайлов Максим Алексеевич, Ефимов Альберт Рувимович
Управление исследований и инноваций
Управление исследований и инноваций
08 февраля 23
Наука в Сбере 2022

Мы используем cookies и аналогичные технологии для улучшения работы сайта и повышения удобства его использования.
Условия использования описаны в Уведомлении об обработке персональных данных сайтом и Политике в отношении Сookies и аналогичных технологий для сайта.