mGPT: обучение few-shot в многоязычном масштабе
Недавние исследования сообщают, что авторегрессионные языковые модели могут успешно решать многие задачи NLP с помощью парадигм few-shot & zero-shot learning, что открывает новые возможности для использования предобученных языковых моделей. В этой статье представлены две авторегрессионные модели, подобные GPT, с 1,3 миллиардами и 13 миллиардами параметров, обученные на 60 языках из 25 языковых семей с использованием Wikipedia и Colossal Clean Crawled Corpus. Мы воспроизводим архитектуру GPT-3, используя источники GPT-2 и механизм sparse attention; Фреймворки Deepspeed и Megatron позволяют нам эффективно распараллеливать этапы обучения и инференса. Полученные модели показывают производительность наравне с недавно выпущенными моделями XGLM от Facebook, охватывая больше языков и расширяя возможности NLP для малоресурсных языков стран СНГ и малых народов России. Мы подробно описываем мотивы выбора архитектуры, подробно описываем пайплайн подготовки данных и обучаем пять небольших версий модели для выбора наиболее оптимальной стратегии многоязычной токенизации. Мы измеряем сложность модели на всех рассматриваемых языках и оцениваем ее по широкому спектру многоязычных задач, включая классификацию, генерацию, маркировку последовательностей и исследование знаний. Модели оценивались методами zero-shot & few-shot learning. Кроме того, мы сравнили задачи классификации с современной многоязычной моделью XGLM. исходный код и модель mGPT XL опубликованы.