Языковая модель от Сбера и SberDevices FRED-T5 (Full-scale Russian Enhanced Denoisers T5) стала лучшей в мире по пониманию текста в соответствии с результатами тестов главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, уступая по точности только человеку. Она превзошла другие представленные на лидерборде модели для русского языка с существенным отрывом, несмотря на больший размер многих моделей-конкурентов.
Сбер давно работает с трансформерными моделями: ещё в 2019 году были обучены русскоязычные модели ruBERT и ruGPT-2, а в 2020-м при помощи суперкомпьютера Christofari была создана ruGPT-3. Эта модель существует в разных вариантах, и самый большой из них насчитывает 13 млрд параметров.
В отличие от моделей семейства GPT, состоящих только из декодирующих блоков трансформера, модель FRED-T5 содержит также кодирующие блоки, что позволяет ей гораздо эффективнее решать различные задачи в области обработки естественного языка.
Лидерборд Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются исследователи данных, работающие с русскоязычными нейросетями.
Архитектурно модель FRED-T5 реализована на базе нейросети T5 и имеет 1,7 миллиарда параметров и 24 слоя. Модель обучалась на задачах восстановления случайно удалённых фрагментов текста на суперкомпьютере Christofari Neo. Это заняло шесть недель и потребовало использования обучающей выборки, содержавшей около 300 ГБ текста. В среде специалистов по автоматической обработке естественного языка эту задачу называют MoD (Mixture of Denoisers). Этот подход был предложен ранее командой из Google в модели UL2. Наши исследователи реализовали этот подход с рядом существенных изменений, основанных на результатах собственных исследований.
Сергей Марковдиректор Управления экспериментальных систем машинного обучения SberDevices:
Источник
Мы используем cookies и аналогичные технологии для улучшения работы сайта и повышения удобства его использования.
Условия использования описаны в Уведомлении об обработке персональных данных сайтом и Политике в отношении Сookies и аналогичных технологий для сайта.