TAPE: Few-shot оценка понимания русского языка

Недавние достижения в zero-shot и few-shot learning продемонстрировали многообещающие результаты для целого ряда исследований и практических целей. Однако в этой быстрорастущей области отсутствуют стандартизированные бенчмарки для языков, отличных от английского, что препятствует прогрессу за пределами англоцентричной парадигмы. Для этого направления исследований мы предлагаем TAPE (Text Attack and Perturbation Evaluation), новый бенчмарк, который включает в себя ещё шесть задач NLU (понимания естественного языка) для русского языка, охватывающих рассуждения с несколькими логическими переходами, этические концепции, логику и здравый смысл. Дизайн TAPE фокусируется на систематической оценке NLU при помощи zero-shot и few-shot подходов: 1) лингвистически-ориентированные состязательные атаки и пертурбации для анализа робастности и 2) субпопуляции для тонкой интерпретации. Подробный анализ тестирования базовых авторегрессионных моделей показывает, что простые пертурбации, основанные на правописании, больше всего влияют на производительность, в то время как перефразирование входных данных оказывает менее значимое влияние. В то же время результаты демонстрируют значительный разрыв между нейросетевыми и человеческими решениями для большинства задач. Мы публично публикуем TAPE https://tape-benchmark.com/, чтобы стимулировать исследования робастных языковых моделей, которые способны осуществлять обобщение для новых задач при полном отсутствии обучающих данных или их малом объёме.

Читать еще

Управление исследований и инноваций • Управление внутрибанковской безопасности
17 апреля 23
Создание инструмента второго мнения для классического полиграфа
Асонов Дмитрий Валерьевич, Крылов Максим Андреевич, Омелюсик Владимир Степанович, Рябикина Анастасия Евгеньевна, Литвинов Евгений Вячеславович, Митрофанов Максим Алексеевич, Михайлов Максим Алексеевич, Ефимов Альберт Рувимович
Управление исследований и инноваций
Управление исследований и инноваций
08 февраля 23
Наука в Сбере 2022

Мы используем cookies и аналогичные технологии для улучшения работы сайта и повышения удобства его использования.
Условия использования описаны в Уведомлении об обработке персональных данных сайтом и Политике в отношении Сookies и аналогичных технологий для сайта.