Недавние исследования показали, что стандартные подходы к дообучению могут приводить к нестабильным результатам работы моделей. В данной статье эта проблема нестабильности исследуется на примере причинно-следственных связей в естественном языке, классической общей задачи в практике бенчмаркинга. Текущее исследование выносит решение задачи в многоязычную среду. Мы предлагаем шесть новых датасетов для диагностики французского, немецкого и шведского языков. Наши основные выводы заключаются в том, что модель mBERT демонстрирует нестабильность дообучения для категорий, которые включают лексическую семантику, логику и предикатно-аргументную структуру. Мы также наблюдаем, что использование дополнительных обучающих данных только на английском языке может повысить производительность обобщения и стабильность дообучения, что мы приписываем возможностям межъязыкового переноса знаний. Мы публикуем наборы данных, надеясь поспособствовать диагностическому исследованию языковых моделей (LM) в многоязычном сценарии.
Мы используем cookies и аналогичные технологии для улучшения работы сайта и повышения удобства его использования.
Условия использования описаны в Уведомлении об обработке персональных данных сайтом и Политике в отношении Сookies и аналогичных технологий для сайта.