На пути к вычислительно эффективному глубокому активному обучению
Активное обучение (AL) — это известный подход, позволяющий существенно сократить объем ручной разметки данных, необходимый для обучения моделей машинного обучения. Глубокое обучение помогает преодолеть ряд существенных препятствий применению активного обучения на практике, но привносит многие другие. Одной из таких проблем является чрезмерная потребность в вычислительных ресурсах, необходимых для обучения модели выбора примеров и оценки ее неопределенности на экземплярах в неразмеченном пуле. Мы предлагаем два метода, которые решают эту проблему, существенно сокращая продолжительность итераций активного обучения и вычислительных затрат, связанных с применением глубоких нейронных сетей для выбора примеров. Эмпирическое исследование методов проводится на задачах извлечения сущностей из текстов, а также на задачах текстовой классификации.
В статье также демонстрируется, что наш алгоритм, использующий псевдоразметку и дистиллированные модели, преодолевает еще одну известную и важную проблему активного обучения. Было показано, что из-за различий между моделью выбора примеров и конечной моделью для итогового приложения, которая обучена на данных, размеченных с помощью активного обучения, качество последней может пострадать. Мы показываем, что наш алгоритм, несмотря на использование меньшей и более быстрой модели выбора примеров, способен обучать более качественную конечную модель