CoLES: контрастивное обучение для последовательностей событий с самоконтролем
Мы рассматриваем задачу обучения без учителя на дискретных данных в виде последовательностей событий пользователя. Обучение без учителя позволяет извлечь сложную информацию из сырых данных и преобразовать ее в числовой вектор (эмбеддинг) фиксированной длины и низкой размерности, который может использоваться как вектор признаков для любых последующих задач машинного обучения. В данной работе мы предлагаем новый метод «CoLES», который адаптирует подход контрастивного обучения, ранее использовавшееся в области аудио и компьютерного зрения, к области дискретных последовательностей событий в условиях обучения без учителя. Мы внедрили метод получения эмбеддингов CoLES на основе последовательности транзакций в крупном европейском банке. Добавление эмбеддингов CoLES как признаков значительно повышает качество уже существующих в Банке моделей машинного обучения, что приводит к значимому финансово-экономическому эффекту, оценивающемуся в сотнях миллионах долларов ежегодно. Мы также провели сравнение разных методов подготовки эмбеддингов на некоторых открытых транзакционных датсетах и показали, что эмбеддинги Coles превосходят по качеству другие методы на различных задачах машинного обучения.