Несколько битов назад: квантованные градиенты функций активации для уменьшения объема памяти

Авторы предлагают систематический подход к вычислению оптимального квантования сохраняемых градиентов точечных нелинейных функций с использованием всего нескольких бит на каждый элемент. Показывается, что такая аппроксимация может быть достигнута путем вычисления оптимальной кусочно-постоянной аппроксимации производной функции активации, что может быть сделано с помощью динамического программирования. Подтверждается снижение памяти и сходимость на нескольких открытых бенчмарках.

Читать еще

Центр робототехники • Управление исследований и инноваций
Управление исследований и инноваций
30 августа 23
Science at Sber 2022
Управление исследований и инноваций • Управление внутрибанковской безопасности
17 апреля 23
Создание инструмента второго мнения для классического полиграфа
Асонов Дмитрий Валерьевич, Крылов Максим Андреевич, Омелюсик Владимир Степанович, Рябикина Анастасия Евгеньевна, Литвинов Евгений Вячеславович, Митрофанов Максим Алексеевич, Михайлов Максим Алексеевич, Ефимов Альберт Рувимович

Мы используем cookies и аналогичные технологии для улучшения работы сайта и повышения удобства его использования.
Условия использования описаны в Уведомлении об обработке персональных данных сайтом и Политике в отношении Сookies и аналогичных технологий для сайта.