Несколько битов назад: квантованные градиенты функций активации для уменьшения объема памяти
Авторы предлагают систематический подход к вычислению оптимального квантования сохраняемых градиентов точечных нелинейных функций с использованием всего нескольких бит на каждый элемент. Показывается, что такая аппроксимация может быть достигнута путем вычисления оптимальной кусочно-постоянной аппроксимации производной функции активации, что может быть сделано с помощью динамического программирования. Подтверждается снижение памяти и сходимость на нескольких открытых бенчмарках.