Квантизация нейронных сетей/Quantization of neural networks

Использование нейронных сетей с низкой точностью (fp16, int8) увеличивает скорость работы сетей и снижает затраты памяти. Такая конфигурация обеспечивает необходимую вычислительную мощность для работы с искусственным интеллектом. К примеру, в режиме (fp16, int8) нейросеть может обучаться со скоростью до 15,5 тыс. изображений в секунду. −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− ► VK: −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Стримы семинаров - это НЕ видеолекц

42 views