Продукт оказывает услугу по ускорению и сжатию нейросети для:
— более быстрой работы нейросети (например на мобильном телефоне)
— уменьшения стоимости аренды серверов (например на амазоне)
— возможности запуска нейросети на устройстве (например мобильном телефоне)
— Уменьшения стоимости устройства/сервера, необходимого для работы нейросети
Технология позволяет произвести поиск архитектуры нейронной сети с учетом ограничений по latency, RAM, размера модели для различных программно-аппаратных платформ и использует следующие методы сжатия/ускорения нейросетей, как по отдельности, так и одновременно:
— Поиск нейросетевых архитектур (NAS)
— Структурированный прунинг нейронной сети
— Дистилляция
— Квантование глубоких нейронных сетей (int8).