Насколько эффективнее тензорные процессоры в сравнении с теми же CPU или GPU?
Сравнивать можно на разных моделях, оценивать производительность в зависимости от формата и размера выборки. В случае с облачными решениями немаловажен такой критерий, как стоимость на операцию. Например, Cloud TPU может обрабатывать меньше изображений в час по сравнению с теми же ускорителями Nvidia, но при этом цена за час использования будет ниже за счет меньшего энергопотребления.
Новейшие центры обработки данных Google на базе TPU v5e способны работать с моделями вплоть до двух триллионов параметров. Для сравнения, языковая модель GPT-3 имеет 175 миллиардов параметров.
Можно уверенно сказать, что тензорные процессоры от Google предлагают передовые и местами наиболее эффективные решения в области машинного обучения за счет особенностей архитектуры. С другой стороны, облачные решения от Nvidia на базе Tesla более распространенные и универсальные.
Пользовательские нейронные ускорители
Главная проблема тензорных процессоров от Google — это фирменная разработка на облаке, так что получить к ней доступ большинству пользователей может быть проблематично. В случае с Nvidia вы можете купить топовую видеокарту уровня RTX 3090/4090 или PCI-E ускоритель Tesla для работы с нейросетями «на дому».
Однако в последние годы появилась альтернатива — нейронные ускорители TPU в виде PCI-E карт или отдельных мини-серверов. Возможности именно тренировки нейросетей у них ограничены, а зачастую такие платы и вовсе не предназначены для этого. Однако в задаче выполнения нейросети (Inference) такие решения могут стать выгоднее покупки дорогостоящих GPU.
Google в 2018 году выпустила чип Edge TPU, который устанавливался ни мини-ПК, платы с mini PCI-E и M.2. С его помощью можно локально на своем компьютере ускорять выполнение или простейшее обучение нейронных сетей, заявленная производительность в INT8 — 4 TOPS.
На базе Edge TPU вышла полноценная PCI-E карта Mustang-T100-T5 на пять процессоров Google Coral Edge TPU (суммарно 20 TOPS) с энергопотреблением всего 15 Вт.
Китайский производитель предлагает целую линейку микро-серверов на базе процессоров SOPHON BM1684 и CV186AH. Модули нацелены на такие сферы применения, как структурирование видео, распознавание лиц, анализ поведения и мониторинг статуса. То есть преимущественно задачи компьютерного зрения.
Для ПК и рабочих станций имеются PCI-E карты, ориентированные на машинное обучение в области компьютерного зрения.
Разработчики из SOPHON также приводят сравнение с ускорителями Huawei Atlas 300, Nvidia Tesla T4 и P4.
Эти платы заточены под видеоаналитику, поэтому в сравнении с теми же GPU обойдутся дешевле для решения конкретно этой задачи.
Компания Intel также ведет разработку узкоспециализированных чипов, ориентированных на машинное обучение. Среди них — Intel Movidius Myriad и Arria. Эти платы также ориентированы на машинное зрение, поэтому получили название VPU — Vision Processing Unit.
Они также могут пригодиться в автоматизированных системах контроля качества на производстве, системах машинного зрения и не только.
Заключение
Нейронные ускорители — это специализированные платы, предназначенные для машинного обучения или выполнения моделей нейронных сетей. Десктопные и профессиональные GPU вполне могут использоваться для работы с ИИ. Однако параллельно ведется разработка и внедрение еще более узкоспециализированных решений. У Google это Tensor Processing Unit (TPU) — платы, предлагающие минимальное энергопотребление и возможность быстрой тренировки/выполнения по относительно доступной цене. В области пользовательских плат также есть TPU и VPU, которые ориентированы преимущественно на выполнение нейросетевых моделей. Они часто имеют меньшее энергопотребление и более доступный ценник в сравнении с топовыми GPU под ИИ.