IT + Компьютерное железо

С этим тегом используют

Программирование IT юмор Программист Юмор Работа Картинка с текстом Разработка Компьютер Сборка компьютера Игровой ПК Видеокарта Электроника Компьютерная помощь Технологии Все

510 постов сначала свежее

TechSavvyZone

4 месяца назад

Intel: "Графические процессоры" История пути Часть Вторая⁠⁠

Продолжение материала, рассказывающего о долгой дороге графики Intel — от медленных встроенных решений до современных высокопроизводительных дискретных карт семейства Intel Arc.

7 поколение — серия HD4000/Iris 5200

В представленных в 2012 году процессорах 3 поколения Core под кодовым названием Ivy Bridge Intel продолжила начатую революцию встроенной графики. Устранили узкое место — низкий филлрейт, добавив растровые и текстурные блоки — теперь их стало 2 и 4 соответственно. Количество шейдерных блоков увеличилось до 128, EU — до 16, был добавлен небольшой собственный кеш для графического процессора. Благодаря этим изменениям HD4000 стала от полутора до двух раз быстрее предшественника. К тому же были внесены изменения в графический конвейер и добавлен блок тесселяции. Теперь встроенная графика полностью поддерживала самые современные API — DirectX 11, OpenGL 4 и шейдеры версии 5.0. Плюс ко всему этому теперь она обзавелась поддержкой декодирования 4K-видео с кодеком AVC.

При этом частота ядра снизилась на пару сотен МГц, а память на новых процессорах ускорилась лишь немного — стала поддерживаться DDR3-1600 с полосой пропускания 25.6 Гб/c. Как и в прошлом поколении, для ряда процессоров была применена упрощенная версия графики — она получила название HD2500. Несмотря на то, что блоков EU в ней было 6, как и в предшественнике, за счет архитектурных изменений она могла быть ощутимо быстрее HD2000, почти наравне с HD3000 — при том, что некоторые новые тайтлы давались новинке даже лучше.

В 2013 году, с выходом процессоров 4 поколения под кодовым названием Haswell, Intel в очередной раз доработала встроенный ГП. Новинка получила 160 шейдерных процессоров, объединенных в 20 EU. Ускоренный в два раза кеш процессоров новой архитектуры позитивно повлиял и на встроенную графику. Все это привело к увеличению производительности примерно в полтора раза. В итоге, HD4600 практически сравнялась с дискретными картами уровня популярной бюджетной GeForce GT630, чего было достаточно для многих игр на низких настройках в HD-разрешении. Несмотря на ощутимое повышение производительности, количество растровых и текстурных модулей осталось неизменным, да и частота ядра тоже осталась прежней. Максимальный объём памяти, доступный для графики, был увеличен до 2048 Мб.

Конвеер в очередной раз был доработан, улучшился блок тесселяции, добавилась поддержка DirectX 11.1, позже — частичная для DirectX 12. Но самое главное то, что устройство графической части отныне проектировалось изначально масштабируемым по 10 EU с 80 шейдерных процессорами. Такой модуль Intel называет Subslice. В более ранних ГП для получения младшего варианта графики отключались блоки. Теперь же можно было изначально формировать на кристалле нужное количество таких «кирпичиков», не тратя транзисторный бюджет на отключенную часть.

В Pentium и Celeron такой блок был один, в основной массе Core i3/i5/i7 — два, а в отдельных мобильных моделях — целых четыре. Последняя версия получила две разновидности: HD5000 и Iris 5100. Обе обладают 320 шейдерными процессорами, 40 EU, 4 ROP и 8 TMU. Начиная с Haswell, Intel больше внимания стала уделять производительности мобильной графики, нежели десктопной. Как следствие, некоторые мобильные модели стали получать производительную встроенную графику, аналогов которой у сокетных десктопных процессоров просто не было.

Для топовых мобильных i7 и распаиваемых на плате десктопных версий i5/i7 рядом с процессором был внедрен дополнительный кристалл высокоскоростной памяти eDRAM объемом 128 Мб, который играл роль кеша 4 уровня. Помимо процессора, этот кеш использовался и встроенной графикой, аналогичной по конфигурации блоков HD5000 и Iris 5100. Она получила название Iris Pro 5200. Благодаря дополнительному быстрому кешу скорость работы по сравнению с HD4600 удвоилась и находилась на уровне дискретной GeForce GT640. К сожалению, в массовых моделях встроенных ГП Intel пользователь не увидит такой производительности еще долго.

8 поколение — серия HD5500/Iris 6200

Следующее поколение процессоров Core под кодовым названием Broadwell — пятое. Оно обрело в очередной раз улучшенную графику. Правда, десктоп в этот раз остался практически в стороне — для ПК была выпущена только пара моделей i5 и i7, а остальной ассортимент достался ноутбукам. Частота поддерживаемой памяти осталась прежней — все та же DDR3-1600.

Топовая графика Iris Pro 6200, которая теперь досталась и редким десктопным моделям, стала эволюционным развитием Iris Pro 5200. Ее базовым «кирпичиком» стал более мелкий модуль Subslice из 8 EU и 64 шейдерных процессоров. Общее количество шейдеров увеличилось незначительно — с 320 до 384, но текстурный и пиксельный филлрейт довольно сильно подросли. Это стало возможным благодаря удвоению растровых и текстурных блоков. В Iris Pro 6200 их стало 8 и 16 соответственно. Никуда не делся и быстрый кеш eDRAM объемом в 128 Мб, повышающий производительность. Такой набор устранил слабые места и позволил новой графике местами довольно близко подойти к уровню дискретной GeForce GTX650.

Однако Iris Pro 6200 постигла та же участь, что и ее предшественника в лице Iris Pro 5200 — малая распространенность. Десктопные процессоры Broadwell были редки и дороги, а в мобильных такая графика устанавливалась разве что в топовые i7. Некоторые ноутбучные модели получили HD6000 и Iris Graphics 6100 с такими же характеристиками, но без eDRAM кеша.

При всех достоинствах графики Iris, основная масса мобильных процессоров пятого поколения ограничилась гораздо более простыми HD Graphics 5300/5500, которые являлись «половинкой» старшей модели. Она включая в себя 192 шейдерных блока, 24 EU, 4 блока растровых операций и 8 текстурных юнитов. Производительность этих моделей недалеко ушла от HD Graphics 4600 — среднее превосходство составляло всего около четверти, а то и меньше.

Графика в немногочисленных бюджетных моделях Pentium и Celeron и такого отрыва от своих предшественников не показывала — несмотря на 96 шейдеров против старых 80, ее частоты снизили на четверть, из-за чего чаще всего наблюдался паритет между старым и новым поколением. При этом даже старшие решения за пределы 1150 МГц по ядру так и не вышли, оказавшись по этому параметру аналогичными двум предшествующим поколениям графики.

9 поколение — серии HD, UHD и Iris 500/600

В конце 2015 года, после прихода 6 поколения процессоров Core под кодовым названием Skylake, Intel на несколько лет практически перестала развивать как процессорную архитектуру, так и графическую. Массовая графика мобильных Broadwel — HD5500 — практически без изменений перекочевала в процессоры Skylake, сменив имя на HD520/530. Те же 192 шейдера, 24 исполнительных блока, 4 ROP и 8 TMU, аналогичные рабочие частоты. Наибольшие отличия лишь в полноценной поддержке DirectX 12, Open GL 4.6 и Vulkan, а также новом декодере для видео формата HEVC.

Благодаря новым драйверам встроенное видео теперь могло использовать до половины системной памяти — правда, реально такая возможность встроенной графике в большинстве случаев была ни к чему. Пропускная способность увеличилась из-за новой памяти DDR4: теперь это значение могло достигать 34.1 Гб/c. При этом сокетные десктопные модели более производительных версий графики не получили, что было шагом назад по сравнению с предшественником Broadwell. Как следствие, несмотря на увеличившееся количество растровых блоков, текстурных юнитов и новую память, производительность массовой графики HD530 все также топталась рядом с позапрошлогодней HD4600.

Младшие Pentium и Celeron ограничились урезанной версией под названием HD 510, которая являлась половинкой старшего брата по всем рабочим блокам. Немногочисленные модели Iris Graphics 540/550, распространявшиеся в некоторых мобильных моделях, являлись копией Iris Pro 6200 с уменьшенным до 64 Мб объемом памяти eDRAM. Обойти они своего прямого предшественника не смогли, но показывали производительность примерно на его уровне.

Особняком стояла новая Iris Pro 580, получившаяся, по сути, полуторакратным масштабированием Iris Pro 6200 — целых 576 шейдерных процессоров в 72 исполнительных блоках, 12 ROP и 24 TMU. Не пожалели для нее и полноценный кеш eDRAM объемом 128 Мб. Все это делало Iris Pro 580 новым рекордсменом производительности среди встроенной графики Intel. Однако в реальных устройствах она встречалась исключительно редко — только в топовых мобильных i7, где в пару процессору обычно ставили дискретную графику, или в некоторых дорогих моноблоках с распаянными процессорами. По производительности такая графика в определенных случаях может дотянуться даже до GeForce GTX750, но из-за нераспространенности в реальных устройствах практического смысла в ней было немного.

Графика, встроенная в массовые процессоры 7 поколения Kaby Lake, изменений не претерпела, лишь сменив название на HD620/630. Благодаря новому контроллеру памяти процессоров увеличилась разве что пиковая пропускная способность — с 34.1 до 38.4 Гб/c. Младшие модели получили переименованную HD510 в виде HD610. Вариации Iris сменили приставку Pro на Plus: 540 модель стала именоваться Iris Plus 640, 550 — Iris Plus 650. Преемника Iris Pro Graphics 580 в этом поколении не последовало — скорее всего потому, что процессоры с такой графикой получались слишком дорогими, и без дискретной графики все равно почти нигде не использовались.

С приходом 8 поколения процессоров Coffee Lake в 2017 году, название HD Graphics было изменено на Ultra HD Graphics — для подчеркивания возможности работы с видео высокого разрешения и соответствующими мониторами. HD630 стала UHD630, HD610 — UHD610. Была расширена работа с видеокодеками, а поддерживаемая скорость памяти в очередной раз повысилась, обеспечив пропускную способность в 42.7 Гб/c. И, в общем-то, все. В таком же виде она перекочевала в массовые процессоры 9 и 10 поколения без каких-либо изменений. Сама Intel относит UHD к поколению 9.5, но нововведений в самом графическом процессоре или поддерживаемых API со времен Skylake так и не было.

11 поколение — серия UHD/Iris Plus

Несмотря на то, что десктопные процессоры 10 поколения производились по старым 14 нм нормам, мобильные модели было решено перевести на более современные 10 нм. Тем более, что ноутбуки нуждались в более быстрой встроенной графике гораздо больше, чем десктопы. Именно поэтому эти процессоры, получившие кодовое имя Ice Lake, стали пробой пера для очередного поколения графики — одиннадцатого. При этом цифру «10» в поколениях графики решено было перепрыгнуть.

В новую линейку встроенных ГП входило три модели: две Iris Plus и одна UHD. Старшая имеет 512 шейдерных процессоров (64 EU), средняя 384 (48 EU), младшая — 256 (32 EU). От кристалла eDRAM, значительно увеличивавшего цену конечных продуктов, решено было полностью отказаться. Была добавлена совместимость с DirectX 12.1 и поддержка затенения с переменной скоростью, проведена оптимизация, увеличена пиковая пропускная способность памяти платформы — при использовании самой быстрой памяти это значение доходит до 59.7 Гб/c. Это позволило увеличить производительность — старшая модель догоняет старые Iris с 48 исполнительными блоками и eDRAM кешем, и в ряде случаев способна приблизиться к дискретной GeForce GT1030.

Претерпели изменения как набор инструкций ГП, так и внутренняя конфигурация блоков: теперь 2 ROP и 4 TMU приходятся не на 96 шейдерных процессоров, а на 128. В итоге, старшая модель обладает все теми же 8 ROP и 16 TMU, что и прошлые модели Iris, за исключением топовой на свое время Iris Pro 580. Но это только начало кардинальных изменений. Все самое интересное ждет графику Intel в следующем, 12 поколении.

12 поколение — серия Xe

На самом деле, работа над 11 поколением графики была лишь подготовкой к чему-то более масштабному. Еще в 2019 году Intel объявила о разработке новой графической архитетуры, которая в будущем станет основой как дискретных, так и встроенных графических решений. Она получила название Intel Xe и должна была включать в себя несколько вариаций для разного оборудования: Xe-LP для встроенной графики, Xe-HP для центров обработки данных, Xe-HPC для ускорителей вычислений, и Xe-HPG для высокопроизводительных дискретных графических процессоров.

Первое поколение Xe-LP дебютировало с выходом 11 поколения процессоров Core под кодовым названием Rocket Lake. Было удвоено количество блоков растровых и текстурных операций — теперь 2 ROP и 4 TMU приходятся на каждый блок Subclice, а не на пару, как ранее. За счет этого филлрейт новой встроенной графики увеличился в два раза.

Для дектопных процессоров представили две разновидности — UHD750 с 256 шейдерными процессорами и 32EU и слегка урезанную UHD730 с 192 шейдерами и 24 EU. Пропускная способность памяти на десктопе ограничилась значением 51.2 Гб/c, а потолок частоты ядра поднялся до 1300 МГц. Из-за небольшого количества шейдеров, производительность старшей модели по сравнению со старой HD530/630 увеличилась не так сильно — чуть более, чем на треть. С младшей моделью разница у предшественника еще меньше.

А вот мобильные версии, как и раньше, получили больше исполнительных блоков. Причем, в этот раз еще более существенно — под разными версиями Iris Xe Graphics в ноутбучных процессорах скрываются две вариации графики, обладающие 640 шейдерами в 80 EU и 768 шейдерами в 96 EU. Соответственно новой иерархии соотношения блоков, старшая версия обладает 24 ROP и 48 TMU, младшая — 20 ROP и 40 TMU, что наконец стало первым существенным скачком аж со времен редкого Iris Pro 580 конца 2015 года. Пиковая пропускная способность памяти на мобильной платформе возросла до 68.2 Гб/c, что тоже положительно повлияло на производительность. Все это позволило графике идти на равных с современными дискретными мобильными видеокартами начального уровня — такими, как GeForce MX350.

Одна из разновидностей Iris Xe устанавливается во все мобильные процессоры этого поколения, за исключением Pentium и Celeron. Последние получили урезанную версию под названием UHD Graphics, которая при этом все равно быстрее десктопной UHD750. Она содержит 384 шейдерных процессора, сгрупированных в 48 EU.

Позже на основе одной из конфигураций блоков встроенной ноутбучной Iris Xe была выпущена первая с 1998 года дискретная карта Intel — Iris Xe DG1. Обладая собственной памятью 4Гб LPDDR4X с пропускной способностью 68.2 Гб/c, карта оказалась немного производительнее GeForce GT1030 — чаще всего на уровне с более быстрой Radeon RX550. Такие же характеристики имеет мобильная разновидность дискретной Iris Xe DG1 в ноутбуках — там она носит имя Iris Xe Max.

В 2022 году в 12 поколении процессоров Alder Lake архитектурно графика не поменялась. Старшая версия стала называться UHD 770, обзаведясь частотой ядра до 1500 МГц и поддержкой новой памяти DDR5 с пропускной способностью до 76.8 Гб/c. Добавился младший вариант UHD 710, в котором всего 128 шейдерных блоков — он нашел применение в новых Pentium и Celeron. Также стал доступен промежуточный вариант UHD с 512 шейдерами для мобильных процессоров.

Первая итерация архитектуры Xe-HPG, предназначенная для производительных карт, получила название Alchemist. Блоки производительного варианта архитектуры претерпели изменения по сравнению с теми, которые используются во встроенной графике. В каждом новом базовом блоке 128 шейдерных процессоров и 16 EU. К нему привязаны 4 растровых и 8 текстурных модуля, а также одно специализированное ядро для трассировки лучей.

Среди десктопных карт в свет вышла пока только младшая модель — Arc 3 A380, в которой таких блоков 8. Вместе они образуют 1024 шейдерных процессора в 128 EU, 32 ROP и 64 TMU. Память GDDR6 соединяется с ГП по 96-битной шине и обладает пропускной способностью 186 Гб/c. Карта уже способна достичь производительности современных бюджетных GeForce GTX1650 или Radeon RX6400, но в некоторых проектах результаты нестабильны — сказывается сырость драйверов, которые компания обещает «допилить» до конца года. Мобильные версии чипа под названиями A370M и A350M показывают результаты ниже: первый урезан по только по частоте, а второй — еще и по шейдерным блокам, там их всего 768. При этом у обоих гораздо меньше пропускная способность из-за применения более узкой 64-битной шины — всего 112 Гб/c.

В третьем квартале года готовятся к выходу старшие карты Alchemist. Это Arc 5 — A580 и A550M, а также топовые Arc 7 — A770, A770M и A730M. Старшая версия будет обладать 4096 шейдерными процессорами, сгруппированными в 512 EU, 128 ROP и 256 TMU, 64 блоками RT и 16 Гб 256-битной GDDR6 памяти с пропускной способностью 512 Гб/c. Остальные версии получат ГП с меньшим количеством блоков, объемом памяти и ее пропускной способностью. Ожидаемая производительность флагмана на старте — примерно на уровне RTX 3060 Ti.

Будущие поколения

На презентации нового семейства дискретной графики Intel объявила, что уже работает над следующими поколениями графики Xe и даже назвала их кодовые имена: после Alchemist следуют Battlemage, затем Celestial, и, наконец, — Druid.

Компания серьезно настроена развивать дискретную графику в будущем, за что можно простить ей первые «блины комом» в виде недоработанных драйверов Alchemist на выходе. Сейчас Intel занимается оптимизацией новой графики, но при этом говорит откровенно: архитектура Xe лучше всего справляется с проектами на современном DirectX 12. В случае со старыми играми, использующими прошлые версии DirectX, производительность будет немного ниже конкурентов. Впрочем, в старых проектах производительности Xe и так чаще всего достаточно, поэтому упор на современный API для новых моделей карт в 2022 году не выглядит странно.

Увы, первоначальные планы Intel выйти на рынок на равных с NVIDIA и AMD, не сбылись. Но до средних решений линейка карт Alchemist вполне дотянулась, что тоже неплохо для выхода на рынок дискретных моделей впервые за столько лет. Не стоит забывать, что в 2024 году Intel выпустило второе поколение карт Xe — Battlemage, которые учитывают прошлые ошибки и радуют более высокой производительностью. А пока мир замер в ожидании старших карт от компании, которые увидят свет уже совсем скоро.

Показать полностью 10

Компьютерное железо Технологии IT Тестирование Производство История развития Электроника Видеокарта Процессор Intel Длиннопост

zhizait

4 месяца назад

Тимлид-аферист (но это никому не вредит)⁠⁠

Источник: «Жиза ИТ руководителя»

Показать полностью 2

IT Работа Тимлид Компьютерное железо Генеральный директор Аферист Telegram (ссылка) Длиннопост

TechSavvyZone

4 месяца назад

Intel: "Графические процессоры" История пути⁠⁠

В 2023 году на рынке дискретных видеокарт помимо NVIDIA и AMD наконец появился третий игрок – Intel. Многие пользователи достаточно скептически отнеслись к выходу графических ускорителей процессорного гиганта. Но далеко не все знают, что у графики Intel за плечами история в почти четверть века.

Начало — i740

История первого графического процессора компании берет корни еще в начале 1990-х. Тогда компания GE Aerospace, являющаяся частью General Electric, решила создать собственный графический ускоритель для использования в симуляторе полетов космической программы Апполон. В 1992 году GE Aerospace продала свою часть, связанную с космическими разработками, компании Martin Marietta, также ведущей дела в аэрокосмической отрасли. Последняя в 1995 году объединилась с авиастроительной компанией Lockhead Corporation, образовав корпорацию Lockheed Martin.

Сразу после слияния Lockheed Martin сформировала подразделение Real 3D, чтобы использовать уже имеющиеся наработки в 3D-графике и выйти с ними на потребительский рынок. Успех не заставил себя долго ждать — продукция компании стала пользоваться успехом в аркадных автоматах Sega. Intel заинтересовалась проектом, после чего совместно с ней решено было разработать графические ускорители для персональных компьютеров.

Модель, ставшая продуктом этой коллаборации, увидела свет в 1998 году, и получила название Intel i740. Уникальным было то, что карта изначально проектировалась под особенности интерфейса AGP, в то время как другие игроки рынка в то время ориентировались на PCI. Собственная графическая память карты объемом от 2 до 8 Мб использовалась только для хранения буфера кадров, а текстуры хранились в оперативной памяти ПК. Центральный процессор в системах того времени производил часть геометрических расчетов в 3D. Ставка делалась на расположение текстур в ОЗУ и быстрый канал между ней и графическим процессором. В теории, это должно было повысить производительность без необходимости использовать много быстрой памяти на самой видеокарте.

Именно поэтому модель предназначалась в первую очередь для ПК, оснащенных современными на то время процессорами Pentuim 2 с поддержкой шины AGP. Но партнеры Intel помимо AGP-версий выпускали и версии карты, обладающие интерфейсом PCI. Он организовался с помощью дополнительной микросхемы-моста, распаивающейся на карте. Так как при такой компоновке преимущества скорости интерфейса AGP использовать не получалось, эти модели помимо буфера оснащались собственной графической памятью от 8 до 16 Мб.

i740 обладала единственным пиксельным конвеером, растровым (ROP) и текстурным (TMU) блоком, поддерживала 16-битный цвет, двойную буферизацию, Z-буфер, билинейную и трилинейную фильтрацию, мип-маппинг и альфа-блендинг — все, что было нужно, чтобы воспроизводить проекты 1998 года. Среди поддерживаемых графических API поддерживались DirectX 5.0 и OpenGL 1.1. Качество картинки было неплохим, но производительность по сравнению с конкурентами часто удручала. Реализация хранения текстур в ОЗУ была слишком тяжелой для аппаратного обеспечения того времени: из-за малой пропускной способности интерфейсов AGP и оперативной памяти шины просто забивались данными, из-за чего страдала производительность центрального процессора и, в итоге, всей системы.

1 поколение — i810/i815

В апреле 1999 года Intel анонсировала преемников i740 — модели i752 и i754. Новые карты должны были поддерживать DirectX 6.0, мультитекстурирование, анизотропную фильтрацию и компенсацию движения в видео формата MPEG-2, что позволило бы не отставать в технологичности от конкурентов. При этом добавлять конвееры пока не планировалось, улучшение производительности должны были обеспечить только повышенные частоты ядра и памяти.

Однако уже в августе того же года Intel прекратила производство i740 и отказалась от выпуска новых моделей линейки, тем самым надолго исчезнув с рынка дискретных видеокарт. В конце года Intel представила чипсет Intel 810, предназначаемый для использования с процессорами Pentium 2 и Pentium 3. В новый набор микросхем был встроен графический процессор, для своих нужд использующий часть оперативной памяти. Все наработки и улучшения ранее планируемых моделей вошли в эту встроенную графику.

Чтобы ускорить доступ встроенной видеокарты к памяти, была реализована новая технология — DirectAGP. Ее суть в том, что графическое ядро подключается к ОЗУ не через шину AGP 2x, а напрямую через контроллер памяти. Последний на 810 чипсете поддерживал память типа SDRAM на частоте до 100 Мгц. Это позволило увеличить пропускную способность между ГП и памятью в полтора раза по сравнению с AGP 2x и достичь значения в 800 Мб/c — такого же, каким обладал буфер на дискретной карте i740. Опционально устанавливался дисплейный кеш — микросхемы объемом 4 Мб, распаиваемые непосредственно на материнской плате. Он предназначался для хранения буфера глубины изображения, освобождая этим часть системной памяти и немного ускоряя работу встроенной графики.

Впервые была реализована и другая технология — DVMT. Она заключается в том, что необходимая графическая память теперь выделяется из ОЗУ динамично по мере потребности, а не статично в определенном количестве. Это позволяет в периоды отсутствия 3D-нагрузки снижать потребление графической памяти и тем самым выделять больше места под оперативную память системы. Максимально чипсет мог выделить на нужды графики из ОЗУ до 32 Мб.

Чипсет Intel 815, вышедший годом позже, графических изменений практически не принес. По сути, прошлую модель лишь немного разогнали по ядру и добавили возможность установки в систему памяти SDRAM на 133 МГц, что увеличивало ее пропускную способность до 1067 Мб/с.

2 поколение — серия Extreme Graphics

C выходом на рынок процессоров Pentium 4 Intel понадобились новые чипсеты, в том числе с интегрированной графикой. Первым таким в конце 2001 года стал Intel 845G. В его состав вошла обновленная графика, получившая собственное имя Intel Extreme Graphics.

Удвоение пиксельных конвееров и текстурных блоков, повышенная до 200 МГц частота ядра и поддержка новой памяти типа DDR частотой 266 МГц сделали свое дело — интегрированное видео стало заметно быстрее. Однако в плане поддержки «железных» функций ГП изменений не было: все также отсутствовали аппаратная трансформация и освещение (T&L), а также шейдеры, из-за чего аппаратная поддержка ограничивалась DirectX 6 и OpenGL 1.3. Драйвер Intel рапортовал о поддержке DirectX вплоть до 9.0, но она была лишь программной: эмулировал работу T&L и шейдеров по-прежнему центральный процессор системы. Несмотря на это, в некоторых проектах Extreme Graphics догоняла по производительности бюджетную GeForce2 MX200.

Extreme Graphics 2, которую получил чипсет Intel 865G, увидевший свет в 2003 году, стал небольшим эволюционным изменением. Частота видеоядра была увеличена до 266 МГц, а система стала поддерживать память DDR вплоть до 400 МГц, причем впервые в двухканальном режиме. Благодаря этому пропускная способность памяти по сравнению с 845G увеличилась в несколько раз — до 6.4 Гб/c. Производительность за счет этого возросла, но незначительно.

Обе версии встроенной графики этого поколения также впервые получили мобильные версии с пониженной частотой ядра и пропускной способностью памяти: 166 Мгц и 1 Гб/c в случае с Extreme Graphics, а также до 266 МГц и 2.7 Гб/c в случае Extreme Graphics 2. Максимальный объем памяти, который могли использовать как десктопные, так и мобильные версии, составил 96 Мб.

3 поколение — серия GMA 900

Первенцем, содержащим в себе третье поколение графики Intel, стал чипсет Intel 910GL, разработанный для процессоров Pentium 4 под новый на тот момент socket 775.

Разработка получила имя Graphics Media Accelerator 900. Архитектура видеоядра была переработана, пиксельных конвееров, растровых и текстурных блоков стало по четыре, частота ядра увеличилась до 333 Мгц. Поддерживалась как старая DDR, так и новая DDR2 вплоть до 533 МГц. За счет изменений в ГП заметно увеличилась скорость закраски 3D-картинки — с 266 до 1332 Мпикс/с, однако главную проблему производительности это не решило: T&L и шейдеров не появилось. Но список игр, в которые можно было поиграть с комфортом, по сравнению с прошлым поколением графики значительно расширился.

Формально GMA900 поддерживала шейдеры версии 2.0 и современный DirectX 9.0 — как вы уже догадались, эта поддержка была программной. Максимальный объем памяти, который могло использовать графическое ядро, составлял 256 Мб. Усовершенствованная версия GMA950 появилась в следующем чипсете 945G спустя год. Частота ядра увеличилась до 400 МГц, стала поддерживаться память DDR2-667. Архитектурных изменений не последовало, но программную поддержку Intel улучшила — теперь стал доступен DirectX 9.0c и шейдеры версии 3.0. Правда, на практике это мало что давало: разве что теперь официально поддерживался интерфейс Aero операционной системы Windows Vista. Мобильные версии графики начиная с этого поколения отличались от десктопных лишь немного пониженной частотой ядра.

4 поколение — серия GMA X

В 2006-м готовящееся появление на рынке дискретной графики видеокарт с универсальной шейдерной архитектурой не оставило равнодушным и процессорного гиганта, который в своих недрах тоже разрабатывал встроенную графику, основанную на универсальных шейдерах. Ее представили вместе с чипсетом Intel G965. Новый видеоадаптер получил название Graphics Media Accelerator X3000. Так как анонс 965 чипсета состоялся чуть раньше карт серии GeForce 8800, формально именно Intel является первым производителем, выпустившим на рынок графические процессоры с универсальной шейдерной архитектурой.

Однако на момент выхода на рынок аппаратные шейдеры драйвером графики все также не поддерживались, просчет велся программно. На полную производительность X3000 вышла только в конце 2007 года с выходом соответствующих драйверов. Именно тогда 64 шейдерных процессора, сгруппированные в 8 исполнительных блоков (EU) вкупе с аппаратным T&L, смогли показать существенную разницу в производительности по сравнению с предыдущим поколением GMA. Количество растровых и текстурных блоков осталось неизменным, но повышенный филлрейт обеспечивала увеличившаяся до 667 МГц частота ядра. Положительно для пропускной способности сказалась поддержка чипсетом памяти DDR2 на частоте 800 МГц. Памяти для графики теперь могло использоваться в полтора раза больше — до 384 Мб.

GMA X3500, выпущенный в 2007 году вместе с чипсетом G35, отличался от предшественника драйверами, и со старта поддерживал DirectX 10 и шейдеры версии 4.0. Какого-то ощутимого прироста производительности не последовало, за это время просто допилили совместимость с новым API. Однако для X3000 соответствующие драйвера с поддержкой десятого «директа» так и не выпустили. Это выгодно выделяло новинку X3500, хотя аппаратных изменений в ее шейдерных процессорах не было.

Параллельно с чипсетом G965 Intel выпускает бюджетный 946GZ. Встроенное графическое ядро в нем носит название GMA3000, но на деле ничего общего с GMA X3000 не имеет — по сути, это старый добрый GMA950 с повышенной частотой. Такой же трюк проходит на следующий год с чипсетами G31 и G33 — в них устанавливается GMA3100. Обе модели относятся к третьему поколению графики Intel, не имеют аппаратного T&L и поддерживают шейдеры лишь программно.

В 2008 году в составе чипсетов G41 и G43 появляется усовершенствованное видеоядро GMA X4500. Шейдерных процессоров прибавилось — их стало 80 против 64 в предшественнике, а группировались они теперь в 10 EU. Количество растровых и текстурных блоков изменений не претерпело, но скорость заливки увеличилась благодаря частоте ядра в 800 МГц. Видео GMA X4500 с приставкой HD в чипсете G45 получило такой же набор функций, за исключением дополнительной возможности: им стало поддерживаться полное декодирование для форматов MPEG-4 AVC, VC-1 и MPEG-2 против частичной у обычной модели.

Совместимость с DirectX 10 сохранилась, а благодаря новым драйверам появилась поддержка и современной на тот момент версии OpenGL 2.0. За счет поддержки новыми чипсетами новой памяти DDR3, максимальная пропускная способность графической памяти увеличилась до 17 Гбайт/c против 12.8 Гбайт/c у предшественника. Предельный объем памяти, которую дозволено использовать под графическую, тоже расширили, причем значительно — до 1720 Мб.

Параллельно с развитием 4 поколения собственной графики, в 2008 году Intel начала лицензировать у PowerVR графические ядра серии SGX500 для использования в экономичных процессорах для нетбуков и планшетов. Именно поэтому серии GMA 500, 600 и 3600, несмотря на название «Intel», разработкой последней не являются. Данная практика имела место вплоть до 2012 года, после которого на смену лицензируемой графике в экономичных процессорах пришли на смену собственные разработки.

5 поколение — серия HD

С выходом процессоров первого поколения Intel Core i3 и i5 со встроенной графикой, который пришёлся на начало 2010 года, было решено переместить видеоядро под крышку процессора. Однако оно было не в составе основного кристалла процессора, а размещалось рядом с ним в виде отдельного, содержащего в себе также контроллер памяти.

За основу было взято ядро GMA X4500HD, благодаря чему теперь возможность аппаратного декодирования популярных видеоформатов появилась у всех массовых моделей новых процессоров со встроенной графикой. Были добавлены шейдерные блоки — теперь их стало 96, а блоков EU — 12. Количество ROP и TMU не изменилось еще со времен GMA900, но за счет увеличенной частоты возросла скорость заливки — в отдельных моделях ГП работал на частоте вплоть до 900 МГц. Благодаря поддержке более скоростной памяти DDR3-1333, пропускная способность памяти возросла до 21.3 Гбайт/c. Небольшие изменения в конвеере добавили графике поддержку DirectX 10.1, OpenGL 2.1 и шейдеров модели 4.1.

Несмотря на очередную смену поколения, изменения в нем скорее эволюционные, чем революционные. А вот настоящая революция графики Intel начинается как раз в поколении следующем.

6 поколение — серия HD3000

В 2011 году на рынок выходит 2 поколение процессоров Core под кодовым названием Sandy Bridge. Впервые, со времен появления Core 2 Duo, процессоры обеспечивают видимый прирост производительности благодаря новой архитектуре.

Но на этом еще не все. Помимо процессорных ядер, кристалл ЦП теперь содержит в себе и встроенную графику нового поколения — HD3000.

Она основана на кардинально переработанной графической архитектуре, соединяется с системой по быстрой кольцевой шине и может использовать кеш-память процессора для сокращения задержек данных, поступающих из ОЗУ. Это дает хороший прирост, хотя сама пропускная способность памяти с прошлого поколения не выросла. Количество шейдерных процессоров все так же 96, но они переработаны и обладают более высокой производительностью. Так как на них ушло достаточно много транзисторного бюджета, было решено отказаться от прежней конфигурации растровых и текстурных блоков, оставив каждого только по одному. При этом их реальную эффективность подняли, а для увеличения филлрейта частота ГП была поднята вплоть до 1350 МГц.

Уровень поддержки DirectX не изменился — все тот же 10.1, OpenGL теперь поддерживается версии 3.1. Но дело далеко не в этом. Впервые за много лет встроенная графика Intel позволила запускать достаточно современные на момент ее выхода игры с приемлемой частотой кадров, пусть в невысоком разрешении и на низких настройках. Call of Duty: Modern Warfare 2, Medal of Honor (2010), Left 4 Dead 2, Bioshock 2 и даже Crysis вполне можно было поиграть на видеоадаптере HD3000. В плане производительности он стал близок к таким бюджетным дискретным моделям, как GeForce 9500GT и Radeon HD5450.

Однако такой графикой оснащались не все процессоры нового поколения — только мобильные i3/i5/i7, и несколько десктопных моделей с индексом K и без него. Прочие модели получили упрощенную версию с уменьшенным в два раза количеством шейдерных блоков под названием HD2000. Но даже это не помешало младшей версии новой графики опережать в производительности предшественника в лице HD Graphics первого поколения. Бюджетные Pentium и Celeron этого поколения тоже обладают такой графикой, однако без приставки 2000 — в них она числится под именем HD Graphics.

В виду ограничения фотоматериалов

ПРОДОЛЖЕНИЕ СЛЕДУЕТ...

Показать полностью 12

Компьютерное железо Технологии IT Компьютер Intel Компьютерная графика Процессор Электроника Производство Контроллер Длиннопост

TechSavvyZone

4 месяца назад

Технологии: "Искусственный интеллект" как обучают нейронные сети. Часть Вторая⁠⁠

Насколько эффективнее тензорные процессоры в сравнении с теми же CPU или GPU?

Сравнивать можно на разных моделях, оценивать производительность в зависимости от формата и размера выборки. В случае с облачными решениями немаловажен такой критерий, как стоимость на операцию. Например, Cloud TPU может обрабатывать меньше изображений в час по сравнению с теми же ускорителями Nvidia, но при этом цена за час использования будет ниже за счет меньшего энергопотребления.

Новейшие центры обработки данных Google на базе TPU v5e способны работать с моделями вплоть до двух триллионов параметров. Для сравнения, языковая модель GPT-3 имеет 175 миллиардов параметров.

Можно уверенно сказать, что тензорные процессоры от Google предлагают передовые и местами наиболее эффективные решения в области машинного обучения за счет особенностей архитектуры. С другой стороны, облачные решения от Nvidia на базе Tesla более распространенные и универсальные.

Пользовательские нейронные ускорители

Главная проблема тензорных процессоров от Google — это фирменная разработка на облаке, так что получить к ней доступ большинству пользователей может быть проблематично. В случае с Nvidia вы можете купить топовую видеокарту уровня RTX 3090/4090 или PCI-E ускоритель Tesla для работы с нейросетями «на дому».

Однако в последние годы появилась альтернатива — нейронные ускорители TPU в виде PCI-E карт или отдельных мини-серверов. Возможности именно тренировки нейросетей у них ограничены, а зачастую такие платы и вовсе не предназначены для этого. Однако в задаче выполнения нейросети (Inference) такие решения могут стать выгоднее покупки дорогостоящих GPU.

Google в 2018 году выпустила чип Edge TPU, который устанавливался ни мини-ПК, платы с mini PCI-E и M.2. С его помощью можно локально на своем компьютере ускорять выполнение или простейшее обучение нейронных сетей, заявленная производительность в INT8 — 4 TOPS.

На базе Edge TPU вышла полноценная PCI-E карта Mustang-T100-T5 на пять процессоров Google Coral Edge TPU (суммарно 20 TOPS) с энергопотреблением всего 15 Вт.

Китайский производитель предлагает целую линейку микро-серверов на базе процессоров SOPHON BM1684 и CV186AH. Модули нацелены на такие сферы применения, как структурирование видео, распознавание лиц, анализ поведения и мониторинг статуса. То есть преимущественно задачи компьютерного зрения.

Для ПК и рабочих станций имеются PCI-E карты, ориентированные на машинное обучение в области компьютерного зрения.

Разработчики из SOPHON также приводят сравнение с ускорителями Huawei Atlas 300, Nvidia Tesla T4 и P4.

Эти платы заточены под видеоаналитику, поэтому в сравнении с теми же GPU обойдутся дешевле для решения конкретно этой задачи.

Компания Intel также ведет разработку узкоспециализированных чипов, ориентированных на машинное обучение. Среди них — Intel Movidius Myriad и Arria. Эти платы также ориентированы на машинное зрение, поэтому получили название VPU — Vision Processing Unit.

Они также могут пригодиться в автоматизированных системах контроля качества на производстве, системах машинного зрения и не только.

Заключение

Нейронные ускорители — это специализированные платы, предназначенные для машинного обучения или выполнения моделей нейронных сетей. Десктопные и профессиональные GPU вполне могут использоваться для работы с ИИ. Однако параллельно ведется разработка и внедрение еще более узкоспециализированных решений. У Google это Tensor Processing Unit (TPU) — платы, предлагающие минимальное энергопотребление и возможность быстрой тренировки/выполнения по относительно доступной цене. В области пользовательских плат также есть TPU и VPU, которые ориентированы преимущественно на выполнение нейросетевых моделей. Они часто имеют меньшее энергопотребление и более доступный ценник в сравнении с топовыми GPU под ИИ.

Показать полностью 12

Технологии IT Компьютерное железо Тестирование Инженер Искусственный интеллект Нейронные сети Инновации Распределенные вычисления Машинное обучение Длиннопост

TechSavvyZone

5 месяцев назад

Технологии: "Искусственный интеллект" как обучают нейронные сети⁠⁠

Мы переживаем самый настоящий бум ИИ — чат-боты, нейросети для рисования, продвинутые системы распознавания и не только. Однако для работы с ИИ нужны соответствующие вычислительные мощности. Для этого могут использоваться в том числе нейронные ускорители. Что это за устройства, каковы их особенности и возможности?

Немного про обучение нейросетей

Для начала стоит понять, как именно происходит машинное обучение и почему для этого не подойдет любая вычислительная техника.

Если очень упростить, то нейросетевые операции используют буквально два основных действия — это умножение и сложение. Например, для распознавания каких-либо визуальных образов необходимо предоставить набор изображений и коэффициенты (веса), по которым мы будем искать конкретные признаки. Путем перемножения этих коэффициентов на анализируемое изображение нейросеть получает определенное значение. И если оно больше порогового, то она выдает результат. Например, что перед нами определенная цифра или объект.

Главная проблема в том, что количество этих коэффициентов невероятно больше. Например, нейросеть из 10 нейронов, способная распознавать изображения 28 на 28 пикселей, требует 784 коэффициента для каждого слоя — итого 7840 весов.

Как именно обрабатывать все эти вычисления? На первый взгляд, кажется логичным использовать центральный процессор (CPU). Однако он имеет одно существенное ограничение — низкий параллелизм. В архитектуре фон Неймана арифметико-логическое устройство (АЛУ) выполняет операции последовательно, каждый раз обращаясь к памяти. Да, в процессоре может быть множество ядер и АЛУ, но даже серверные модели предлагают в среднем не больше 64 ядер.

Центральный процессор может похвастаться высокой гибкостью — на нем можно запускать самые разные задачи и ПО. Однако для машинного обучения его архитектура подходит несильно, поскольку процесс требует выполнения множества однотипных задач сложения и умножения.

Куда большим уровнем параллелизма обладают видеокарты — GPU. Современная видеокарта способна выводить за раз 8 294 400 пикселей для разрешения 4K. И так 60 раз в секунду или даже чаще. Все это стало возможным исключительно благодаря многоядерной структуре. В GPU используются тысячи ядер, что и позволяет выполнять параллельную обработку большого объема данных.

Эти вычисления выполняют так называемые CUDA-ядра. Чем их больше, тем выше производительность видеокарты и тем лучше она справляется с высокими разрешениями.

С совершенствованием архитектуры появились так называемые «тензорные ядра». Проще говоря, это вычислительный блок, который способен перемножать сразу целые матрицы.

Предположим, вам необходимо перемножить матрицу А на B:

Расписав все это на шаги умножения и сложения, мы получим вот такой немаленький набор однотипных действий:

Ядро CUDA за один такт может выполнить простейшую операцию вроде 1 x 1. То есть для подсчета всей матрицы нам потребуется множество ядер и несколько тактов. Тензорные ядра работают сразу с матрицами и способны получить результат за один такт. Они как нельзя лучше подходят для машинного обучения.

Зачем в принципе нужны тензорные ядра в видеокартах? Ответ кроется в технологии DLSS (Deep Learning Super Samplin). Это метод масштабирования, использующий возможности нейронных сетей, для которого как раз и нужны тем самые тензорные ядра. Не забывайте, что изображение — это фактически та же самая матрица.

Именно за счет CUDA и тензорных ядер высокопроизводительные десктопные видеокарты вполне можно использовать для тренировки и запуска нейросетей.

Если говорить о сугубо профессиональных решениях, то Nvidia пошла еще дальше, создав специализированные ускорители в том числе для обучения ИИ. Например, линейка устройств Tesla.

Архитектура этих устройств уже учитывает специфику задачи, а также такие платы имеют больший объем видеопамяти и шину по сравнению с десктопными.

Все это дает ощутимый прирост в производительности конкретно под CNN (сверточные нейросети) и трансформеры (глубокие нейронные сети).

Несмотря на главенствующую позицию Nvidia, ее GPU-ускорители являются не единственным решением для обучения и выполнения нейросетей.

Тензорные процессоры Google

Платы Tesla от Nvidia хоть и считаются узкоспециализированными GPU, но все еще относительно универсальные — с их помощью можно вести моделирование погоды, анализ финансового риска и различные научные исследования. С началом активного развития ИИ специалисты задумались: а что, если спроектировать устройство исключительно для работы с машинным обучением. Так появилось понятие TPU — Tensor Processing Unit, а первые наработки представила Google в 2016 году.

Работа с нейросетями обычно включает два основных этапа — обучение и выполнение. Первый процесс самый трудоемкий, поскольку требует множества вычислительных операций с плавающей точкой. Однако для выполнения уже обученной нейронной сети (распознавание объектов, задачи сортировки и поиска) не требуется высокая точность, в приоритете выполнение большого объема операций умножения и сложения. И вот здесь специализированные тензорные процессоры показали свои возможности.

Модель TPU v1 имела довольно скромные характеристики — 28 МБ встроенной памяти и ОЗУ 8 ГБ DDR3. Устройство было ориентировано на работу с фирменной математической библиотекой TensorFlow от Google. Внутреннее применение тензорного процессора показало, что плата более энергоэффективная — производительность на ватт в 25-80 раз больше по сравнению с GPU и CPU. Сравнивали разработку с актуальными на то время Intel Haswell Xeon E5 2699 v3 и NVIDIA K80. Тестировали на примере сверточных (CNN), рекуррентных (RNN) и многослойных нейросетей.

Уже в 2017 году был представлен TPU v2, а дальше — TPU v3, TPU v4 и TPU v5e. Новейший Cloud TPU v5p имеет 95 ГБ памяти HBM3 и производительность в BF16 — 459 Тфлопс.

Ключевой особенностью TPU стала ориентация на обработку матриц. Инженеры сделали упор на множители и сумматоры, откинув все лишнее и сформировав архитектуру конвейерного массива. Например, TPU v2 (4 чипа) использует два конвейерных массива по 128 х 128, что в сумме дает 32 768 ALU. Производительность всего блока уже выросла до 180 TFLOPS. Это позволило не только выполнять обученные нейросети, но и тренировать их с нуля.

Например, один Cloud TPU (8 ядер и 64 ГБ ОЗУ) более чем в 5 раз быстрее Nvidia V100. Эти результаты получены по количеству обрабатываемых изображений в секунду на оптимизированных под TPU моделях.

В TPU v3 увеличили число доступных множителей MXU на ядро, что по заявлению специалистов Google повысило производительность до 8 раз.

Помимо этого инженеры разработали новый формат представления данных. Для машинного обучения обычно используется FP32 — формат с плавающей точкой с одинарной точностью. Однако расчеты в нем требуют повышенной вычислительной мощности. Для оптимизации работы с TPU инженеры разработали формат Bfloat16 для операций умножения. За счет этого удалось снизить объем данных, который передается по каналам связи, повысив производительность системы.

Первоначально тензорные процессоры использовались в системе AlphaGo. Это тот самый компьютер, который обучался игре в «го» и смог победить в 2016 году Ли Седоля — многократного призера различных соревнований. Как выяснилось позже, обыграть корейского мастера смогли всего 50 плат TPU. Позже разработчики провели игру с еще одним мировым профессионалом Кэ Цзе. AlphaGo разгромила его с использованием всего одной платы TPU. Более того, даже пять профессионалов в совместной игре не смогли одолеть компьютер.

Также компания использует тензорные процессоры в сервисе Google Street View, выделяя текст на уличных знаках с фотографий. В Google Фото один тензорный процессор способен обработать до 100 миллионов изображений в день. На текущий момент решения Google TPU — это облачные платформы и сторонним разработчикам по регионам доступны ограниченно в зависимости от версии.

В виду ограничения фотоматериалов

ПРОДОЛЖЕНИЕ СЛЕДУЕТ...

Показать полностью 21

Технологии IT Компьютерное железо Инженер Компьютер Программа Тестирование Искусственный интеллект Нейронные сети Электроника Распределенные вычисления Инновации Длиннопост

TechSavvyZone

5 месяцев назад

Технология "Intel NPU" - что это? Часть Вторая⁠⁠

Например, NAS фирмы QNAP D4 (Rev. С) имеет процессор со встроенным NPU. Нейросетевой модуль повышает производительность в задачах высокоскоростного распознавания лиц и объектов. Сюда же можно отнести модель TS-AI642, у которой имеется NPU на 6 TOPS. Производитель заявляет, что чип поможет на 200 % увеличить производительность в ИИ-приложениях: в менеджере фотографий QuMagie, системах распознавания текста и полнотекстового поиска Qsirch.

Свои разработки нейронных ускорителей есть у компаний Bitmain, Synaptics, Wave Computing, Baidu и других.

Заключение

Многие из нас уже активно пользуются возможностями нейросетей: генерация контента, улучшение фотографий, распознавание речи и чат-боты. Вот только для работы всего этого обычно нужен доступ в интернет, поскольку модели «крутятся» где-то на высокопроизводительном облаке. С появлением NPU в процессорах многое из этого удастся запустить локально — прямо на вашем ПК или ноутбуке без необходимости обращаться в сеть. Или значительно ускорить, уменьшив время на обработку.

В будущем ИИ-помощники вроде Copilot от Microsoft станут практически неотъемлемой частью операционной системы. И подготовка на уровне железа к этим переменам идет уже сейчас.

Показать полностью 1

Технологии IT Компьютерное железо Компьютер Инженер Чип Процессор

TechSavvyZone

5 месяцев назад

Технология "Intel NPU" - что это?⁠⁠

С момента выхода первого в мире процессора Intel 4004 прошло больше 50 лет. За это время не только усложнилась архитектура: процессоры также начали обрастать различными модулями и дополнениями. Одно из последних нововведений — нейросетевой процессор, он же NPU. Что это такое, где встречается и зачем нужен?

CPU, GPU, APU и NPU

В основе почти любой вычислительной техники находится центральный процессор. CPU (Сentral Processing Unit) включает вплоть до нескольких десятков ядер, набор арифметико-логических устройств (ALU), кэш-память, контроллер-памяти и другое. CPU можно назвать универсальным вычислительным блоком. Благодаря своей архитектуре и высоким частотам он отлично справляется с разноплановыми задачами — начиная от работы ОС и заканчивая обработкой данных от всевозможных программ.

С развитием технологий перед техникой появилась новая задача — работа с графикой, в том числе 3D. Центральный процессор для этого подходил плохо. Требовалось выполнение однотипных инструкций, но с большим объемом разных данных. Так появился специализированный вычислительный блок — GPU (Graphics Processing Unit).

Ключевое отличие заключалось в том, что графические ускорители имели тысячи специализированных ядер, объединенных в мультипроцессоры и кластеры. Это открыло быструю параллельную обработку, что было важно для графических вычислений. А после — и для многих других задач, начиная моделированием физических процессов и заканчивая машинным обучением.

Первое время графические ускорители были исключительно в виде отдельных плат. Позже появились APU (Accelerated Processing Unit). Под этот термин сейчас попадают все процессоры со встроенным графическим ядром. Оно пусть и уступает в производительности отдельным PCIe GPU, но позволяет работать с графикой на базе одного лишь процессора.

Последние годы ознаменовались активным развитием машинного обучения и появлением нейросетей. Как и в случае с 3D графикой, для оптимальной работы требовалось специализированное решение. Одно из самых популярных названий – NPU (Neural Processing Unit). В общем смысле под этот термин попадают процессоры (сопроцессоры), используемые для ускорения операций нейронной сети и задач искусственного интеллекта.

Нейросетевые ускорители

Чтобы объяснить появление нейронных процессоров, необходимо слегка углубиться в особенности работы нейросетей.

Говоря о них, можно выделить два основных этапа: обучение (Training) и выполнение (Inference). Первый процесс самый объемный и сложный, поскольку идет работа с огромным набором данных и трудоемкие операции с плавающей запятой (floating-point). Именно поэтому для обучения нейросетей используются высокопроизводительные кластеры. Например, OpenAI для ChatGPT задействовала суперкомпьютер, который использовал десятки тысяч специализированных ускорителей Nvidia A100.

После тренировки получается готовая нейросеть, с которой можно работать. Например, распознавать образы с изображений или выделять команды из произносимого текста. Однако для этого процесса также нужно достаточно производительное «железо». Для несложных моделей подойдут и десктопные видеокарты.

Вот только видеокарты — достаточно массивные и дорогие устройства. И это не говоря об их энергопотреблении и тепловыделении. Решением этих недостатков стало появление так называемых нейронных ускорителей. Для выполнения нейросетей важна высокая производительность в операциях сложения и умножения.

На рынке начали появляться устройства в виде отдельных PCIe-плат. Выглядят они практически как видеокарты, но энергопотребление составляет всего 15–60 Вт, а соотношение цена-производительность в задачах выполнения нейросетей — во многих случаях выше. В сети можно встретить и другие обозначения: TPU (Tensor Processing Unit) и VPU (Vision Processing Unit).

Однако PCIe-плату все еще не назовешь мобильной. Поэтому следующим этапом развития нейронных ускорителей стали APU, в которых присутствовал отдельный сопроцессор. Именно это решение чаще всего подразумевается под термином NPU.

Архитектура и возможности NPU

Архитектура нейронных процессоров отличается в зависимости от решений конкретных производителей и поставленных задач. Однако в целом можно заметить сходство с теми же GPU. В основе лежит массив из множества процессорных юнитов (processing elements). Это так называемый массив умножения-накопления, который содержит определенное число MAC юнитов (Multiply-Accumulate). Эту аббревиатуру часто можно увидеть в описаниях параметров NPU-модулей.

Операции умножения-накопления лежат в основе рабочих нагрузок ИИ. В частности, для умножения матриц требуется две фундаментальных операции: умножение и сложение с аккумулированием. Соответственно, чем больше число MAC-юнитов, тем выше производительность.

Блоки аппаратного ускорения ориентированы не только на умножение матриц, но и свертку, и/или потоковые операции. Проще говоря — выполнение множества относительно простых параллельных задач.

Возможность установки NPU в качестве дополнительного блока на чипе центрального процессора открыла новые возможности для мобильных гаджетов: смартфонов, ноутбуков, умных колонок и не только. Какие именно? Например:

распознавание речи и преобразование в текст/команду;
определение лиц и предметов на фотографиях;
прорисовка дополненной реальности;
задачи перевода с одного языка на другой.

Но ведь смартфоны все это умеют и так, без встроенного NPU? Верно, но либо ограниченно, либо лишь с доступом в интернет.

Самый яркий пример — умные колонки с их голосовыми помощниками. Опробовав какую-нибудь «VK Капсулу» или «Яндекс.Станцию», вы заметите, что без доступа в интернет колонка не способна понять ваши слова и практически бесполезна. Все дело в том, что для распознавания речи данные передаются на удаленные серверы, там обрабатываются, а готовый результат уже приходит в колонку. Эта схема актуальна для всех голосовых помощников на смартфонах, ТВ и так далее.

Однако колонка с выделенным NPU частично обходит это ограничение. Пример – «Яндекс.Станция Миди». Разработчики натренировали небольшую нейросетевую модель, которая может локально (без доступа в интернет) распознавать в речи пользователя базовые команды управления умным домом и выполнять их. Как оказалось, при таком подходе обрабатывается запрос в шесть раз быстрее!

Таким образом, сопроцессор NPU в чипах позволяет запускать относительно простые нейросетевые модели локально на своем устройстве. Для пользователей это дает несколько преимуществ: как работу приложений без доступа в сеть, так и ускоренную обработку запросов, поскольку часть нагрузки переходит с CPU на NPU. Помимо этого NPU может работать в паре с CPU и GPU, предлагая еще большую суммарную производительность.

Где имеется NPU-модуль, и какой лучше?

В продаже уже выпускаются процессоры с NPU, а в ближайшие годы их ассортимент будет существенно расширен. Но прежде чем мы перейдем к существующим решениям, стоит затронуть вопрос производительности.

Для процессоров найдется немалый список бенчмарков. Для видеокарт показателем производительности может служить FPS в играх или терафлопы в секунду (TFLOS). А что по поводу NPU? Как оценить, какой из них работает быстрее?

Пока единственной сравнительной характеристикой являются триллионы операций в секунду — TOPS. Чем выше значение, тем более производительный NPU. Однако не забывайте, что в какой-то мере это «маркетинговые попугаи», которые не отображают в полной мере производительность процессора. Бренды могут указывать TOPS для всего процессора (NPU+CPU+GPU) или замерять его в конкретных задачах.

Еще один вариант — это оценка количества MAC-юнитов в чипе. Здесь работает формула:

TOPS = 2 * количество единиц MAC * частоту / 1 триллион

Apple. «Яблочные» гаджеты одними из первых начали использовать отдельные NPU – впервые сопроцессор Neural Engine появился в 2017 году в чипе A11. Разработчики заявили, что новинка будет использоваться для обработки в реальном времени алгоритмов функций Animoji и Face ID. Сейчас же в дополнение к этому NPU ускоряет распознавание речи, выявление фигур людей на фото и не только. Neural Engine стал неотъемлемой частью процессоров, в том числе для ноутбуков.

Intel. Компания уже анонсировала линейку новых Core Ultra под кодовым названием Meteor Lake. На борту всех моделей будет пара Neural Compute Engines, которые обеспечат производительность в 11,5 TOPS, а суммарно (NPU+CPU+GPU) — до 34 TOPS.

В качестве примера компания предлагает ускорить локальную работу со Stable Diffusion или языковыми моделями чат-ботов, а также улучшить активное шумоподавление при видеоконференциях. По времени обработки NPU проигрывает встроенному GPU. Однако за счет меньшего энергопотребления его эффективность выше.

Вычисления производятся двумя кластерами массивов MAC (Neural Compute Engines). Они могут работать отдельно каждый над своей задачей или совместно.

В следующем поколении процессоров Lunar Lake также ожидается встроенный NPU, причем с пиковой производительностью до 48 TOPS.

AMD. «Красные» анонсировали новейшее семейство гибридных процессоров Ryzen AI 300. Ключевая особенность — нейронный блок XDNA 2 с заявленной производительностью 50 TOPS. Пока в линейке представлены лишь две модели.

Среди мобильных чипов NPU (XDNA) получили Ryzen серии 7040 (10 TOPS на нейронный процессор и 33 TOPS суммарно), а также некоторые модели линейки 8040 (16 TOPS на нейронный процессор и 39 TOPS суммарно).

Qualcomm. Один из ведущих разработчиков мобильных чипов также следует тенденциям времени. Причем гигант объединился с Microsoft, представив набор функций Copilot+. В линейке Qualcomm встроенный NPU имеют чипы Snapdragon X Plus и Snapdragon X Elite. Модуль Hexagon NPU обеспечивает производительность в 45 TOPS и суммарную до 75 TOPS. На базе этих чипов уже анонсировано больше 20 ноутбуков.

Samsung. Корейский бренд имеет многолетнюю историю разработки собственной SoC. В топовых смартфонах компания ставит чипы серии Exynos. NPU-модуль по заявлениям разработчиков используется для распознавания объектов, оптимизации фотографий и повышения производительности (открытие приложений и другое).

Huawei. Китайский производитель впервые представил модуль NPU в мобильных процессорах Kirin. К сожалению, данных о производительности в TOPS не представлено:

NPU модуль 2+1 интегрирован со встроенным Kirin ISP 6.0 для функций камеры — синтез HDR-видео с экспозицией в реальном времени для достижения высоких результатов в условиях низкой освещенности.

Tesla. Автопроизводитель для нужд собственного автопилота создал отдельный процессор под названием FSD Chip. Помимо ARM-ядер в него встроены два сопроцессора, каждый производительностью 36,86 TOPS и суммарной в 73,7 TOPS.

В автомобиле стоит сразу два процессора FSD Chip. Однако они делают одинаковые вычисления и резервируют друг друга. В случае если результаты отличаются, возникает ошибка и автомобиль требует вмешательства водителя.

Другие. Производители встраиваемых процессоров также предлагают возможности работы с ИИ. Например, в линейке Amlogic имеются чипы A311D (NPU 5 TOPS) и A311D2 REV-C (NPU 3,2 TOPS).

У Rockchip можно найти решения RK3568J (NPU 1 TOPS), RK3399Pro (NPU 2.4 TOPS) и RK3588 (NPU 6 TOPS).

Все эти SoC могут использоваться в умных колонках, смарт-приставках, одноплатных компьютерах, сетевых хранилищах и другой технике.

В виду ограничения фотоматериалов

ПРОДОЛЖЕНИЕ СЛЕДУЕТ...

Показать полностью 24

Компьютерное железо Компьютер Технологии IT Цифровые технологии Производство Инженер Чип Процессор Длиннопост

Партнёрский материал

specials

Сколько нужно времени, чтобы уложить теплый пол?⁠⁠

Точно не скажем, но в нашем проекте с этим можно справиться буквально за минуту одной левой!

Попробовать

Ремонт Теплый пол Текст

TechSavvyZone

5 месяцев назад

Чипсеты: "Intel 800-й серии" ожидания и реальность⁠⁠

Октябрь 2024 года принес с собой долгожданную новинку — процессоры Core Ultra 200 и платформу LGA 1851. Специально для них были разработаны новые чипсеты Intel 800 серии. Каковы особенности новой платформы и чипсетов? В чем их ключевые отличия от предшественников?

Появление новой процессорной платформы LGA1851 стало долгожданным событием для компьютерного рынка. Впервые за долгое время Intel сменила сокет не через два, а только через три года. Все это время прошлый LGA1700 был актуален без каких-либо существенных изменений в периферийных возможностях чипсетов.

Через год после LGA1700 AMD выпустила конкурирующую платформу AM5, которая обзавелась поддержкой PCI-E 5.0 для видеокарты и целых двух слотов для NVMe-накопителей. Тем интереснее будет взглянуть на возможности Intel LGA1851 и чипсетов для нее: превзойдет ли она в чем-то конкурента, или нет?

Платформа LGA1851

Для большинства читателей не секрет, что кристаллы современных центральных процессоров уже много лет содержат в себе не только вычислительные ядра и обвязку для их работы, но и различные контроллеры периферийных шин.

В отличие от ЦП AMD, которые являются полноценными системами на чипе (SoC), процессоры от Intel больше полагаются на возможности внешнего чипсета. Ранее они распоряжались только частью линий PCI-E в системе — тех, что идут к слоту для видеокарты и NVMe-накопителю. Однако в платформе LGA1851 были сделаны заметные шаги в сторону расширения возможностей самих ЦП. Теперь напрямую к ним подключены два порта Thunderbolt 4 со скоростью до 40 Гбит/c, которые могут быть использованы и в качестве более привычных USB 4.

Конфигурация линий PCI-E тоже «разрослась» по сравнению с прошлым поколением. У новых процессоров Arrow Lake теперь не 16, а 20 линий высокоскоростного интерфейса PCI-E 5.0. При этом и четыре линии PCI-E 4.0 никуда не делись. То есть, теперь напрямую к процессору можно подключать два NVMe-накопителя: один в режиме 5.0 x4, и еще один — в режиме 4.0 x4.

Процессоры Core Ultra 200 получили новый контроллер памяти, работающий исключительно с DDR5. Это значит, что все материнские платы теперь будут поддерживать только этот тип оперативной памяти, а DDR 4 окончательно уходит на покой. В числе приятных бонусов — повышение частоты ОЗУ по умолчанию: теперь эта планка установлена на уровне 6400 МГц против 5600 МГц у прошлого поколения. Кроме того, новая платформа уже со старта совместима с модулями CUDIMM и CSODIMM, которые в режиме XMP cмогут обеспечить частоту свыше 10000 МГц.

Чипсет Intel Z890

Основные изменения периферийных возможностей новой платформы, как и в случае с AMD AM5, принесли новые процессоры. Чипсет Z890 получил не так много новшеств, как это было в свое время с Z690. Однако некоторые улучшения все же есть. Главное из них — полный переход линий чипсета на шину PCI-E 4.0. Теперь их стало 24, тогда как у предшественника было лишь 20.

Помимо линий четвертой версии интерфейса, Z790 поддерживал 8 линий PCI-E 3.0. Однако чипсет не был волен распоряжаться всеми ими. Intel давала производителям выбор: либо PCI-E 3.0, либо порты SATA. В итоге в лучшем случае для устройств и разъемов оставалось 4 линии PCI-E 3.0, в худшем — ни одной. У Z890 порты SATA жестко привязаны к чипсету, и производителям теперь дано только одно: либо распаивать все восемь разъемов SATA на материнской плате, либо ограничиться их меньшим количеством. Из-за этого общее количество высокоскоростных линий ввода-вывода (HSIO), которые можно конфигурировать в различные порты, у нового чипсета стало меньше, чем ранее: 34 против 38.

Схем разделения процессорных линий у нового чипсета стало больше. Если у Z790 16 линий PCI-E 5.0 для слота видеокарты разрешалось делить пополам, то Z890 вдобавок к этому умеет разделять их по схеме 8+4+4.

Графические конфигурации с несколькими видеокартами ушли в прошлое, но это решение ориентировано не на них: такой вариант может пригодиться для создания систем с несколькими высокопроизводительными SSD, обладающими интерфейсом PCI-E 5.0.

В остальном Z890 довольно схож с предшествующим Z790. Чипсет точно так же подключается к процессору посредством восьми линий DMI 4.0. Он поддерживает до пяти портов USB 3.2 Gen 2x2 (20 Гбит/c), десяти USB 3.2 Gen 2 (10 Гбит/c) и десяти USB 3.2 Gen 1 (5 Гбит/c). Вдобавок к этому есть возможность развести до 14 USB 2.0. Контроллер Wi-Fi 6E встроенный, как и у двух прошлых поколений чипсетов. А вот для реализации более прогрессивного Wi-Fi 7 все также нужно использовать дискретные решения.

Чего ожидать от чипсетов H870, B860 и H810

Младшие чипсеты 800 серии пока не были представлены — их выход на рынок ожидается в первом квартале 2025 года. Тем не менее, опираясь на утечки информации и характеристики чипсетов прошлого поколения, можно спрогнозировать их примерные характеристики.

Так как за сверхскоростные порты Thunderbolt 4/USB 4 на новой платформе отвечает не чипсет, а процессор, их наличие будет определяться производителями материнских плат. Технически ничто не мешает развести такие порты даже на H810. Однако на практике они, скорее всего, станут прерогативой плат на старших чипсетах Z890 и H870.

Итоги

Новая платформа LGA1851 и чипсеты 800 серии для нее — очередной шаг вперед для Intel. Конечно, он не такой заметный, как платформа LGA1700 и чипсеты 600 серии три года назад: там изменений было определенно больше. Но Intel подтянула слабые места прошлой платформы для конкуренции с AMD. Теперь для топовых NVMe-накопителей доступен отдельный слот с PCI-E 5.0 x4, а на старшем чипсете можно пожертвовать половиной линий от видеокарты для разводки еще двух таких же слотов.

Однако сами чипсеты новой серии не сильно отличаются от предшественников. Главные изменения в периферийных возможностях платформы — заслуга вовсе не чипсетов, а новых процессоров Сore Ultra 200. Именно благодаря им линий PCI-E 5.0 стало больше, а также появилась возможность организации двух сверхскоростных портов Thunderbolt 4/USB 4.

В этом плане Intel стала ближе к AMD. Скорее всего, в следующих платформах обеих компаний интеграция различных контроллеров в процессоры станет еще большей. Тогда чипсеты материнских плат в периферийных возможностях платформы станут играть еще более символическую роль, чем сейчас.

Показать полностью 5

Компьютерное железо Технологии Компьютер IT Intel Процессор Чипсет Чип Инновации Длиннопост

Посты не найдены

15 16 17 18 19 20 21 22 23 24 25 30 40 50 60