Рынок процессоров каждый год пополняется новыми моделями. Одни основаны на проверенных временем архитектурах. В основе других лежат совершенно новые разработки. К таким относятся чипы Arrow Lake, ставшие основой процессоров 15 поколения Core — Core Ultra 200.
Бренд Core от компании Intel — один из самых узнаваемых на компьютерном рынке. Процессоры на этой архитектуре появились еще в «нулевых», и с тех пор все время совершенствовались. Последнее крупное обновление продукты Intel получили в 2021 году. Тогда были представлены Core 12 поколения, получившие массу серьезных улучшений.
Core 13 и 14 поколения стали их логическим продолжением. Они отличались мелкими усовершенствованиями и наращиванием числа ядер. А недавно Intel выпустила 15 поколение — и это уже серьезный шаг вперед. Компания решилась на значительную переработку архитектуры Core. Рассмотрим ее ключевые изменения по порядку.
Внутреннее устройство Core Ultra 200
Современные центральные процессоры состоят из десятков миллиардов транзисторов. Производить такие чипы очень непросто. С 2019 года компания AMD нашла решение проблемы: она стала использовать чиплетный дизайн для десктопных ЦП. Процессоры стали делать из нескольких более мелких чипов, объединенных на одной подложке.
Десктопные процессоры Intel до сегодняшнего дня оставались монолитными чипами. Но теперь это изменилось — они тоже стали чиплетными. Притом устройство новых Core заметно сложнее, чем у конкурирующих Ryzen. У AMD все блоки вмещаются в вычислительные чиплеты и кристалл ввода-вывода. У Intel применяется более сложная компоновка Forevos 3D. В ней различных видов «плиток» шесть.
Вычислительная (Compute). Содержит в себе ядра процессора и их обвязку.
Графическая (GPU). В ней находится встроенное графическое ядро.
Система на чипе (SoC). В ее составе находится контроллер памяти DDR5, контроллер шины PCI-E, нейронный процессор (NPU), движки вывода и обработки видео.
Ввод-вывод (I/O). Микросхема, отвечающая за коммуникацию с внешними устройствами. Через нее из SoC выводятся линии PCI-E, порты Thunderbolt 4 и шина DMI0 (нужна для подключения к чипсету на материнской плате).
Наполнитель (Filler). Пустая плитка, служащая для придания прямоугольной формы итоговому кристаллу.
Базовая (Base). Располагается под остальными плитками и служит для их соединения. Такое решение вносит очень малые задержки в «общение» компонентов ЦП друг с другом. В отличие от процессоров Ryzen, чиплеты которых соединяются через подложку.
Каждую из плиток производят по собственному техпроцессу. Графическая производится по технологии 5 нм (TSMC N5P). I/O и SoC используют 6 нм (TSMC N6). А для процессорной используют наиболее современную 3 нм (TSMC N3B).
Вычислительная плитка
В состав вычислительного чипа вошли два новых вида ядер — производительные Lion Cove и энергоэффективные Skymont.
Архитектуру «больших» ядер Lion Cove заметно переработали. Декодер расширили с шести до восьми полос, а кэш микроопераций — c восьми до двенадцати. Исполнительных портов в целочисленной части теперь 14 вместо 12. Прибавилось по одному арифметико-логическому устройству (ALU) и блоку генерации адресов (AGU). Количество блоков хранения адресов (Store Data) осталось неизменным — их все так же два.
Блок вычислений с плавающей запятой (FPU) тоже расширили: теперь в нем четыре порта вместо трех. Два конвейера могут выполнять операции умножения, сложения и накопления (Multiply, Add, Accumulate — MAC). А еще два — только операции сложения (Add). А вот поддержки инструкций AVX-512 здесь нет. Кстати, они присутствовали в ядрах прошлого поколения — но вскоре после выхода были заблокированы.
Ядра Lion Cove отказались от поддержки технологии Hyper-Threading. Теперь они могут выполнять лишь один поток одновременно. Систему кэширования переработали. Теперь данные после вычислений на ядрах попадают сначала в L0D (бывший L1) размером 48 Кб, а затем — в 192 Кб кэша L1. Только после этого наступает очередь L2, объем которого вырос с двух до трех мегабайт.
Размер кэша инструкций (L0I) тоже увеличили. Перестановки в кэше были сделаны из-за заметной переработки ключевых элементов архитектуры. В их числе блоки выборки и декодирования. А также блок предсказания ветвлений, который стал в восемь раз шире.
Не менее сильно переработали и «малые» ядра Skymont. Они обзавелись тремя трехполосными декодерами (у их предшественников Gracemont таких декодеров было два).
Количество исполнительных портов увеличили с 12 до 18 штук. Теперь среди них целых восемь ALU — в два раза больше, чем ранее. Заметно подросло и количество AGU: с четырех до семи. Добавился и еще один порт для исполнения инструкции Jump. Как и в случае с большими ядрами, здесь усовершенствовали блок предсказаний ветвления. А заодно блоки выборки и декодирования.
FPU тоже стал «шире». Теперь в нем на один порт больше — шесть против пяти ранее. Новое место заняло еще одно ALU. Вычислительные конвейеры могут выполнять больше разных видов инструкций. Это было сделано для расширения поддержки и ускорения AVX2 VNNI — мультимедийных инструкций, необходимых для нейронных вычислений.
Четыре малых ядра объединены в один кластер с общим кэшем L2 объемом 4 Мб. Его объем остался прежним с прошлого поколения, но пропускная способность была удвоена. А вот общая компоновка ядер в чипе поменялась. Раньше производительные ядра располагались на одном конце кольцевой шины, а энергоэффективные — на другом. В новом поколении ЦП «большие» ядра чередуются с кластерами «малых».
Такое решение помогает снизить задержку при переключении потоков с одного вида ядер на другое. Заведует этим планировщик Thread Director третьего поколения. Он научился более точно и эффективно использовать аппаратные ресурсы разных ядер. Это стало доступным за счет расширенной системы обратной связи.
Графическая плитка
Новые процессоры обзавелись улучшенной «встройкой» Intel Graphics на базе архитектуры Xe-LPG. Теперь она относится к поколению Gen 12.7 — к нему же относятся и дискретные видеокарты Intel Arc. Главная «фишка» новинки — наличие блоков трассировки лучей. Они есть в каждом «кирпичике» ГП под названием ядро Xe.
В десктопных моделях таких ядер четыре. В каждом из них четыре растровых (ROP) и восемь текстурных (TMU) модулей, а также 128 шейдерных процессоров (SP). Вдобавок графическая плитка оснащена 4 Мб собственного кэша.
Всего у ГП 512 шейдерных блоков. Это вдвое больше, чем у прошлого поколения. Графика может работать на частотах вплоть до 2 ГГц – тут рост полуторакратный. Итог — более чем двукратный рост производительности. Это самый высокий показатель со времен Core пятого поколения. Но не обошлось и без некоторых упрощений. В ГП декстопных процессоров Arrow Lake-S отсутствуют блоки матричных вычислений XMX. Они нужны для ускорения работы нейросетей и фирменного сглаживания Intel XeSS. Подобные вычисления все равно могут выполняться, но с применением общих инструкций DP4a.
А вот в производительных мобильных чипах Arrow Lake-H используется другая графическая плитка. В ней и блоки XMX на месте, и ядер Xe вдвое больше — целых восемь. Удвоено и количество прочих блоков, в том числе SP: тут их 1024.
Система на чипе (SoС)
Часть графического процессора, отвечающую за вывод изображения, перенесли в плитку SoC. Здесь находятся Display Engine, Display I/O и Media Acceleration engine — новый движок кодирования/декодирования видео. Он поддерживает формат 8K с 10-битной глубиной цвета для кодеков AV1, VP9, HEVC и AVC.
ГП поддерживает современные разъемы HDMI 2.1 и DisplayPort 2.1. Они позволяют выводить изображение на панели Full HD или 2K с частотой до 360 Гц. Опционально доступен вывод HDR-изображения на одну панель 8К или сразу несколько экранов 4К. Но в этом случае частота обновления снизится до 60 Гц.
Но самый интересный компонент SoC — нейронный процессор (NPU) Intel третьего поколения. Он поддерживает вычисления в формате FP16 и INT8 (последние – в двойном темпе). Внутри скрываются два нейронных вычислительных движка (NCE). В совокупности они могут обеспечить производительность до 13 TOPS. NPU оснащен собственными кэшами и выделенным блоком памяти Scratchpad RAM (объем — 4 Мб).
Похожий нейронный процессор имелся в Meteor Lake — мобильных ЦП Core Ultra 100-й серии. В текущей серии мобильных Core Ultra 200V его заменил более производительный блок четвертого поколения. В пике он достигает целых 48 TOPS.
Но и такой NPU для десктопа – значительный шаг вперед. В конкурирующих Ryzen 9000 для реализации нейронного ускорения можно использовать лишь возможности FPU. Впрочем, для автономной работы Microsoft Copilot+ NPU в Arrow Lake не хватает: там требуется производительность от 40 TOPS.
В SoC также находится контроллер шины PCI-E и контроллер оперативной памяти. Последний лишился поддержки DDR4, сфокусировавшись на более современной памяти DDR5 и ее особенностях.
Раньше каждый из внутренних каналов DDR5 управлялся только одним контроллером памяти. Теперь в этом могут участвовать контроллеры обоих каналов. Такое решение нацелено на новые планки формата CUDIMM. С их помощью можно достигать частоты свыше 10000 МГц. При этом по умолчанию контроллер работает с гораздо более скромной DDR5-6400.
Плитка ввода-вывода
SoC осуществляет коммуникации с процессорной и графической плитками, а также с ОЗУ и слотом для дискретной графики. Остальные соединения с системой возложены на плитку ввода-вывода. Через нее выводятся линии PCI-E для накопителей и порты Thunderbolt 4. А еще шина DMI 4.0 x8, необходимая для соединения процессора с чипсетом на «материнке».
Заключение
Процессоры 15 поколения Core — техническая революция, которой не было в декстопных продуктах Intel много лет. Подготовка к ней началась еще в прошлом году, когда появились мобильные ЦП Meteor Lake. На них компания опробовала преимущества чиплетной компоновки Forevos 3D. Такое решение позволяет «собирать» кристалл из различных частей, словно конструктор. Это огромный задел для будущих поколений процессоров. Теперь можно дорабатывать и заменять отдельные плитки без необходимости перекраивать весь кристалл ЦП. Core 200 Ultra обзавелись куда более быстрой встроенной графикой и собственным NPU. Intel заявляет и об улучшенных возможностях контроля разгона. Хотя на практике они вряд ли дадут сильно поднять производительность. А вот новый контроллер памяти, разработанный с учетом высокочастотных CUDIMM, для тяжелых задач явно пригодится.
Главная цель нового поколения — не столько повышение производительности, сколько большая энергоэффективность. И это ему удалось. Arrow Lake потребляет заметно меньше энергии и остается куда более «холодным», чем его предшественники. Все это — при сравнимой производительности в большинстве задач.
Intel заявляет о немалом повышении IPC по сравнению с чипами Raptor Lake: для производительных ядер на 9%, а энергоэффективных — на целых 32%.
Однако некоторые задачи (в том числе игры) пока отдают предпочтение старым ядрам Intel. И лишь в рабочем окружении новые ядра оказываются немного быстрее прошлого поколения.
Почему ядра стали намного сложнее, но показывают большого прироста скорости? Причин несколько. Во-первых, современное ПО негативно реагирует на отсутствие многопоточности у «больших» ядер Lion Cove. Во-вторых, планировщик ОС Windows еще не полностью оптимизирован под особенности новых ЦП.
И, наконец, улучшения внутренних блоков процессора не всегда линейно влияют на производительность. На ум приходит аналогия с четвертым поколением Core (Haswell). На выходе его не ругал только ленивый — мол, прироста почти нет. Но уже через несколько лет Haswell по сравнению с предшественниками стал резко вырываться вперед. Как в играх, так и в рабочих программах.
Магия? Совсем нет. Просто с увеличением сложности кода вскрылись узкие места старой архитектуры, которых новая была лишена. Скорее всего, подобное ждет и 15-е поколение Core. Сейчас оно кажется неоднозначным, но через пару лет может заметно оторваться от предшественников. Учитывая оптимизацию программ под наиболее «свежие» процессоры Intel, шанс на это очень большой.