Процессор Pentium 4Однако, эту проблему легко можно решить переходом на 0.13 мкм процесс – тем более, что его повсеместное внедрение не за горами. Настоящая причина необходимости новой архитектуры кроется глубже. К сожалению, дальнейшее наращивание частоты существующих процессоров приводит все к меньшему росту их производительности. Проблема в том, что латентности, то есть задержки, возникающие при обращении к тем или иным узлам процессора, по нынешним меркам в P6 уже слишком велики. Именно это явилось основной причиной, по которой Intel затеял разработку Pentium 4, которая выполнена с чистого листа. Таким образом, анонсированный сегодня Pentium 4 - совершенно новый процессор, ничего общего не имеющий со своими предшественниками. В его основе лежит архитектура, названная Intel NetBurst architecture. Этим названием Intel хотел подчеркнуть, что основная цель нового процессора – ускорить выполнение задач потоковой обработки данных, напрямую связанных с бурно развивающимся Internet. 1. Архитектура Intel NetBurst Первым делом, попробуем разобраться с особенностями новой архитектуры. Архитектура NetBurst имеет в своей основе несколько инноваций, в комплексе и позволяющих добиться конечной цели – гарантировать запас быстродействия и будущую наращиваемость для процессоров семейства Pentium 4. В число основных технологий входят: Рассмотрим все нововведения по порядку. 1.1 Hyper Pipelined Technology Названием Hyper Pipelined Technology конвейер Pentium 4 обязан своей длине – 20 стадий . Для сравнения – длина конвейера Pentium III составляет 10 стадий. Чего же достиг Intel, так удлинив конвейер? Благодаря декомпозиции выполнения каждой команды на более мелкие этапы, каждый из этих этапов теперь может выполняться быстрее, что позволяет беспрепятственно увеличивать частоту процессора. Так, если при используемом сегодня технологическом процессе 0.18 мкм предельная частота для Pentium III составляет 1 ГГц (ну или, по более оптимистичным оценкам, 1.13 ГГц), Pentium 4 сможет достигнуть частоты 2 ГГц. Однако, у чрезмерно длинного конвейера есть и свои недостатки. Первый недостаток очевиден – каждая команда теперь, проходя большее число стадий, выполняется дольше. Поэтому, чтобы младшие модели Pentium 4 превосходили по производительности старшие модели Pentium III, частоты Pentium 4 начинаются с 1.4 ГГц. Если бы Intel выпустил бы Pentium 4 1 ГГц, то этот процессор несомненно бы проиграл в производительности гигагерцовому Pentium III. Правда, для этого алгоритмы предсказания переходов были доработаны минимально, основным же средством для достижения цели было выбрано увеличение размеров буферов, с которыми работают соответствующие блоки процессора. Инструкции в L1 кэше не сохраняются, он предназначен теперь только для данных. Для кэширования инструкций теперь используется Trace Cache, однако по сравнению с обычным L1-кешем он имеет много преимуществ, направленных опять же на минимизацию простоев процессора при выполнении неправильных предсказаний переходов. Правда, правильный порядок определяется опять же на основании предсказания переходов, однако вероятность того, что переходы предсказываются неправильно, достаточно мала для того, чтобы отказаться от очевидного выигрыша, получаемого путем отказа от повторных декодирований и предсказаний переходов. Intel не раскрывает размеров своего Trace Cache в килобайтах, однако, известно что в нем может быть сохранено до 12000 микроопераций. 1.4 Rapid Execute Engine Наиболее простая часть современного процессора – это ALU (арифметико-логическое устройство). Благодаря этому факту, Intel счел возможным увеличить его тактовую частоту внутри Pentium 4 вдвое по отношению к самому процессору. Таким образом, например, в 1.4 ГГц Pentium 4 ALU работает на частоте 2.8 ГГц. В ALU исполняются простые целочисленные инструкции, поэтому, производительность нового процессора при операциях с целыми числами должна быть очень высокой. Однако, на производительности Pentium 4 при операциях с вещественными числами, MMX или SSE двукратное ускорение ALU никак не сказывается. Однако, Intel в своем Pentium 4 не стал сосредотачиваться на совершенствовании своего FPU, а просто увеличил возможности блока SSE. В результате, в Pentium 4 имеет место расширенный набор команд SSE2, в котором к имеющемуся набору из 70 инструкций было добавлено еще 144. Такое решение – результат NetBurst идеологии, основной целью которой является увеличение скорости работы с потоками данных. Однако, использование нового набора команд требует специальной оптимизации программ, поэтому ждать его внедрения сразу после выхода нового процессора не стоит. Со временем же, SSE2 имеет достаточно большие перспективы. Поэтому, даже AMD собирается реализовать SSE2 в своем новом семействе процессоров Hammer. Старые же программы, не использующие SSE2, а полагающиеся на обычный арифметический сопроцессор, никакого прироста в производительности при использовании Pentium 4 не получат. Более того, несмотря на то, что что Intel говорит о том, что блок FPU в Pentium 4 был слегка усовершенствован, время, необходимое на выполнение обычных операций с вещественными числами возросло по сравнению с Pentium III в среднем на 2 такта. 1.6.1 L1 кэш Что касается кеша первого уровня в Pentium 4, то поскольку теперь команды хранятся в Trace Cache, он предназначен только для хранения данных. Однако, его размер в Pentium 4, основанном на ядре Willamette составляет всего 8 Кбайт. Это выглядит достаточно небольшой цифрой даже на фоне 16-килобайтной области данных в L1 кэше Pentium III. Однако, Intel был вынужден сократить объем кеша первого уровня в Pentium 4, так как ядро этого процессора и без того получалось слишком большим. Тем не менее, архитектура этого процессора может поддерживать L1-кеш и большего размера, поэтому, скорее всего, при переходе на технологический процесс 0.13 мкм и новое ядро Northwood, этот кэш будет увеличен. Однако, для увеличения производительности, Intel применил для доступа к L1-кешу новый алгоритм, чем уменьшил в Pentium 4 латентность этого кеша до двух процессорных тактов вместо трех тактов в Pentium III. Таким образом, учитывая большую тактовую частоту Pentium 4, время реакции его L1 кеша составляет всего 1.4нс для 1.4 ГГц модели против 3нс у L1 кеша Pentium III 1 ГГц. Однако, в отличие от Athlon, в Pentium 4 (впрочем, также как и в Pentium III) L2 кэш не является эксклюзивным, то есть он дублирует данные, находящиеся в L1 кэше. Так как Pentium 4 рассчитан на обработку потоковых данных, скорость работы L2-кеша для него является одним из ключевых моментов. Поэтому, Intel увеличил пропускную способность кеша второго уровня в Pentium 4 в два раза. Это усовершенствование было сделано благодаря передаче данных из L2-кеша на каждый процессорный такт, в то время, как данные из L2-кеша Pentium III передаются только на каждый второй такт. Таким образом, пропускная способность L2-кеша Pentium 4, работающего, например, с частотой 1.4 ГГц имеет теперь внушительную величину 44.8 Гбайт/с. Для сравнения – пропускная способность Advanced Transfer Cache у Pentium III 1 ГГц составляет 16 Гбайт/с. Стоимость процессора при поставках партиями 1000 шт. составляет, соответственно, $819 и $644 для моделей с тактовыми частотами 1.5 ГГц и 1.4 ГГц. Pentium 4 1.3 ГГц, который появится 29 января 2001 года, будет стоить $409. Intel планирует достаточно агрессивно снижать цены на Pentium 4, с тем, чтобы этот процессор мог применяться в настольных компьютерах среднего уровня:
Поэтому, только ограниченное число производителей системных плат высказало желание ввязаться в производство плат под Socket 423. В ближайшее время платы под Pentium 4 будут выпускаться только восемью производителями. Спецификации некоторых таких плат уже известны:
Тестирование проводилось под управлением операционной системы Microsoft Windows2000 SP1 с установленным DirectX 8. 4.1 Результаты тестов Казалось бы, поскольку ALU Pentium 4 работает на удвоенной частоте процессора, то по результатам этого теста впереди должен быть Pentium 4. Однако этого не происходит. Разгадка медлительности Pentium 4 в данном тесте кроется в недостаточно большом L1 кэше, в который не помещаются все необходимые для его работы данные. Athlon же, с областью данных в L1-кеше размером 64 Кбайта, а это в 8 раз больше, чем кеш данных Pentium 4, значительно превосходит всех своих соперников. FPU WinMark Результаты еще раз подтверждают, что блок FPU у Athlon очень хороший. Кроме того, ясно видно, что из-за возросшей латентности FPU в Pentium 4, его показатели в этом тесте выглядят даже хуже, чем у Pentium III. 3DMark2000 CPUmarks Однако, AMD Athlon обладает гораздо большим по размеру L1 кэшем, что в ряде случаев обуславливает его превосходство. Естественно, также на графике ясно видно, что пропускная способность двухканальной RDRAM гораздо выше, чем используемой в системах на Athlon и Pentium III PC133 SDRAM. Также, результаты этого теста позволяют оценить, что L2 кеш процессора Athlon действительно работает медленнее чем L2 кеш даже Pentium III, из-за более узкой шины. И достаточно любопытным является тот факт, что влияние L1-кеша совершенно не сказывается в системе с Pentium 4 при записи в память. Перейдем теперь к тестам в реальных приложениях. Content Creation Winstone 2000 Получается, AMD была права не став выпускать процессоры с более высокой, чем 1.2 ГГц частотой. Athlon 1.2 ГГц может конкурировать с Pentium 4 вполне успешно. Sysmark 2000 Однако, тут упор делается на приложения более широкого профиля, чем в предыдущем тесте, в результате чего показатели Athlon здесь выше. Однако, архитектуры Pentium III, Athlon и Pentium 4 отличаются слишком сильно, поэтому, соотношения производительностей этих процессоров может изменяться от приложения к приложению. Поэтому, посмотрим на скорости испытуемых процессоров в конкретных приложениях. Sysmark 2000 Однако, в семи из двенадцати приложений лидирует AMD Athlon 1.2 ГГц, в то время как Pentium 4 показывает большую скорость только в трех задачах: системе распознавания речи Dragon Naturally Speaking Preferred 4.0, графическом редакторе Adobe Photoshop 5.5 и в утилите для кодирования видеопотока Microsoft Windows Media Encoder 4.0. Таким образом, вся полезность Pentium 4 раскрывается действительно только в задачах потоковой обработки данных. И то, часть заслуги за высокую производительность этого процессора лежит на подсистеме памяти с гораздо более высокой пропускной способностью, чем у конкурирующих платформ. 3 D Studio MAX R 3 (чем меньше – тем лучше) Соответственно, меньшее время соответствует лучшему результату. Удивительно, но тут производительность Pentium 4 1.4 ГГц в точности повторяет производительность Pentium III 1 ГГц. Это говорит о том, что FPU в Pentium 4 действительно работает медленнее, чем в Pentium III. Athlon 1.2 ГГц, обладая лучшим блоком FPU легко обошел обоих конкурентов, построив сцену на 40% быстрее. WinZIP (чем меньше – тем лучше) Влияние объемного кеша первого уровня Athlon в WinRAR сводится на нет достаточно большим объемом словаря, используемого в этом архиваторе. Именно поэтому, тут разброс результатов не так велик, как в предыдущем случае. Однако, благодаря Quad Pumped bus Pentium 4 остается в лидерах. Однако, Athlon, с 200-мегагерцовой шиной EV6 дышит практически ему в затылок. Unreal Tournament – 640x480x16 Поэтому, система на Pentium 4 с RDRAM, имеющей большую латентность оказывается медленнее обоих своих конкурентов. Причем, отставание Pentium 4 1.4 ГГц от Athlon 1.2 ГГц оказывается немаленьким – более 30%. Expendable - 1024x768x32 Безусловно, его архитектура имеет массу достоинств, основным из которых следует признать возможность легкого наращивания тактовых частот. Однако, производительность нового процессора в ряде приложений все же не так высока как хотелось бы: достаточно часто она оказывается меньше производительности старшего процессора семейства Athlon. Виной этому – сверхдлинный 20-стадийный конвейер и недостаточно большой кеш данных первого уровня. Поэтому, в ближайшее время Pentium 4 обогнать по быстродействию конкурента от AMD, Athlon, который также имеет пути для наращивания скорости посредством перехода на новое ядро Palomino и использования DDR SDRAM, не сможет. В то же время, у систем на Pentium 4 есть и более существенные недостатки, главный из которых – цена. |