Интернет Windows Android

Стройка десятилетия. Изучаем процессорную архитектуру AMD Bulldozer

Сисадмин (он же на английском языке sysadmin , system administrator ) - сокращенное наименование профессии, полное название которой на русском языке звучит как системный администратор . Данная профессия в последнее время стала очень популярной для большинства молодых, и не очень, людей, ей обучают, по ней работают, за неё получают хорошие деньги. Связано это с бурным развитием различных компьютерных технологий и их проникновением во все сферы человеческой жизни. Слово сисадмин часто используется в разговорной речи, в вакансиях и резюме при поиске работы, одним словом - везде. Ниже пойдет речь о том, что же представляет из себя профессия системного администратора.

В современных реалиях, системным администратором может называться фактически любой человек, который занимается обслуживанием и поддержанием работы определенной компьютерной сети, включая все её аппаратные и/или программные компоненты, в которую могут входить:

  • Персональные компьютеры, как рабочие станции, так и сервера;
  • Сетевое оборудование, такое как коммутаторы, маршрутизаторы, фаерволлы и многое другое;
  • Веб-сервера, почтовые сервера, сервера баз данных, и прочие.

Так же в определенных случаях, на плечи системного администратора могут лечь обязанности по обеспечению должной информационной безопасности.

В зависимости от своей специализации, системный администратор может заниматься следующими видами деятельности:

  • Администратор рабочих станций и серверов чаще всего занимается починкой как аппаратных (вышедшие из строя материнские платы, погоревшие блоки питания), так и программных (не загружается Windows, не печатаются запятые в Word"e...).
  • Администратор корпоративной сети на основе домена Active Directory. Очень популярное занятие, учитывая распространенность операционных систем Windows, а так же необходимость их как-то централизованно контролировать. Такой специалист должен уметь создавать, распределять по группам, редактировать пользователей, выдавать им соответствующие права в домене AD, а так же уметь управлять групповыми политиками для пользователей, их компьютеров и групп, в которых они все состоят.
  • Администрирование сетей и сетевого оборудования. В его обязанности входит знание топологии сетей, умение работать как с не настраиваемым, так и с настраиваемым сетевым оборудованием, планирование локальной вычислительной сети, а так же возможность объединения в одну сеть нескольких отдаленных друг от друга рабочих мест, путем настройки NAT"ов и VPN"ов. Не стоит так же забывать и контроле доступа в рамках этой сети, и за её пределами - настройка прокси.
  • Администратор веб-сервера, который должен как минимум уметь устанавливать, настраивать и обслуживать один из следующих веб-серверов - Apache, IIS, Nginx, следить за хостингом (который может располагаться как внутри сети организации, так и вне её). Кроме того, хороший администратор должен уметь настроить нормальное распределение ресурсов при высоких нагрузках, кластеризацию и много других специфичных вещей.
  • Администрирование почтового сервера так-же является распространенной задачей для сисадмина, в его задачи входит работа с такими популярными решениями как Exim, Microsoft Exchange, Postfix, Sendmail, или корпоративными почтовыми решениями от Google или, например, Yandex. Кроме очевидного контроля за учетными записями (создание, удаление, настройка), так же обязательно уметь настроить антиспам систему и прочее.
  • Администратор сайта. В эти обязанности может входить как просто какое-то наполнение содержимым сайта, но раз речь идет о системном администраторе, то по идее он должен уметь и настроить хостинг (в том числе и веб-сервер, о чем уже говорилось выше), установить и настроить нужный сайт, например какую-либо систему управления содержимым (CMS).
  • Совсем редко под обязанности системного администратора может попасть задача создания или обслуживания системы видеонаблюдления. В задачах установка и настройка камер, реагирования на различные события, сохранение и воспроизведение записей. Относится к системному администрированию слабо, и часто попадает в его обязанности по совместительству к каким-нибудь другим обязанностям.

За бортом описанных выше занятий системного администратора остались такие возможные вещи, как администрирование баз данных (Microsoft SQL, MySQL и его множественные ответвления, Oracle и т. д.), администрирование 1C (не путать с "программист 1C"), АТС и многое другое.

Недавний анонс новейших процессоров AMD стал одним из самых ярких событий текущего года. Напряженное ожидание, которое подогревалось многочисленными утечками информации и секретными слайдами, не оставляло в покое не только фанатов бело-зеленого лагеря, но и приверженцев продукции конкурирующей компании. Данные о производительности поступали самые противоречивые: от подавляющего преимущества над конкурентами до полного провала. Никто не станет спорить с утверждением, что микроархитектура Stars, лежащая в основе всех нынешних настольных решений компании AMD, на сегодняшний день порядком устарела. Возможности наследников легендарных К8, процессоров AMD Phenom II и Athlon II, более не отвечают современным реалиям. Именно поэтому вывод на рынок процессоров, основанных на принципиально новой архитектуре Bulldozer, был чрезвычайно необходим. Это позволило бы сравняться или даже обогнать решения конкурентов по производительности и энергоэффективности. Преимущество в быстродействии должна обеспечить принципиально новая восьмиядерная архитектура, а внедрение тонкого 32-нм технологического процесса вместе с «продвинутыми» возможностями управления напряжениями и частотами отдельных функциональных блоков обещают значительное снижение энергопотребления в сравнении с решениями предыдущего поколения.

Наконец, 12 октября покров таинственности был сорван: именно тогда состоялся долгожданный анонс процессоров AMD FX, в основе которых лежит микроархитектура Bulldozer. Чипмейкер представил целую линейку CPU — носителей этой микроархитектуры, которая включает четырех-, шести- и восьмиядерные модели. Кроме прочего, компания AMD возродила торговую марку «FX», имя которой в прошлом носили продукты для энтузиастов. Действительно, все процессоры AMD FX нынешнего поколения имеют разблокированный на повышение коэффициент умножения, что, по идее, должно сделать их привлекательными для любителей разгона. Гибко варьируя количеством функциональных блоков и рабочими частотами, AMD удалось заполнить практически все основные рыночные ниши, начиная от недорогих игровых систем и заканчивая предложениями для конфигураций верхнего ценового диапазона. Полный модельный ряд новейших процессоров AMD в сравнении с четырех- и шестиядерными Phenom II выглядит так:

FX 8150 FX 8120 FX 6100 FX 4100 Phenom II X6 Phenom II X4
Ядро Zambezi Zambezi Zambezi Zambezi Thuban Deneb
Разъем Socket AM3/AM3+ Socket AM3/AM3+ Socket AM3/AM3+ Socket AM3/AM3+ Socket AM2+/AM3 Socket AM2+/AM3
Техпроцесс CPU, нм 32 32 32 32 45 45
Количество транзисторов, млн. 2000 2000 2000 2000 904 758
Площадь кристалла, кв. мм 315 315 315 315 346 243
Число ядер 8 8 6 4 6 4
Номинальная частота, МГц 3600 3100 3600 3100 2600 — 3300 3200 — 3700
Частота Turbo Core, МГц 3900/4200* 3400/4000* 3300/3900* 3600/3800* 3100 — 3700
Частота NB, МГц 2200 2200 2200 2200 2000 2000/1800
Объем L1 кэша, КБ 16 x 8 + 64 x 4 16 x 8 + 64 x 4 16 x 6 + 64 x 3
16 x 4 + 64 x 2 128 x 6 128 x 4
Объем L2 кэша, КБ 2048 x 4
2048 x 4
2048 x 4
2048 x 4
512 x 6
512 x 4
Объем L3 кэша, МБ 8 8 8 8 6 6
Множитель 18 15,5 16,5 18 13 — 16,5 16 — 18,5
Каналов памяти 2 2 2 2 2 2
Поддерживаемый тип памяти DDR3 1333/1600/1866 DDR3 1333/1600/1866 DDR3 1333/1600/1866 DDR3 1333/1600/1866 DDR2 800/1066, DDR3 1333/1600
Шина для связи с чипсетом Hyper Transport 3.1 Hyper Transport 3.1 Hyper Transport 3.1 Hyper Transport 3.1 Hyper Transport 3.0 Hyper Transport 3.0
Частота Hyper Transport, МГц 5200 5200 5200 5200 4000 4000
Рабочее напряжение, В 0,825-1,4 0,825-1,4 0,825-1,4 0,825-1,4 0,825-1,4 0,825-1,4
TDP, Вт 125 125 95 95 125 125
Рекомендованная стоимость, $ 245 205 165 115 165 — 205 117 — 185

Если закрыть глаза на количество вычислительных ядер, в сравнении с предшественниками процессоры FX получили более быструю шину Hyper Transport 3.1, поддержку скоростной памяти DDR3 1866 МГц и увеличенную до 8 Мбайт кэш-память 3-го уровня. Кроме того, обращаем ваше внимание на достаточно высокие тактовые частоты, которые вплотную приблизились, а в отдельных случаях даже преодолели рубеж в 4000 МГц. Если исходить из рекомендованной цены, четырехъядерный процессор FX 4100 должен конкурировать с двухядерными Sandy Bridge и младшими Phenom II X4; соперниками шестиядерного FX 6100 станут младшие модели Core i5 и шестиядерные Phenom II X6. Восьмиядерные модели FX 8120 и FX 8150 играют в «высшей лиге», где правят бал старшие Core i5 и Core i7, которые до сих пор показывали великолепный уровень производительности. Как видно, позиционирование новых процессоров AMD FX обязывает их держаться на уровне очень серьезных соперников, так что новичкам придется ой как нелегко!

Микроархитектура Bulldozer: строение и особенности функционирования

Прежде всего, необходимо отметить, что AMD FX являются чистокровными центральными процессорами и не имеют в своем составе графического ядра. Конечно, в этой связи можно обвинить AMD в непоследовательности, ведь продвижение на рынок APU (Accelerated Processing Unit) — одна из основных стратегических инициатив компании. Взамен встроенного видеоадаптера пользователи получают полную совместимость AMD FX с производительной платформой Socket AM3/AM3+, для которой предлагается множество отличных системных плат и обеспечена поддержка всех актуальных возможностей расширения. Специально для процессоров FX компания AMD выпустила обновленную 9-ю серию наборов системной логики.


Напомним основные возможности флагманского чипсета AMD 990FX. Итак, он позволяет строить графические конфигурации AMD CrossFireX и NVIDIA SLI, благодаря южному мосту SB950 поддерживает стандарт SATA 6 Гбит/с, но лишен возможности подключения устройств USB 3.0. Что касается материнских плат Socket AM3, основанных на наборах системной логики предыдущих поколений, то после обновления микрокода прошивки они тоже должны будут поддерживать Bulldozer. Но это уже зависит от конкретной модели.

Одной из ключевых особенностей процессоров на базе микроархитектуры Bulldozer стал переход на 32-нм литографический процесс, который на протяжении почти двух лет весьма успешно используется основным конкурентом — компанией Intel. Кроме потенциального уменьшения энергопотребления и улучшения разгонного потенциала, этот факт положительно отразился на стоимости производства полупроводниковых кристаллов. AMD уже нельзя назвать новичком в деле освоения 32-нм техпроцесса: именно с таким уровнем детализации выпускаются вполне удачные APU Llano, которые хоть и не завоевали признания среди энтузиастов, зато отлично подходят для построения недорогих и компактных универсальных ПК. Благодаря применению современных технологий производства чип (несмотря на то что содержит почти 2000 млн. транзисторов) вышел весьма компактным. Восьмиядерные AMD FX 8150 имеют площадь ядра всего в 315 мм², что меньше, чем у флагманов предыдущего поколения — Phenom II X6, кристалл которых занимает целых 346 мм². Впрочем, до показателей четырехъядерных Sandy Bridge процессорам AMD FX все же далеко, так как у первых чип, несмотря на наличие встроенного графического акселератора, занимает всего 216 мм².

Главные нововведения, которые были сделаны в микроархитектуре Bulldozer, коснулись алгоритма выполнения многопоточных вычислений. Долгое время центральные процессоры были способны выполнять единственный вычислительный поток в один момент времени. Так называемая одновременная работа нескольких программ осуществлялась при помощи обработчика прерываний, то есть вычислительные задачи разных приложений по очереди получали кратковременный доступ к ресурсам процессора. Именно благодаря этому стала возможной работа многозадачных операционных систем. Стоит ли говорить, что скорость работы в таком режиме была невысокой. В то же время, разработчики CPU стали замечать, что в нагрузке разные функциональные блоки процессора могут простаивать без работы, пока другие заняты обработкой вычислительного потока. Именно это и натолкнуло их на совместное использование одних и тех же ресурсов процессора для обработки нескольких вычислительных потоков. Компания Intel внедрила такую возможность под названием Hyper-Threading в свои процессоры еще в далеком 2002 году. Данный принцип дает некоторый прирост в определенном типе задач. В то же время, подход AMD к реализации многопоточных вычислений долгое время оставался неизменным: каждый поток должен выполняться на отдельном ядре. Теперь же, после оптимизации производительности отдельных узлов процессора и тщательного анализа нагрузки, разработчики AMD посчитали, что быстродействия некоторых узлов вполне достаточно для обслуживания сразу двух независимых вычислительных потоков. Такой подход позволил здорово сократить количество транзисторов, но сохранить высокую продуктивность. Теперь же, в свете увеличения требований к быстродействию при сохранении приемлемых параметров энергопотребления, разработчики вынуждены искать пути увеличения количества исполняемых за такт инструкций.

Итак, в основе всех центральных процессоров AMD FX лежит полупроводниковый кристалл, состоящий из четырех вычислительных модулей, каждый из которых снабжен собственным массивом кэш-памяти 2-го уровня, общего кэша 3-го уровня объемом 8 Мбайт, двухканального контроллера памяти DDR3, контроллеров шины HyperTransport и встроенного северного моста.


Очевидно, что младшие модели получаются из полноценных чипов путем отключения отдельных функциональных блоков. Глядя на структуру кристалла Zambezi невольно создается впечатление, что перед нами обычный четырехъядерный процессор. На самом деле это не так, и более всего данный факт демонстрирует строение вычислительного модуля — структурной единицы процессоров AMD FX.

В состав вычислительного модуля входят два блока целочисленных вычислений (ALU), каждый из которых способен выполнять до четырех инструкций за такт, снабженных собственной кэш-памятью 1-го уровня для хранения данных. Все остальные блоки, такие как предсказатель ветвлений, декодер инструкций, буферная память для хранения инструкций и массив кэш-памяти 2-го уровня размеров 2 Мбайт, представлены в единичном экземпляре. Очевидно, разработчики посчитали, что производительности этих блоков достаточно для обслуживания двух ALU.


Кроме того, каждый из вычислительных модулей располагает блоком вычислений с плавающей точкой (FPU), который также подвергся значительным доработкам. Так к стандартным SIMD-расширениям добавились наборы SSE4.1 и SSE4.2, а также специфические инструкции XOP, AES и AVX, которые позволяют значительно повысить быстродействие при условии их поддержки со стороны программного обеспечения. Интересно выглядит возможность выполнения 256-битных инструкций AVX, для этого задействуются ресурсы сразу двух блоков, каждый из которых способен обрабатывать 128-битные команды FMAC. При этом блок FPU способен выполнять две коротких инструкции AVX одновременно.

Как видно, микроархитектура Bulldozer имеет весьма продвинутые возможности вычисления, особенно в сравнении с процессорами AMD предыдущих поколений. Однако за такое технологическое преимущество приходится платить необходимостью тщательной оптимизации программного кода. В противном случае, особенно в старых приложениях, уровень быстродействия может быть далеким от ожидаемого.

Пару слов следует сказать про организацию внутренней памяти AMD FX, которые стали чемпионами не только по количеству ядер, но и по суммарному объему кэша. Как мы уже говорили, каждый из блоков целочисленных вычислений располагает буфером для хранения данных объемом 16 Кбайт, при этом оба буфера могут использоваться для работы блока FPU. Для хранения инструкций каждый вычислительный модуль располагает отдельным кэшем L1 объемом 64 Кбайт, а промежуточные данные накапливаются в кэш-памяти второго уровня, размеры которого составляют впечатляющие 2 Мбайт. Общий для всех четырех вычислительных блоков массив кэша 3-го уровня имеет объем 8 Мбайт и обладает ассоциативностью в 64 линии на каждый модуль. Благодаря применению эксклюзивной организации кэшей 2-го и 3-го уровней можно говорить об их суммарном объем в 16 Мбайт. Не удивительно, что кристалл Bulldozer получился таким сложным, львиная доля транзисторного бюджета отведена для организации внутренней памяти процессора. Заметим, что рабочая частота кэш-памяти L3 может составлять 2000 МГц или 2200 МГц в зависимости от модели процессора.

Как видно из краткого описания дизайна ядра, микроархитектура Bulldozer, несмотря на все свои новшества, не лишена некоторых недостатков. Все-таки на каждый вычислительный модуль приходится только один предсказатель ветвлений, блок выборки инструкций и один декодер инструкций, который, к слову, способен обрабатывать не более четырех инструкций за такт. Посмотрим, как поведет себя AMD FX в реальных приложениях, но интуиция подсказывает, что в приложениях, активно использующих FPU, но не имеющих программной оптимизации для новых наборов SIMD-инструкций, новейшие процессоры будут демонстрировать уровень производительности, характерный для четырехъядерных моделей.

Помимо архитектуры изменения претерпели и механизмы управления энергопотребления. Несмотря на большее количество транзисторов и высокие тактовые частоты, даже старшие восьмиядерные AMD FX имеют тепловой пакет, не превышающий 125 Вт. Конечно, определенную роль в этом сыграл и 32-нм технологический процесс, благодаря которому штатное напряжение питания не превышает 1,4 В, но основная заслуга все таки принадлежит продвинутым механизмам регулировки тактовых частот и питающих напряжений. Первое поколение данной концепции было реализовано в Phenom II X6, где в случае вычислительной нагрузки не более трех потоков, частоты трех активных ядер могли повышаться на 400 МГц. Процессоры AMD FX предлагают гораздо более гибкий поход к управлению ключевыми параметрами быстродействия. Так, благодаря применению силовых вентильных транзисторов диспетчер энергосбережения процессора способен отключать целые функциональные блоки. При отсутствии нагрузки вычислительный модуль вместе с массивом кэш-памяти 2-го уровня может полностью отключаться, высвобождая часть бюджета TDP. В то же время, тактовая частота и напряжение активных вычислительных модулей может повышаться, причем прирост частоты в режиме Max Turbo достигает солидных 900 МГц. Согласитесь, столь агрессивный алгоритм работы автоматического разгона нам еще не встречался. Более того, при равномерной нагрузке всех вычислительных модулей существует возможность увеличения тактовой частоты порядка 300 МГц. Собственно, это и есть режим работы Turbo Core, причем он будет активен до тех пор, пока энергопотребление процессора не выходит за рамки теплового пакета. Иными словами, самое понятие «штатная тактовая частота» для AMD FX теряет свой первоначальный смысл.


И все было бы очень хорошо, если бы не было так грустно. А дело в том, что планировщик процессов операционных систем Windows пока недостаточно оптимизирован для процессоров AMD FX. Существует вероятность того, что два потока одного приложения будут выполняться на целочисленных вычислительных блоках разных модулей, что не позволит процессору перейти в режим Max Turbo и потребует повторной загрузки данных и инструкций в кэш-память. В идеальном случае планировщик операционной системы должен учитывать архитектурные особенности Bulldozer, в этом случае комбинация использования Turbo Core и Max Turbo должны дать максимальный положительный эффект.


Уже сейчас известно, что планировщик заданий будущей Microsoft Windows 8 будет оптимизирован для работы на процессорах Bulldozer. А что касается дня сегодняшнего, возможно, будет выпущено обновление для нынешних операционных систем, или же программисты AMD наконец-то разработают «чудо-драйвер»…

Из чего складывается производительность процессора? Раньше в ходу была формула, описывающая быстродействие как произведение количества исполняемых за один такт инструкций и частоты, на которой этот процессор функционирует. Теперь в этой формуле появился и третий сомножитель — количество вычислительных ядер. Поэтому разработчик процессоров, желающий выпустить быстрый продукт, имеет для этого несколько путей.

Однако не всё так просто. Увеличение количества исполняемых вычислительным ядром за такт инструкций — довольно сложная задача. Классический x86 программный код предполагает последовательное исполнение команд, а потому, чтобы добиться их параллельной обработки, в процессор необходимо заложить высокоэффективные блоки предсказания переходов и переупорядочивания инструкций, реализация которых требует немалых инженерных усилий. При этом усложнение микроархитектуры сказывается на физических размерах кристалла и приводит к ограничениям при наращивании количества ядер. Так что если производитель собирается сделать процессор с большим числом ядер, то микроархитектуру нужно, наоборот, стараться упростить. Непросто всё и с тактовой частотой. Ставка на её рост вновь потребует внесения изменений во внутренние блоки процессора и удлинения его исполнительного конвейера. В итоге получается следующее: чтобы процессор мог завоевать медальку за производительность, его разработчики должны изрядно попотеть над одновременной оптимизацией целого ряда параметров.

Проблема заключается ещё и в том, что любой из выбранных путей улучшения быстродействия процессора может оказаться удачным лишь для частных случаев. Далеко не все программы могут эффективно работать с большим количеством ядер. Какие-то алгоритмы не позволяют корректно предсказывать переходы и переупорядочивать инструкции. А в некоторых случаях производительность не растёт и с увеличением тактовой частоты, потому что в системе находятся какие-то другие узкие места.

Подобрать оптимальный баланс непросто, да и что считать критерием оптимальности? Мы можем лишь сопоставить производительность процессоров в конечном числе программ и выбрать из них быстрейший для данного конкретного случая. Однако это совершенно не гарантирует, что, применив другой набор тестового инструментария, мы не получим совершенно противоположные оценки. Столь пространное вступление приведено здесь потому, что сегодня нам предстоит знакомство с новой серией процессоров AMD FX — флагманским продуктом компании AMD, широко известным под кодовым именем Zambezi. В основе этого процессора лежит весьма неоднозначная микроархитектура Bulldozer, которая уже успела собрать немалый букет нелестных отзывов. Но дело вовсе не в том, что эта микроархитектура совсем плоха. Подбирая наилучший баланс характеристик, разработчики неверно оценили потребности большинства пользователей и сделали в «базовой формуле» основной упор не на тот сомножитель. В итоге изначальный замысел по выпуску высокопроизводительного решения нового поколения пошёл кувырком и заинтригованные обещаниями прорыва приверженцы AMD получили совсем не то, что ожидали. Однако является ли это серьёзным и объективным поводом для разочарования? Об этом и поговорим в данном материале.

⇡ Считаем ядра: восемь или четыре?

Работая над новым дизайном для производительных процессоров, AMD решила поставить во главу угла количество вычислительных ядер. Это вполне логичный выбор, основанный на том, что с годами многопоточного программного обеспечения становится всё больше и больше и разработка микроархитектуры, рассчитанной на многолетнее развитие, должна учитывать в первую очередь не текущее состояние рынка, а наблюдаемые тенденции. Восемь ядер, предусмотренных в базовом варианте нового процессора, — это то, чем AMD и собиралась покорить рынок, на котором пока что были представлены только чипы, максимальное количество ядер в которых ограничивалось шестью. (Здесь мы говорим только о настольных компьютерах. — прим. ред. )

При этом брать ядра старой микроархитектуры K10 разработчики не захотели. Они не только имеют слишком большой физический размер, но и, как можно судить по Llano, не склонны к функционированию на высоких тактовых частотах даже после перевода на современную 32-нм технологию. К тому же они не поддерживают многих современных возможностей, таких как, например, AVX-инструкции. Поэтому, для сборки восьмиядерников AMD сделала новую микроархитектуру — Bulldozer. Представители компании предпочитают говорить, что её разработка велась с чистого листа, но на самом же деле в ядрах Bulldozer можно найти немало отсылок к другой представленной в этом году микроархитектуре — Bobcat, ориентированной на применение в компактных и энергоэффективных устройствах. Впрочем, родство между Bulldozer и Bobcat — достаточно отдалённое, и упоминаем мы о нем лишь для того, чтобы стала понятна общая идея — в Bulldozer объединено много сравнительно несложных ядер.

При этом речь идёт совсем не о примитивном совмещении на одном полупроводниковом кристалле восьми простых ядер. При таком раскладе получившийся процессор обладал бы совсем невысокой однопоточной производительностью, и это стало бы достаточно серьёзной проблемой, так как программ, не дробящих нагрузку на несколько вычислительных потоков, не так уж и мало. Поэтому, во-первых, ядра были оптимизированы под работу на высоких тактовых частотах. А во-вторых, они были спарены в двухъядерные модули, способные совместно использовать свои ресурсы во благо обслуживания одного потока. В итоге получилась достаточно любопытная конструкция: входная часть исполнительного конвейера у такого двухъядерного модуля — общая, а в дальнейшем обработка инструкций делится между двумя наборами исполнительных устройств.

Основа конструкции Bulldozer — условно называемый двухъядерным модуль

Напомним, процесс обработки данных в современном процессоре включает несколько этапов: выборку x86-инструкций из кеш-памяти, их декодирование — перевод во внутренние макрооперации, выполнение, запись результатов. Первые два этапа в модуле Bulldozer производятся для пары ядер совместно, а далее для целочисленных инструкций выполнение распределяется по двум ядрам-кластерам либо, в случае вещественной арифметики, оно осуществляется в общем для двух ядер блоке операций с плавающей точкой.

Модули Bulldozer рассчитаны на обработку четырёх инструкций за такт, причём, благодаря технологии макрослияния, некоторые пары x86-инструкций могут рассматриваться процессором как одна операция. Это значит, что в целом двухъядерный модуль Bulldozer по своей мощности подобен одному ядру современных интеловских процессоров, которые также могут обрабатывать по четыре инструкции за такт и при этом тоже поддерживают макрослияния.

Однако между модулем Bulldozer и ядром Sandy Bridge есть существенные различия, способные поставить их примерно одинаковую теоретическую скорость под сомнение. Ввиду того, что модуль новых процессоров AMD содержит остатки двух равноправных ядер, максимальную производительность он может продемонстрировать только при обработке пары потоков. Если же на него ложится однопоточная нагрузка, то скорость её обслуживания будет ограничиваться числом исполнительных устройств внутри одного такого кластера. А их там, учитывая желание AMD упростить отдельные ядра, не так уж и много — в полтора раза меньше, чем в процессорах с микроархитектурой Sandy Bridge или K10. То есть по два арифметических ALU и по два адресных AGU.

Так выглядит функциональное устройство модуля, построенного на микроархитектуре Bulldozer. От двух ядер осталось лишь два набора целочисленных исполнительных устройств

Относительно невысокую сложность имеет и общий на процессорный модуль блок операций с плавающей точкой. В него входит два 128-битных исполнительных устройства FMAC, которые для обработки 256-битных инструкций могут объединяться в единое целое. Казалось бы, и здесь исполнительных устройств не так много, особенно с учётом того, что делятся они на пару ядер. Но зато они — более универсальные, чем в предшествующих и конкурирующих микроархитектурах, где применяются отдельные умножители и сумматоры. И благодаря этому в определённых случаях при работе с вещественными числами двухъядерный модуль Bulldozer может обеспечивать сравнимую и даже более высокую производительность, чем, например, одно ядро Sandy Bridge.

Аналогичная идея объединения 128-битных устройств для работы с 256-битными инструкциями используется и в Sandy Bridge

Однако свои самые сильные стороны модуль Bulldozer должен проявлять при двухпоточной нагрузке. Одно ядро Sandy Bridge тоже способно обрабатывать два вычислительных потока, для этого в нём имеется технология Hyper-Threading. Однако все инструкции при этом направляются на один набор исполнительных устройств, что на практике вызывает многочисленные коллизии. В модуле Bulldozer же сохранено два независимых целочисленных кластера, которые могут исполнять потоки параллельно, а суммарное количество исполнительных устройств в них превышает число таких устройств в ядре Sandy Bridge в полтора раза.

Слева — модуль Bulldozer, справа — некое конкурирующее ядро с поддержкой Hyper-Threading. На самом деле на Sandy Bridge оно не очень-то и похоже, но суть проблемы иллюстрация передаёт

В результате модуль Bulldozer обладает более высокой пиковой производительностью, нежели ядро Sandy Bridge, но раскрыть эту производительность несколько сложнее. Ядро Sandy Bridge интеллектуально загружает собственные ресурсы благодаря продвинутой внутрипроцессорной логике, самостоятельно разбирающей однопоточный код и исполняющей его параллельно на полном наборе своих исполнительных устройств. В Bulldozer же задача эффективного использования исполнительных устройств частично перекладывается на программиста, который должен разбить свой код на два потока — полноценная загрузка всех мощностей модуля станет возможной лишь тогда.

И вот что характерно. Рассматривая двухъядерный модуль процессора Bulldozer, мы всё время сопоставляли его с одним ядром Sandy Bridge, и при этом нам удавалось проводить вполне корректные параллели. Это заставляет задуматься — не стоит ли считать «восьмиядерность» новой микроархитектуры порождением фантазии маркетологов? AMD говорит, что считать ядра следует по количеству целочисленных кластеров, аргументируя это тем, что модуль способен обеспечить до 80 % производительности двух независимых ядер. Однако не следует забывать, что ядра, положенные в основу Bulldozer, существенно проще ядер других процессоров. Поэтому количество двухъядерных модулей — характеристика, отражающая производительность Bulldozer куда адекватнее.

Найди максимальное количество процессорных ядер и получи работу в маркетинговом отделе AMD

⇡ Кеш-память

Организация кеш-памяти в процессорах Bulldozer также «привязана» не столько к отдельным ядрам, сколько к двухъядерным модулям. Фактически на каждое ядро выделен лишь собственный кеш данных первого уровня, все остальные уровни кеш-памяти относятся либо к модулю в целом, либо к процессору:

  • Каждое ядро имеет собственную кеш-память первого уровня для данных. Её объём составляет 16 Кбайт, а архитектура предполагает наличие четырёх каналов ассоциативности. Этот кеш работает по алгоритму со сквозной записью, что означает его инклюзивность.
  • Кеш первого уровня для инструкций представлен в единственном экземпляре на каждый двухпроцессорный модуль. Его объём — 64 Кбайт, а количество каналов ассоциативности — два.
  • Кеш второго уровня также реализуется в единичном на модуль экземпляре. Его размер — внушительные 2 Мбайт, ассоциативность — 16 канальная, а алгоритм работы — эксклюзивный.
  • Кроме того, восьмиядерный процессор в целом располагает 8-мегабайтным L3 кешем с 64-канальной ассоциативностью. Особенность этого кеша состоит в его работе на существенно меньшей по сравнению с самим процессором частоте, которая составляет порядка 2 ГГц.

Следующая таблица описывает соотношение объёмов кеш-памяти процессоров восьмиядерных Bulldozer, четырёхядерных Sandy Bridge и Thuban (шестиядерных Phenom II X6, построенных на микроархитектуре K10).

Тип кеша Bulldozer (8 ядер/4 модуля) Sandy Bridge (4 ядра) Thuban (6 ядер)
L1I (инструкции) 4x64 Кбайт 4x32 Кбайт 6х64 Кбайт
L1D (данные) 8x16 Кбайт 4х32 Кбайт 6х64 Кбайт
L2 4х2 Мбайт 4х256 Кбайт 6х512 Кбайт
L3 8 Мбайт, 2,0-2,2 ГГц 8 Мбайт, работает на частоте процессора 6 Мбайт, 2,0 ГГц

Как видно по таблице, AMD сделала ставку на вместительные кеши верхних уровней, что может быть действительно полезно в случае серьёзной многопоточной нагрузки. Однако кеш-память в новых процессорах в целом работает медленнее, чем у предшествующих и конкурирующих продуктов. Это легко обнаруживается при измерении практической латентности.

Большие задержки при обращении к данным в Bulldozer могут быть компенсированы лишь высокой тактовой частотой этих CPU. Что, впрочем, и планировалось изначально — по частотам новые восьмиядерники должны были превосходить Phenom II на 30 %. Однако AMD так и не смогла спроектировать полупроводниковые кристаллы, способные стабильно работать при столь высоких значениях частоты. В результате высокая латентность кеш-памяти способна нанести системам на базе Bulldozer определённый урон.

Процессоров AMD с принципиально новой архитектурой Bulldozer откровенно заждались не только почитатели продукции компании, но и многие пользователи, следящие за IT-прогрессом. В последние несколько лет предлагая интересные решения по соотношению цена/производительность, AMD в основном концентрировалась на устройствах начального и среднего уровней. Возрождая линейку FX, очевидно, что компания рассчитывает привлечь внимание и более взыскательных энтузиастов, готовых к экспериментам и требующих максимальных скоростей. Возможности нового семейства мы будем изучать на примере первого в мире восьмиядерного процессора для десктопов – AMD FX-8150. Посмотрим, удастся ли производителю оправдать ожидания своих поклонников.

В отличие от основного конкурента, который может себе позволить следовать маятниковому принципу разработки CPU, проводя смену архитектур и технологических процессов c годичной периодичностью, компания AMD не очерчивает для своих проектов определенных временных рамок, полагаясь на чутье рынка и собственный технологический потенциал. История с архитектурой Bulldozer началась давно. Предполагалось, что ее представят еще в 2009 году, но в силу различных обстоятельств практическое воплощение смелых инженерных решений в кремнии стало возможным лишь сейчас.

Bulldozer для AMD – это всерьез и надолго. Данная микроархитектура на ближайшие несколько лет станет основой для будущих процессоров из различных сегментов: серверного, десктопного и мобильного. Это касается как дискретных CPU, так и гибридных – APU также со временем планируется трансформировать под Bulldozer. Лишь для компактных систем AMD собирается использовать чипы на экономичной Bobcat и ее модернизированных версиях. С анонсом Bulldozer компания решила возродить легендарную серию, представив процессоры линейки AMD FX, которые получили новую архитектуру и производятся с применением наиболее прогрессивного 32-нанометрого техпроцесса.

Особенности архитектуры

В основе чипов Bulldozer лежат модули с двумя вычислительными блоками x86. При этом последние не являются полностью автономными – некоторые ресурсы общие для обоих ядер. В частности, блок предварительной выборки, декодер инструкций, FPU и кеш-память второго уровня (L2). Монолитный двухъядерный модуль обеспечивает одновременное выполнение двух потоков, но с определенными оговорками. По расчетам производителя, такой подход вполне оправдан и позволяет получить порядка 80% эффективности полноценных физических ядер. Однако при этом значительно уменьшается количество транзисторов, а соответственно, площадь кристалла и его энергопотребление.

С учетом новой структуры внутренняя архитектура была очень серьезно переработана, что фактически затронуло все исполнительные блоки. Сходства с К10, которая использовалась для чипов Phenom II и Athlon II, практически нет. AMD внедрила поддержку инструкций AVX, SSE 4.2 и AES-NI и добавила собственные наборы FMA4 и XOP.

Как и топовые процессоры Phenom, чипы FX получили трехуровневую систему кеширования. Однако ее организация также заметно отличается о той, что была у предшественников. Кеш-данных L1 уменьшился с 64 КБ до 16 КБ, в то же время существенно возросла его пропускная способность. L2 объемом 2 МБ является общим для обоих ядер каждого модуля. В зависимости от количества последних суммарная емкость кеш-памяти второго уровня в процессоре AMD FX может составлять от 4 до 8 МБ. Латентность его несколько увеличена – плата за оптимизацию для работы на повышенных частотах. Чипы с архитектурой Bulldozer также оснащены L3-кешем объемом 8 МБ. Учитывая эксклюзивную схему работы, суммарный объем буфера довольно впечатляющий как для десктопных моделей. Усовершенствованный алгоритм предвыборки данных позволяет надеяться, что скорость подсистемы памяти будет увеличена. Что касается непосредственно ОЗУ, то CPU FX поддерживают модули DDR3-1866 в двухканальном режиме.

Для производства AMD FX используется 32-нанометровый техпроцесс с технологией SOI, аналогичный применяемому при изготовлении APU Llano. Чипы выпускаются на мощностях родственной компании GlobalFoundries. В основе CPU лежит восьмиядерный кристалл площадью 315 мм2. Согласно топологии, большая его часть отводится под кеш-память, потому неудивительно, что суммарное количество транзисторов в данном случае составляет впечатляющие 2 млрд. Для сравнения: шестиядерные Phenom II X6 (Thuban) включают «всего» 904 млн транзисторов, но из-за 45-нанометрового техпроцесса площадь кристалла равна 346 мм2. Учитывая разницу в площади, можно предположить, что себестоимость чипов FX ниже, чем у предшественников. Однако переход на 32 нм непросто дается GlobalFoundries. AMD уже сообщала о сложностях с выходом годных заготовок, ввиду которых компания не может в полной мере удовлетворить спрос на гибридные Llano. Будем надеяться, что это никак не повлияет на доступность в продаже FX, и все желающие смогут их приобрести.

Для четырех- и шестиядерных моделей будет использоваться тот же кристалл, что позволит эффективнее распорядиться чипами, имеющими определенные дефекты. Между тем вполне вероятно, что для производства данных CPU станут применяться и полностью работоспособные кристаллы с деактивированными модулями. А в этом случае можно рассчитывать на очередную лотерею с разблокированием отключенных ядер. Прекрасный получился бы способ подогреть интерес к процессорам AMD FX.

Технические характеристики процессоров
Модель FX-8150 Phenom II X6 1075T Phenom II X4 975 Core i7-2600K Core i5-2500K
Кодовое имя Bulldozer Thuban Deneb Sandy Bridge Sandy Bridge
Количество ядер/потоков, шт. 8/8 6/6 4/4 4/8 4/4
Базовая тактовая частота, ГГц 3,6 3 3,6 3,4 3,3
Тактовая частота после авторазгона, ГГц 3,9/4,2 3,5 3,8 3,7
Объем кеш-памяти L2/L3, МБ 8/8 6×0,5/6 4×0,5/6 4×0,25/8 4×0,25/6
Технология производства, нм 32 45 45 32 32
Процессорный разъем AM3+ AM3 AM3 LGA1155 LGA1155
Энергопотребление (TDP), Вт 125 125 125 95 95
Рекомендованная цена, $ 245 181(162*) 175 (160*) 317 (315*) 216 (225*)
* По данным каталога Hotline.ua .

Turbo Core

Технология динамического увеличения частоты Turbo Core ранее использовалась компанией AMD для шестиядерных Thuban и APU Llano. Процессоры FX имеют новый механизм и алгоритм работы данной функции. В случае, когда под нагрузкой энергопотребление чипа укладывается в рамки его TDP, а температура не превышает заданного значения, частота может автоматически увеличиваться (100–300 МГц) даже в ситуации, когда активны все ядра (All Core Boost). Если же как минимум половина модулей простаивают, то AMD FX может переходить в режим Max Turbo Boost, повысив напряжение питания и весьма значительно тактовую частоту работающих блоков (до 900 МГц).

AMD также озаботилась улучшением экономичности новых чипов. Учитывая рост количества вычислительных ядер, полагаться только на эффект от использования более тонкого техпроцесса нельзя. При отсутствии нагрузки на оба процессорных ядра в рамках одного модуля и переходе их в состояние энергосбережения C6 силовые транзисторы позволяют отключать питание от данного узла, снижая общее потребление CPU.

Логическая поддержка

Как и у предыдущей десктопной платформы AMD, контроллер шины PCI Express 2.0 остался прерогативой северного моста чипсета, а не перебрался под крышку процессора. Именно количество поддерживаемых линий данного интерфейса, а вследствие и способность построения конфигураций с несколькими видеокартами стали определяющими отличиями новых наборов логики для чипов Zambezi. В распоряжении топового AMD 990FX находятся 42 линка с возможностью компоновки на графические нужды как 2×16x или 4×8x. AMD 990X имеет 26 линий и позволяет подружить только две видеокарты в режиме CrossFireX или SLI в конфигурации 2×8x. Ну а AMD 970 при таком же числе линков PCI-E предлагает довольствоваться одним адаптером. Во всех случаях периферию обслуживает южный мост SB950, который не несет каких-либо интересных новшеств: шесть портов SATA 6 Гб/c с возможностью создания RAID (0,1,5,10), до 14 разъемов USB 2.0, работа с PCI. Увы, в отличие от чипсета AMD A75 для платформы FM1 поддержки скоростной шины USB 3.0 здесь нет.

Платформа AM3+

Для работы с процессорами серии FX нужна материнская плата с разъемом AM3+. Это может быть как модель на «новом» чипсете AMD 9xx, так и продукт с логикой предыдущих поколений. Совместимость с AM3 теоретически возможна, но не гарантируется ни самой AMD, ни производителями материнских плат. Не исключено, что последние выпустят прошивки для своих топовых решений, но это скорее единичные случаи. И даже в подобных ситуациях чипы FX будут функционировать с уменьшенной скоростью переключения состояний Turbo Boost и Cool’n’Quiet. При этом все возможные проблемы с работой системы лягут на плечи пользователей. Потому на беспроблемный апгрейд рассчитывать в данном случае не приходится.

Платы с AM3+ легко отличить по черному цвету процессорного разъема, тогда как коннектор AM3 белый. К счастью, конструкция элементов крепления СО не изменилась, потому для охлаждения AMD FX подойдет любой кулер, совместимый с AM2/AM2+/AM3.

Модельный ряд

3DMark 11, тест CPU (Physics), баллы
3DMark Vantage, баллы
PC Mark 7, тест Cоmputation, баллы
CineBench 11.5, баллы
x264 HD Benchmark 4.0, кадры/c
7-Zip 9.20, MIPS
Far Cry 2, 1920×1080, DX10, высокое качество, кадры/c
Hard Reset, 1920×1080, режим High, кадры/c
Metro 2033, 1920×1080, DX11, PhysX, высокое качество, кадры/c
Colin McRae: DiRT 3, 1920×1080, высокое качество, кадры/c
Lost Planet 2, 1920×1080, DX11, высокое качество, тест B, кадры/c
Crysis 2, 1920×1080, DX9, высокое качество, тест Downtown, кадры/c
Энергопотребление системы, Вт

Благодаря модульной структуре процессоров компании несложно выстроить свой модельный ряд, предлагая устройства с различными количеством вычислительных блоков и тактовыми частотами. На старте линейка десктопных чипов, получивших название Zambezi, включает четыре CPU. Флагманом является восьмиядерное решение FX-8150 с частотной формулой 3,6/3,9/4,2 ГГц. По 8 МБ кеш-памяти L2 и L3, а также TDP на уровне 125 Вт. Схожа по оснащению и FX-8120, отличие лишь в частотном режиме работы – 3,1/3,4/4,0 ГГц. Шестиядерный FX-6100 имеет 6 МБ кеш-памяти второго уровня и все те же 8 МБ L3, а вот его тепловой пакет – 95 Вт. Наиболее доступная версия с двумя модулями и четырьмя вычислительными блоками x86 FX-4100 функционирует на 3,6/3,7/3,8 ГГц, довольствуется 4 МБ L2, емким L3 (8 МБ) и TDP в 95 Вт. Что касается стоимости устройств, то рекомендованные оптовые цены для перечисленных моделей находятся на уровне $245/205/165/115 соответственно.

Разгон

Возможность беспрепятственного разгона процессоров является одним из ключевых параметров чипов FX. На этой особенности компания AMD делает отдельный акцент. Свободный множитель доступен всем моделям линейки, а возможность его изменения будет присутствовать на любой плате с AM3+.

Архитектура FX изначально создавалась с учетом функционирования на высоких тактовых частотах. Умельцы, вооруженные сосудами с жидким азотом, смогли получить скриншот CPU-Z в ситуации, когда процессор работал почти на 8,5 ГГц. При этом, правда, понадобилось оставить активным лишь один модуль из четырех. Все восемь ядер удалось заставить функционировать на 8,1 ГГц. Ранее подобных частот достигали разве что максимально облегченные версии Intel Celeron для LGA775. Теперь же у энтузиастов появится куда более интересный объект для оверклокерских экспериментов.

В случае с воздушной системой охлаждения придется довольствоваться более скромными результатами. При повышении напряжения питания до 1,45 В CPU стабильно работал на 4,6 ГГц. Может и не столь впечатляюще, но потенциал очевидно лучше, чем у 45-нанометровых чипов Phenom II.

Итоги

Результаты тестов производительности представлены на диаграммах. Картина достаточно показательна для того, чтобы в целом сложить мнение о возможностях новой разработки AMD. Процессоры FX ожидаемо получили прирост быстродействия в многопоточных задачах – архивировании, кодировании HD-видео, рендеринге. Здесь восьмиядерному чипу вполне по силам тягаться и с Core i5-2500K, и с более дорогостоящим Core i7-2600K. Однако как только дело доходит до приложений с неважной оптимизацией для параллельного исполнения кода, AMD FX сдают позиции – удельная производительность их x86-блоков даже несколько ниже, чем у продуктов с архитектурой K10. В играх, которые в лучшем случае задействуют 3–4 потока, заметное преимущество у процессоров от Intel. Если использовать максимальные настройки качества графики, где видеокарта становится ограничителем, показатели систем выравниваются, но оценить реальный потенциал CPU в таких условиях невозможно.

Переход на 32-нанометровый техпроцесс, скорее, позволил удержать энергопотребление на прежнем уровне при возросшем быстродействии. Вероятно, приоритетом в данном случае была именно производительность, а не улучшенная экономичность CPU.

Даже судя по стоимости AMD FX очевидно, что компания в первую очередь планирует закрепиться в средней ценовой категории, осознанно отдавая Intel сегмент топовых дорогостоящих решений. В текущих условиях достойно выступать в лиге «супертяжеловесов» объективно производитель сейчас не может. Сделав ставку на многоядерные вычисления, получить выдающиеся результаты в слабо оптимизированном ПО очень проблематично. Вместе с тем всего пять лет назад мы искренне удивлялись, кому может понадобиться на десктопе четырехъядерный процессор и как эффективно использовать ресурсы подобного CPU. Сегодня же это обыденность, и преимущества чипов с таким количеством вычислительных блоков уже не вызывают вопросов. Возможно, подобное признание некоторое время спустя получат и восьмиядерные модели.

К счастью, AMD не будет сложа руки наблюдать, какая участь постигнет ее процессоры. Озвученные планы дальнейшего развития внушают хотя и сдержанный, но все же оптимизм. Компания продолжит активно дорабатывать нынешнюю архитектуру, улучшая как энергоэффективность, так и производительность CPU, однако указанные темпы – 10–15% в год – не очень впечатляют. С подобными показателями рассчитывать на кардинальное изменение ситуации можно лишь в том случае, если Intel замедлит развитие своих продуктов, но предпосылок для этого нет – механизм «тик-так» пока еще не давал сбоев. Уже весной 2012 года будут представлены чипы Ivy Bridge, выполненные по 22-нанометровой технологии и использующие 3D-транзисторы.

Итоговая оценка рассмотренной архитектуры и процессора AMD FX-8150 на ее основе неоднозначна, а это уже говорит о том, что революции не произошло. По крайней мере на данном этапе она незаметна для конечного пользователя. Качественный скачок производительности имеет место на хорошо распараллеливаемых приложениях, тогда как в однопоточных задачах серьезной прибавки не наблюдается. Большие ожидания, возлагаемые на Bulldozer, оправдались лишь отчасти. AMD еще есть над чем поработать, чтобы предложить интересные решения и побороться за место в сердцах требовательных энтузиастов.