666555 |
Хостинг фотографий![]() Вряд ли это уже кого-то удивит, но история с бесконечными отсрочками релиза наиболее ожидаемых видеокарт NVIDIA GeForce GTX 4xx вновь получила свое продолжение. Известный зарубежом интернет-портал ShaneBaxtor сообщает, что появления на прилавках магазинов графических карт GeForce GTX 470 и GeForce GTX 480 можно ожидать не ранее 6 апреля, тогда как ранее назывался срок 26 марта. Благо срок сдвинут не так сильно, как это происходило ранее - дебют дискретных ускорителей NVIDIA следующего поколения первоначально ожидался еще в ноябре-декабре прошлого года. Поэтому дополнительные 10 дней для привыкших к ожиданию поклонников этого бренда не должны вызывать особого расстройства. Впрочем, указанная отсрочка не затрагивает вопроса о неразглашении информации о первых видеокартах поколения Fermi. Поэтому можно надеяться на то, что по прошествии 26 числа сего месяца подробные технические сведения о производительности этих ускорителей не заставят себя долго ждать. Это сообщение отредактировал кучeрявый - 07-03-2013 - 13:23 |
Rosinka |
666555 вас кто то ввёл в заблуждение вот так сказать текстовая версия одного из обзоров скрытый текст Этого мы ждали если не два года, то год точно... Однако проблемы с производством и иные факторы все откладывали и откладывали выпуск нового продукта NVIDIA на базе уже широко всем известной архитектуры Fermi. И вот наконец-то все, что говорила NVIDIA на конференциях в октябре 2009 и в январе 2010, стало реальностью. И наша задача изучить новый продукт калифорнийской компании и рассказать о нем. Слово берет Алексей Берилло. Он бывал на всех упомянутых форумах, ему и карты в руки. Ну вот и дошло дело до практического знакомства с новой графической архитектурой компании NVIDIA и первым решением на её основе — GeForce GTX 480. Думаем, что не будет преувеличением сказать, что сегодняшнего анонса заждались все: и поклонники компании, и просто интересующиеся 3D-видеокартами, и даже пользователи продукции конкурента. Первым нужно было подтверждение способностей любимой компании, вторым и третьим — сильная конкуренция и широкий выбор на рынке видеокарт для ПК. Самой NVIDIA также уже очень желательно было обновить графическую архитектуру, ведь предыдущие чипы поддерживают только возможности DirectX 10 и DirectX 10.1, а главный конкурент ещё с осени предлагает всем желающим решения с поддержкой DirectX 11, и игры с использованием возможностей последней версии этого API уже давно начали и продолжают появляться. Хотя с момента появления первых данных о новой архитектуре прошло не так уж много времени, может показаться, что ждать пришлось слишком долго. Эта ситуация объясняется психологическим фактором, ведь вычислительную архитектуру «Fermi» анонсировали ещё осенью прошлого года, а почти все подробные технические данные были рассказаны ещё в январе. Мы даже выпустили тогда специальный обзор архитектуры GF100, который во многом повторяет первая часть сегодняшнего материала. Именно поэтому многим читателям кажется, что задержка с выпуском была слишком большая, что-то около полугода. На самом деле перенос был всего лишь один — трёхмесячный. Изначально планировался выход новых решений в последнем квартале 2009 года, который затем был передвинут на квартал вперёд. Причина долгого ожидания выхода новых решений на рынок довольно проста, и не всё тут зависело от NVIDIA. Понятно, что выпуск настолько мощного и большого GPU (более чем три миллиарда транзисторов) был возможен только при помощи нового 40-нм технологического процесса фабрик TSMC. Вот с ним как раз и возникли проблемы. Длительное и мучительное освоение техпроцесса начиналось с мобильных графических чипов AMD и настольного RV740 (он оказался не очень удачным), а также — с мобильных решений архитектуры GT21x компании NVIDIA. Конкурент справился с выпуском новых чипов на этом техпроцессе несколько быстрее, так как его топовый RV870 всё же значительно проще с точки зрения количества транзисторов и потому, что это — доработанная предыдущая архитектура, а не полностью новая, как GF100. В дальнейшем вышли и другие чипы, предназначенные для среднего и нижнего ценовых диапазонов, но и после этого проблемы с производством никуда не испарились, той же AMD продолжает не хватать 40-нм чипов, чтобы удовлетворить требования рынка. Понятно, что с недостаточно отлаженным и проблемным производством, столь сложный чип GF100 не мог появиться быстро. И вообще — ему было очень непросто появиться таким, каким он был запланирован изначально. Мы не зря упоминали в выводах теоретической статьи о том, что многое решат частоты и параметры конкретных моделей на основе GF100. И вот какими они оказались, и что решили — мы и узнаем в сегодняшней статье. Для начала будет полезно прочитать предыдущие материалы, если вы ещё не знакомы с архитектурой GeForce GTX 200 (GT200). Все подробности о ней можно прочитать в базовом обзоре на нашем сайте. Это дальнейшее развитие архитектуры G8x/G9x, в которую были внесены некоторые изменения. Вот ссылки и на другие статьи по теме: Итак, с предыдущими архитектурами видеочипов NVIDIA читатели хорошо знакомы, а теперь мы рассмотрим подробные характеристики нового графического процессора этой компании и двух новых моделей видеокарт серии GeForce GTX 400, основанных на этом GPU, выполненном с применением многострадального 40-нм техпроцесса. Графические ускорители серии GeForce GTX 400 Кодовое имя чипа GF100; Технология производства 40 нм; Более 3 миллиардов транзисторов; Унифицированная архитектура с массивом процессоров для потоковой обработки различных видов данных: вершин, пикселей и др.; Аппаратная поддержка DirectX 11 API, в том числе шейдерной модели Shader Model 5.0, геометрических (geometry) и вычислительных (compute) шейдеров, а также тесселяции; 384-битная шина памяти, шесть независимых контроллеров шириной по 64 бита каждый, с поддержкой GDDR5 памяти; Частота ядра до 700 МГц; Удвоенная частота ALU до 1401 МГц; 16 потоковых мультипроцессоров, включающих 512 скалярных ALU для расчётов с плавающей точкой (поддержка вычислений в целочисленном формате, с плавающей запятой, с FP32 и FP64 точностью в рамках стандарта IEEE 754-2008); 64 блока текстурной адресации и фильтрации с поддержкой FP16 и FP32 компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов; 6 широких блоков ROP (48 пикселей) с поддержкой режимов антиалиасинга до 32 выборок на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг; Запись результатов до 8 буферов кадра одновременно (MRT); Интегрированная поддержка RAMDAC, двух портов Dual Link DVI, а также HDMI и DisplayPort. Спецификации референсной видеокарты GeForce GTX 480 Частота ядра 700 МГц; Частота универсальных процессоров 1401 МГц; Количество универсальных процессоров 480; Количество текстурных блоков — 60, блоков блендинга — 48; Эффективная частота памяти 3696 (924*4) МГц; Тип памяти GDDR5, 384-бит шина памяти; Объем памяти 1536 МБ; Пропускная способность памяти 177,4 ГБ/с; Теоретическая максимальная скорость закраски 33,6 гигапикселей в секунду; Теоретическая скорость выборки текстур 42 гигатекселя в секунду; Два Dual Link DVI-I разъема, один Mini HDMI, поддерживается вывод в разрешениях до 2560х1600; Двойной SLI разъем; Шина PCI Express 2.0; Поддержка HDCP, HDMI, DisplayPort; Энергопотребление до 250 Вт (8-штырьковый + 6-штырьковый разъёмы); Двухслотовое исполнение; Рекомендуемая цена для американского рынка $499 (в России — 18999 руб). Спецификации референсной видеокарты GeForce GTX 470 Частота ядра 607 МГц; Частота универсальных процессоров 1215 МГц; Количество универсальных процессоров 448; Количество текстурных блоков — 56, блоков блендинга — 40; Эффективная частота памяти 3348 (837*4) МГц; Тип памяти GDDR5, 320-бит шина памяти; Объем памяти 1280 МБ; Пропускная способность памяти 133,9 ГБ/с; Теоретическая максимальная скорость закраски 24,3 гигапикселей в секунду; Теоретическая скорость выборки текстур 34 гигатекселя в секунду; Два Dual Link DVI-I разъема, один Mini HDMI, поддерживается вывод в разрешениях до 2560х1600; Двойной SLI разъем; Шина PCI Express 2.0; Поддержка HDCP, HDMI, DisplayPort; Энергопотребление до 215 Вт (два 6-штырьковых разъёма); Двухслотовое исполнение; Рекомендуемая цена для американского рынка $349 (в России — 14999 руб). Производство графических процессоров GF100 по 40-нм технологическим нормам позволило компании NVIDIA выпустить такой мощный GPU, который состоит из 3 млрд. транзисторов. Это самый сложный видеочип за всё время. Он обладает массой новых возможностей, о которых мы расскажем далее, а сейчас остановимся на названиях моделей. Принцип наименования видеокарт NVIDIA остался тем же, что и раньше. По сравнению с предыдущими топовыми картами поменялась первая цифра. Причём она скакнула сразу с «2» до «4», пропустив «3». Сделано это потому, что в третьей серии в линейке компании ранее уже появились карты, основанные на старых GPU и предназначенные для OEM-сборщиков. Новые модели GTX 470 и GTX 480, по всей видимости, должны сместить GTX 275 и GTX 285 по цене ещё ниже, а GTX 295 вряд ли будет выпускаться вообще. Пока остаются проблемы с производством чипов GF100 по новому техпроцессу, многие из карт предыдущего поколения останутся в производстве и продаже, просто их цена снизится ещё немного. Две модели из серии, как обычно бывает в случае видеокарт NVIDIA, отличаются тактовыми частотами видеочипа и памяти, а также разным количеством отключенных исполнительных блоков. GTX 480 имеет 480 потоковых процессоров, 60 TMU и 48 блоков ROP, а модель GTX 470 отличается ещё меньшим количеством активных исполнительных блоков: 448 потоковых процессоров, 56 текстурных блоков и 40 блоков ROP. Именно так, решений с полностью рабочим GPU пока что не существует, обе модели урезаны так или иначе. Разница в производительности между моделями должна получиться около 20-25%, и неработоспособные на частоте 700/1400 и с 480 включенными процессорами чипы можно будет пустить на GTX 470. На обе модели устанавливают память типа GDDR5, чтобы не было ограничения производительности полосой пропускания, но ширина шины памяти и её объём у решений отличаются. Старшая модель использует полноценную 384-бит шину памяти, а у младшей отключён один из шести 64-битных контроллеров, поэтому ей остаётся довольствоваться 320-битной шиной. Соответственно, это влияет и на объём видеопамяти. С 384-битной шиной можно установить 768, 1536 МБ или 3 ГБ, а с 320-битной — 640, 1280 или 2560 МБ. Естественно, что в NVIDIA выбрали 1536 и 1280 МБ, так как 640-768 — это слишком мало, а в 3 ГБ нет смысла. Причём объём в 1280 и 1536 МБ мы считаем довольно удачным, так как даже если в редчайших случаях приложениям и не хватает одного гигабайта, то полутора им точно хватит. Также старшее и младшее решение отличаются разным дизайном печатной платы, и референсные кулеры у них разные — на GTX 470 стоит кулер попроще. Но он всё равно двухслотовый, да и энергопотребление карты хоть и ниже, чем у GTX 480, но незначительно, разница между 215 и 250 Вт невелика. Основные архитектурные особенности GF100 Как мы уже писали в теоретической статье, кодовое обозначение GF100 расшифровывается так: «GF» в данном случае означает графический («Graphics») чип, основанный на вычислительной архитектуре «Fermi», а число «100» — принятое для продуктов NVIDIA наименование первого из чипов архитектуры, нацеленного на верхний ценовой диапазон рынка. Архитектура GF100 поддерживает все нововведения современного DirectX 11 API, такие как аппаратная тесселяция и вычислительные возможности DirectCompute. Более того, архитектура GF100 спроектирована с учётом будущих возможностей API и потребностей графических приложений, таких как трассировка лучей и физические эффекты. В GF100 используется третье поколение потоковых мультипроцессоров (Streaming Multiprocessor) с более чем удвоенным количеством вычислительных ядер (CUDA cores), по сравнению с предыдущей архитектурой. Количество и производительность других исполнительных блоков также были увеличены в GF100, но наиболее важным изменением архитектуры является то, что геометрический конвейер в новом GPU впервые за многое время подвергся весьма значительной переработке. Для того, чтобы соответствовать новым возможностям DirectX 11 и современных графических приложений, в этом GPU значительно увеличена пиковая производительность обработки геометрии, геометрических шейдеров и stream out. И, что особенно важно, этот GPU очень быстр в тесселяции, самом важном нововведении DirectX 11. Графический конвейер GF100 специально спроектирован с учётом этих возможностей, он способен обеспечить действительно высокую производительность для тесселяции и обработки геометрии. В новом GPU архитектура традиционной геометрической обработки уступила место новой архитектуре, использующей несколько так называемых полиморфных движков (PolyMorph Engines) и блоков растеризации (Raster Engines), работающих параллельно, по сравнению с одним таким блоком во всех предыдущих поколениях GPU. В плюс возможностям графического процессора идёт и новая архитектура подсистемы памяти. Полноценные кэши первого и второго уровней обеспечивают быстрый доступ к геометрическим атрибутам для потоковых процессоров и блоков тесселяции. Есть у GF100 и другие сильные стороны, раскрывающие возможности архитектуры Fermi. В последнее время большое значение имеют неграфические вычисления на GPU, предъявляющие специфические требования к аппаратной части. И основными изменениями в GF100, связанными с повышением эффективности вычислительных алгоритмов, являются быстрое переключение контекста между графическими и неграфическими расчётами, конкурентное исполнение вычислительных программ и улучшенная архитектура кэширования, эффективная для таких задач, как трассировка лучей и искусственный интеллект. Из других нововведений можно также отметить улучшенную производительность атомарных операций (atomic operations), что ускоряет такие алгоритмы, как рендеринг полупрозрачных поверхностей без предварительной сортировки (order independent transparency). Но давайте перейдём уже к архитектурным подробностям. Архитектура графического процессора GF100 Как и предыдущие чипы разработки NVIDIA, GF100 имеет в своей основе несколько кластеров, теперь они называются кластерами графической обработки (Graphics Processing Clusters), каждый из которых состоит из нескольких потоковых мультипроцессоров (Streaming Multiprocessors), которые, в свою очередь, содержат массивы потоковых сопроцессоров. GF100 содержит четыре кластера GPC, шестнадцать мультипроцессоров SM и шесть 64-битных контроллеров памяти. Пока что NVIDIA выпустила две модели видеокарт на основе GF100, с разным количеством активных блоков GPC и контроллеров памяти: GTX 470 и GTX 480. Это логично с точки зрения производства, техпроцесс TSMC всё ещё не позволяет выпускать полностью годные чипы в массовых количествах. Такой подход соответствует и рыночной политике, в разные ценовые диапазоны направляются чипы с разными характеристиками. Итак, новый GPU в своем полном представлении содержит внешний интерфейс PCI Express, движок GigaThread, четыре GPC, шесть контроллеров памяти, шесть укрупненных блоков ROP, а также 768 КБ кэш-памяти второго уровня, присоединённые к блокам ROP. GPU получает команды по Host Interface, движок GigaThread запрашивает нужные данные из системной памяти и копирует их в локальную память. В отличие от предыдущего чипа, имеющего восемь контроллеров памяти по 64 бита, GF100 имеет шесть таких контроллеров, но обладающих поддержкой GDDR5 памяти, которой не было у решений на основе GT200. В итоге применение GDDR5 памяти и 384-битного доступа к ней даёт достаточно высокую пропускную способность. Диспетчер GigaThread является центром чипа, он создаёт и распределяет блоки потоков по разным мультипроцессорам, а мультипроцессоры распределяют варпы (warps, группы из 32 потоков) среди потоковых процессоров (CUDA cores) и других исполнительных блоков. Всего в состав GF100 входит 512 потоковых процессоров, собранных в 16 мультипроцессоров по 32 штуки в каждом. В выпущенных моделях их количество уменьшено до 448 и 480 для GTX 470 и GTX 480 в составе 14 и 15 мультипроцессоров для GTX 470 и GTX 480, соответственно. Каждый SM поддерживает одновременное выполнение до 48 варпов, а CUDA core может выполнять все типы программ: вершинные, пиксельные, геометрические, вычислительные. Чип GF100 содержит 48 блоков ROP, которые выполняют работу по блендингу и сглаживанию пикселей, а также отвечают за атомарные операции с памятью. Блоки ROP в новом чипе NVIDIA сгруппированы в шесть групп по восемь модулей. Каждая группа обслуживается своим 64-битным контроллером памяти. Младшая модель серии GTX 400 отличается одним отключенным укрупнённым блоком ROP, поэтому имеет 320-битную шину памяти и 40 блоков ROP. Архитектура Graphics Processing Clusters Итак, графическая архитектура чипа GF100 состоит из четырёх кластеров Graphics Processing Clusters, каждый из которых содержит по четыре мультипроцессора и по своему отдельному движку растеризации (Raster Engine). В новом GPC видны два ключевых изменения. Во-первых, появился свой масштабируемый движок растеризации, выполняющий установку треугольников (triangle setup), растеризацию и отбрасывание невидимых поверхностей (z-cull). А во-вторых, GPC теперь содержит и отдельные движки PolyMorph, выполняющие выборку вершинных атрибутов и тесселяцию. Причём движок растеризации Raster Engine принадлежит к GPC, а PolyMorph — к каждому из мультипроцессоров SM в кластере. Кластер GPC включает все основные графические блоки GPU, за исключением блоков ROP. Фактически, его можно расценивать как отдельный видеочип, и таких в GF100 четыре штуки. В предыдущих GPU NVIDIA мультипроцессоры и текстурные блоки были сгруппированы в кластеры текстурной обработки (Texture Processing Clusters), а в GF100 каждый из мультипроцессоров SM имеет по четыре выделенных текстурных блока. Далее об этом написано подробно. Потоковые мультипроцессоры В третьем поколении потоковых мультипроцессоров NVIDIA мы видим несколько усовершенствований и нововведений, направленных как на увеличение производительности, так и на улучшение программируемости и гибкости их использования. Каждый из мультипроцессоров SM содержит по 32 потоковых CUDA ядра, что вчетверо больше, чем в GT200 (хотя тут нужно учитывать снизившееся общее число мультипроцессоров в чипе). Они остались скалярными, как и ранее, что даёт высокий КПД для любых приложений, а не только специально оптимизированных. Например, операции с Z-буфером (1D) и доступ к текстурам (2D) могут полностью загрузить работой исполнительные блоки GPU, в отличие от ALU суперскалярных архитектур, где КПД будет ниже. Потоковые процессоры имеют в своём составе исполнительное устройство для целочисленных вычислений (ALU) и исполнительное устройство для вычислений с плавающей запятой (FPU). Вычисления GF100 соответствуют новому стандарту IEEE 754-2008 по вычислениям с плавающей запятой, а также предоставляют возможность выполнения совмещенных операций умножения-сложения (fused multiply-add, или FMA) для вычислений одинарной и двойной точности. FMA, в отличие от инструкции умножения-сложения (multiply-add, MAD), выполняет эти две операции лишь с одним округлением. Такой подход обеспечивает отсутствие потерь точности при сложении и минимизирует ошибки рендеринга в некоторых случаях. Например, при близких перекрывающихся треугольниках. Новый целочисленный блок ALU, появившийся в GF100, поддерживает полную 32-битную точность для всех инструкций, как этого требуют языки программирования. Помимо этого, целочисленный ALU с высокой эффективностью исполняет 64-битные операции. Каждый из мультипроцессоров имеет 16 блоков загрузки и сохранения данных (load/store unit, LD/ST или LSU), позволяющих вычислять адреса источника и назначения для 16 потоков за такт. Четыре исполнительных блока специальных функций (Special Function Units, SFU) выполняют сложные операции, такие как вычисление синуса, косинуса, квадратного корня и т.п. Кроме того, эти блоки используются и для интерполяции графических атрибутов. Каждый блок SFU выполняет одну инструкцию на поток за один такт, то есть варп из 32 потоков будет выполняться за восемь тактов. Конвейер SFU отделён от блока диспетчера, что позволяет последнему обращаться к другим исполнительным устройствам в то время, когда SFU занят. Важно отметить, что несмотря на значительно ускоренные вычисления с двойной точностью, на которые способна архитектура Fermi, игровые решения на базе чипа GF100 намеренно приторможены и исполняют такие расчёты медленнее, чем теоретически могут. Производительность 64-битных вычислений в GeForce GTX 480 искусственно снижена вчетверо. В случае GTX 480 — до 168 гигафлоп вместо возможных 672. Собственно, такое решение логично, ведь вычисления с двойной точностью не особенно сильно нужны графическим решениям. Зато это позволит обеспечить хорошие продажи соответствующих решений Tesla на архитектуре Fermi. А картам GeForce не нужна ни очень высокая производительность 64-битных вычислений, ни коррекция ошибок памяти ECC. Всё это будет там, где это востребовано — в Tesla. Двойной планировщик варпов Как написано выше, мультипроцессоры выполняют потоки группами по 32 штуки, такие группы называются варпами. Каждый мультипроцессор содержит по два планировщика варпов (Warp Scheduler) и по два диспетчера инструкций (Instruction Dispatch Unit), что позволяет одновременно выполнять по два варпа на каждом из SM. Двойной планировщик варпов в GF100 выбирает два варпа и запускает на выполнение по одной инструкции из каждого из них на группе из 16 вычислительных ядер, 16 блоков LSU или четырёх SFU. Так как варпы исполняются независимо друг от друга, планировщик GPU не должен проверять поток инструкций на зависимые команды. Использование такой модели одновременного исполнения двух команд (dual-issue) за такт позволяет достичь высокой производительности, близкой к пиковым теоретическим значениям. Большинство инструкций может выполняться одновременно по две: пара целочисленных инструкций, две инструкции с плавающей запятой, или сочетание целочисленной, инструкции с плавающей запятой, загрузки данных, сохранения данных, специальных инструкций SFU. Но это относится только к инструкциям одинарной точности, а команды двойной точности не могут исполняться одновременно с любой другой инструкцией. Текстурные модули Для любого графического чипа очень важно количество текстурных модулей в GPU и их возможности. Как видно на схеме мультипроцессора, в каждом из них есть по четыре текстурных блока. Каждый из которых вычисляет адрес и выбирает данные для четырёх текстурных выборок за такт. Результат может быть выдан как в неотфильтрованном виде (для Gather4), так и с билинейной, трилинейной или анизотропной фильтрацией. При фильтрации — с соответствующей потерей темпа. Кардинально в TMU GF100 ничего не изменилось, по сравнению с предыдущими архитектурами чипов. NVIDIA утверждает, что основной задачей текстурников в GF100 было увеличение эффективности выполнения текстурных выборок. В качестве положительных изменений отмечен перенос текстурных модулей в мультипроцессоры, а также улучшение эффективности кэширования и увеличение тактовых частот TMU. В предыдущем чипе GT200 до трёх мультипроцессоров использовали один укрупнённый текстурный блок, содержащий восемь текстурных модулей. В новой архитектуре GF100 каждый из мультипроцессоров имеет свои выделенные текстурные модули и текстурный кэш. Что теоретически должно положительно сказаться на эффективности, а как дело обстоит на практике — мы проверим в следующей части статьи. Особенно большой прирост скорости текстурирования NVIDIA обещает, когда дело касается наложения карт теней (shadow mapping) и алгоритмов вроде screen space ambient occlusion. В обеих техниках используется стандартная возможность Gather4 из DirectX, которая позволяет выполнить одновременную выборку четырех значений за такт. Что даже ещё важнее, GF100 имеет более эффективную выделенную кэш-память первого уровня. И вместе с унифицированным кэшем второго уровня это даёт втрое больший объём доступной кэш-памяти для текстур, по сравнению с GT200. Но GT200 имеет всё же банально больше блоков текстурирования количественно, и мы ещё проверим, обеспечивает ли новый чип высокую производительность текстурирования в реальных приложениях или нет. Из других функциональных изменений в TMU отметим то, что текстурники GF100 получили поддержку новых форматов сжатия BC6H и BC7, появившихся в DirectX 11 и предназначенных для текстур и внеэкранных буферов (render target) в HDR-формате. Параллельная обработка геометрии Вернёмся к самым важным нововведениям в GF100. Все предыдущие поколения GPU используют один блок для выборки, установки и растеризации треугольников. Этот привычный вид графического конвейера обеспечивает фиксированную производительность и зачастую может являться ограничителем общей производительности. В этом также виновата и сложность распараллеливания обработки при отсутствии соответствующих изменений в программном интерфейсе (API). И если ранее такой конвейер с одним блоком растеризации работал приемлемо, при увеличении сложности и массовости геометрических расчётов, растеризация стала главным ограничителем на пути увеличения сложности геометрии в 3D-сценах. Так, активное использование тесселяции полностью меняет баланс загрузки различных блоков GPU. С тесселяцией плотность треугольников вырастает на порядки, что сильно нагружает такие ранее последовательные участки графического конвейера, как установка треугольников (triangle setup) и растеризация. Для обеспечения высокой производительности тесселяции необходимо было решить эту проблему изменениями архитектуры, перебалансировав весь графический конвейер GPU. Чтобы добиться высокой скорости обсчёта геометрии, компания NVIDIA разработала масштабируемый блок обработки геометрии с названием PolyMorph Engine. Каждый из 16-ти блоков PolyMorph, имеющихся в GF100, содержит собственный модуль по выборке вершин (vertex fetch unit) и тесселятор, что значительно увеличивает производительность геометрических вычислений. Вдобавок к этому, в GF100 были включены четыре блока растеризации Raster Engine, работающие параллельно и позволяющие выполнять установку до четырёх треугольников за такт. Вместе эти блоки обеспечивают приличный рост производительности обработки треугольников, тесселяции и растеризации. PolyMorph Engine содержит пять стадий: выборка вершин (Vertex Fetch), тесселяция, преобразование в экранные координаты (Viewport Transform), установка атрибутов (Attribute Setup) и потоковый вывод (Stream Output). Результаты, вычисленные в каждой стадии, передаются в мультипроцессор SM. Последний выполняет шейдерную программу, возвращая данные к следующей стадии PolyMorph Engine. После прохождения всех стадий результаты направляются в движки растеризации Raster Engine. Первая стадия начинается с выборки вершин из глобального вершинного буфера. Выбранные вершины посылаются в мультипроцессор для вершинного затенения (vertex shading и hull shading). В этих двух стадиях вершины преобразуются из координат объектного пространства (object space) в мировое (world space) и вычисляются параметры, необходимые для тесселяции, такие как коэффициент разбиения (tessellation factor). Эти параметры затем пересылаются в тесселятор. Во второй стадии модуль PolyMorph считывает эти параметры тесселяции и разбивает патч (гладкая поверхность, определенная контрольными точками), выводя результирующую сетку (mesh). Эти новые вершины посылаются в мультипроцессор, где выполняется доменный и геометрический шейдеры. Доменный шейдер вычисляет итоговое положение каждой вершины на основе данных от поверхностного шейдера (Hull Shader) и тесселятора. На этой стадии обычно применяется карта смещения (displacement map), добавляющая патчу детализации. Геометрический шейдер проводит дополнительную обработку, добавляя или удаляя вершины или примитивы, если необходимо. В последней стадии PolyMorph Engine производит преобразование в экранные координаты (viewport transformation) и коррекцию перспективы. Далее следует установка атрибутов, а вершины могут быть выведены при помощи stream output в память для дальнейшей обработки. В предыдущих архитектурах подобные fixed function операции выполнялись лишь одним конвейером. Теоретически при выполнении на GF100 и fixed function, и программируемые операции должны быть распараллелены, что, в свою очередь, должно вызвать прирост производительности в случае ограничения производительности такими операциями. Блок растеризации После того, как примитивы обработаны блоком PolyMorph, они отсылаются в блок растеризации Raster Engine. Которых в чипе также установлено несколько штук — четыре в случае GF100. Они тоже работают параллельно, и в результате достигается высокая производительность обработки геометрии. Движок растеризации выполняет три стадии конвейера. В стадии установки граней (edge setup) производится выборка положения вершин и вычисляются проекции граней треугольника. Треугольники, обращённые к экрану обратной стороной, отбрасываются как невидимые (back face culling). Каждый из блоков установки граней обрабатывает по одной точке, линии или треугольника за такт. Растеризатор использует проекции граней для каждого примитива и вычисляет покрытие пикселей. Если включено сглаживание, то вычисляется покрытие для каждой выборки цвета и выборки покрытия. Каждый из четырёх растеризаторов на выходе выдаёт по восемь пикселей за такт, то есть всего получается 32 прошедших растеризацию пикселя за такт для всего GPU. Пиксели из растеризатора посылаются в блок отбрасывания невидимых поверхностей Z-cull. Этот блок сравнивает глубину (depth) пикселей из тайла с глубиной существующих пикселей в экранном буфере и отбрасывает те из них, которые лежат за пикселями в экранном буфере. Это называется раннее отбрасывание невидимых поверхностей, которое экономит ресурсы, убирая необходимость проведения лишних попиксельных вычислений. Новую архитектуру кластеров GPC мы считаем наиболее важным нововведением в геометрическом конвейере GF100. Ведь при тесселяции требуется значительно большая производительность блоков установки треугольников и их растеризации. Шестнадцать блоков PolyMorph Engine значительно увеличивают производительность выборки треугольников, тесселяции и потокового вывода Stream Out, а четыре блока Raster Engine обеспечивают высокую скорость установки треугольников и их растеризации. В следующей части статьи мы обязательно проверим те предварительные оценки производительности тесселяции, что мы давали в теоретическом описании архитектуры GF100. Наличие выделенных тесселяторов в каждом из мультипроцессоров и блоков растеризации в каждом кластере GPC должно давать прирост геометрической производительности вплоть до восьмикратного, по сравнению с GT200. Вот это мы скоро и проверим. Подсистема памяти Для современного GPU очень важна и эффективная организация подсистемы памяти. Тем более, когда всё больше и больше внимания уделяется неграфическим вычислениям. В своём новом чипе компания NVIDIA ещё раз усовершенствовала модель памяти. GF100 содержит выделенный кэш первого уровня в каждом мультипроцессоре (SM). Кэш-память работает совместно с разделяемой (общей) памятью мультипроцессора и дополняет её. Общая память улучшает скорость доступа к памяти для алгоритмов с предсказуемым доступом к памяти, а кэш-память L1 ускоряет доступ из нерегулярных алгоритмов, в которых адреса запрашиваемых данных заранее неизвестны. Каждый мультипроцессор в GF100 имеет 64 килобайта начиповой памяти, которая может быть сконфигурирована в двух разных вариантах: 48 килобайт общей памяти и 16 килобайт L1 кэш-памяти, и наоборот — 16 КБ общей памяти и 48 КБ кэша. Для графических программ GF100 использует вариант с 16 КБ кэша, он работает как регистровый буфер. В вычислительных программах кэш и общая память позволяет потокам одного блока обмениваться данными, работая вместе, что снижает требования к пропускной способности памяти. Кроме того, общая память сама по себе позволяет эффективно использовать на GPU многие вычислительные алгоритмы. Кроме того, GF100 имеет 768 КБ унифицированной кэш-памяти второго уровня, которая обслуживает все запросы по загрузке и сохранению данных, а также текстурные выборки. Кэш второго уровня обеспечивает эффективный и высокоскоростной обмен данными для всего GPU. И вычислительные алгоритмы, запросы данных в которых непредсказуемы (физические расчёты, трассировка лучей и др.), получат значительный прирост скорости от аппаратной кэш-памяти. А фильтры постобработки, в которых несколько мультипроцессоров читают одни и те же данные, получат ускорение из-за меньшего количества вызовов данных из внешней памяти. Унифицированная кэш-память более эффективна, чем отдельные кэши для разных целей. При выделенных кэшах может сложиться положение, когда один из них используется полностью, но воспользоваться простаивающими объёмами других типов кэш-памяти при этом невозможно. И эффективность кэширования будет ниже теоретически возможной. А унифицированный L2 кэш в GF100 динамически выделяет пространство под разные запросы, что позволяет добиться высокой эффективности. В общем, теперь один L2 кэш замещает собой текстурный L2 кэш, кэш ROP и начиповые буферы GPU предыдущих поколений. Кэш второго уровня в GF100 используется для записи и чтения данных, и является полностью последовательным (когерентным). Сравните с L2 кэшем в GT200, используемым только для чтения. В целом, новый GPU обеспечивает более эффективный обмен данными между стадиями конвейера и способен значительно сэкономить пропускную способность внешней памяти, повысив эффективность использования исполнительных блоков видеочипа. Новые блоки ROP и улучшенное сглаживание Блоки ROP и подсистема блендинга и сглаживания в GF100 также претерпела значительные изменения, направленные на увеличение эффективности их работы. Один раздел ROP в GF100 содержит восемь блоков ROP, то есть вдвое больше, чем в предыдущих поколениях. Каждый блок ROP способен выводить 32-битное целочисленное значение за такт, пиксель формата FP16 за два такта или FP32 пиксель за четыре такта. Самым большим недостатком предыдущих чипов, связанным с ROP, считается низкая эффективность сглаживания методом мультисемплинга MSAA 8x. NVIDIA значительно улучшила производительность этого режима в GF100, повысив эффективность сжатия буфера, а также эффективность работы блоков ROP при рендеринге небольших примитивов. Последнее изменение важно и потому, что тесселяция увеличивает количество мелких треугольников, и требования к производительности блоков ROP при этом возрастают. Но не только скорость сглаживания нам интересна, но и качество изображения. В своих новых решениях серии GTX 400, NVIDIA вводит новый алгоритм сглаживания, названный 32x CSAA (Coverage Sampling Antialiasing), обеспечивающий высочайшее качество сглаживания как геометрии, так и полупрозрачных текстур, использующих alpha-to-coverage. Число 32 в данном случае расшифровывается как восемь честных мультисемплинговых выборок плюс 24 выборки покрытия пикселя (pixel coverage). В предыдущих поколениях использовалось четыре или восемь выборок, что не обеспечивает полного избавления от алиасинга, но вызывает бандинг. А новый режим 32x CSAA использует 32 coverage выборки, минимизирующих все артефакты алиасинга. Полупрозрачное сглаживание методом мультисемплинга (Transparency Multisampling, или TMAA) также получает преимущество от улучшенного метода CSAA. TMAA обычно используется в старых DirectX 9 приложениях, которые не используют метод alpha-to-coverage, недоступный для этого API. В этом случае используется техника альфа-теста, при которой полупрозрачные текстуры имеют резкие края. Использование coverage выборок не очень сильно повышает требования к пропускной способности памяти и её объёму, производительность нового метода 32x CSAA незначительно отличается от обычного 8x MSAA на GF100, лишь на десяток процентов в худшем случае. А, учитывая небольшую разницу между 4x и 8x, самым лучшим методом по соотношению производительности и качества будет как раз 32x CSAA, особенно на таких мощных решениях, как GTX 470 и GTX 480. Вычислительные задачи на GPU До сих пор GPU создавались с расчётом на применение растеризации, а другие применения были лишь побочной возможностью. Но постепенно появляются и другие применения, новые алгоритмы в игровых движках, так как GPU расширяют свои возможности, поддерживая расчётные API вроде CUDA, DirectCompute и OpenCL. Архитектура чипа GF100 была спроектирована для эффективного исполнения различных алгоритмов и решения множества неграфических задач, поддающихся распараллеливанию. Например, в трассировке лучей, физических расчётах и алгоритмах искусственного интеллекта, использование общей памяти бесполезно, но в этом случае поможет кэш-память, которая как раз появилась в GF100. 48 килобайт кэша первого уровня на каждый из мультипроцессоров и использование глобального кэша второго уровня может повысить производительность многих алгоритмов. Другим важным изменением в GF100 стал улучшенный планировщик. G80 и GT200 выполняют большие программы со сравнительно большим временем переключения контекста между различными задачами. Для чисто вычислительных задач с большими объёмами данных это подходит, но игровые приложения используют несколько различных задач одновременно: имитация тканей, физика жидкостей, постобработка и т.п. И на GF100 эти задачи могут эффективно выполняться параллельно, обеспечивая максимальный КПД для вычислительных устройств. В играх с использованием вычислительных шейдеров, переключение контекста происходит каждый кадр, и высокая скорость этого переключения критична для поддержания высокой частоты кадров. В GF100 значительно снизили время переключения контекста (до 20 микросекунд), что сделало возможным быстрое и неоднократное переключение между потоками в пределах одного кадра. Вычислительные алгоритмы могут использоваться для решения большого количества задач различного плана в игровых приложениях. Например, это новые гибридные алгоритмы рендеринга, когда трассировка лучей применяется для отрисовки корректных отражений и преломлений. Или воксельный рендеринг для правдоподобной имитации объёмных данных. Это может быть и сложная постобработка изображений: продвинутый HDR-рендеринг, сложные фильтры для сглаживания и имитации оптических эффектов, вроде имитации зоны нерезкости и боке (bokeh). А в играх уже сейчас используются физические эффекты, которые можно ещё усложнить, добавить динамику жидкостей, турбулентность для эффектов с системами частиц, вроде дыма или жидкостей, и т.п. Из конкретных примеров можно привести многие современные игры. Так, для создания реалистичной водной поверхности в совсем новой игре Just Cause 2 при помощи CUDA используются возможности чипов NVIDIA. Мы уж не говорим о DirectCompute, который применяется для постобработки в Aliens vs Predator, Metro 2033 и DiRT 2. Для раскрытия всех вычислительных способностей новых решений, NVIDIA выпустила CUDA Toolkit 3.0, в котором появилась поддержка основанных на графическом процессоре GF100 продуктов, вместе с обещанной поддержкой C++, ECC, а также библиотек линейной алгебры (BLAS и LAPACK), дебаггера CUDA-GDB и профайлера Visual Profiler. Также NVIDIA выпускает удобный набор для 3D-разработчиков — Parallel Nsight, также известный как Nexus. Этот набор помогает в удобной разработке приложений, использующих GPU в среде Visual Studio 2008. В него входят утилиты для отлова ошибок, профилирования, анализа кода для GPU и его производительности. Всё это интегрировано прямо в Visual Studio и весьма удобно. Поддерживается CUDA C, OpenCL, DirectCompute, Direct3D, и OpenGL. Мы уверены, что разработчики оценят богатые возможности нового ПО NVIDIA и возьмут его на вооружение. Трассировка лучей Метод трассировки лучей часто используется в 3D-графике, но он слишком трудоёмок, чтобы использовать его в графике реального времени. Поэтому в будущих приложениях возможно применение трассировки совместно с растеризацией. Трассировку непросто выполнить эффективно на GPU, ведь просчитываемые лучи имеют непредсказуемые направления, и их просчёт требует доступа к памяти по случайным адресам, в то время как GPU обычно получают данные из памяти линейными блоками. Архитектура GF100 как раз отличается от предыдущих тем, что при её проектировании учитывались требования в том числе и алгоритмов трассировки лучей. Это первый видеочип, поддерживающий аппаратную рекурсию, что делает возможным эффективное выполнение подобных задач. Да и двухуровневая архитектура кэширования значительно увеличивает эффективность рейтрейсинга, увеличивая скорость запросов данных из памяти. L1 кэш улучшает «локальность» памяти для соседних лучей, а L2 кэш увеличивает пропускную способность доступа к видеопамяти. GF100 способен эффективно выполнять и продвинутые алгоритмы просчёта глобального освещения, такие как трассировка пути (path tracing). Этот метод схож с трассировкой лучей, в нём используется большое количество лучей для сбора данных о непрямом освещении сцены. В данном алгоритме производительность GF100 до 3,5-4 раз выше по сравнению с GT200. Но всё же эти методы слишком сложны, чтобы применять их в играх. Разработчики могут использовать одновременно и растеризацию, и трассировку лучей, что называется гибридным рендерингом. Например, растеризация может использоваться в первом проходе рендеринга, а для части пикселей в следующем проходе при помощи трассировки лучей просчитается отражение. Такие гибридные модели — отличный способ получения высокой производительности при весьма высококачественном результате. Для демонстрации возможностей своих решений NVIDIA создала специальную демонстрационную программу Design Garage, в которой при рендеринге моделей автомобилей в настраиваемой сцене при помощи технологии NVIDIA OptiX рассчитывается глобальное освещение. Эта программа будет доступна для всех владельцев видеокарт NVIDIA, но на решениях вышедших до GTX 470 и GTX 480, она довольно сильно тормозит. В качестве пожелания к игровым разработчикам — нам бы очень хотелось увидеть интеграцию подобной возможности в игровой движок какой-нибудь гоночной игры. С её помощью игроки смогли бы получить очень качественные изображения своих любимых автомобилей в режимах «photo mode» или «gallery mode», уже существующих в подобных играх, но весьма далёких по качеству от представленного выше. Технология NVIDIA 3D Vision Surround С выходом решений линейки GTX 400 компания NVIDIA предложила технологию, позволяющую выводить стереоизображение сразу на три монитора (понятно, что сподвигла их на это вышедшая ранее технология Eyefinity от заклятого конкурента). Технология использует активные беспроводные затворные очки и стереодрайверы NVIDIA из комплекта 3D Vision. На двух видеокартах GTX 400, работающих в конфигурации SLI, при помощи технологии 3D Vision Surround можно получить стереоизображение высокого разрешения сразу на трёх устройствах вывода. Поддерживается три монитора в разрешении 1920x1080 в стереорежиме или в разрешении 2560x1600 в обычном 2D. Также, 3D Vision Surround включает возможность компенсации изображения, скрытого за рамками мониторов. С включенной функцией та часть изображения, которая скрыта за рамками мониторов, не показывается пользователю. В результате получается более целостная картинка, что особенно важно для стереорежима, когда малейшее несоответствие картинки на разных мониторах может разрушить эффект объёма. Отметим, что 3D Vision Surround — это чисто программное решение, и оно работает лишь с двумя или более GPU, объединёнными в систему SLI, а с одной видеокартой такой возможности нет — количество активных выходов всё равно не может быть более двух на каждую карту. Зато эта технология будет работать в том числе и на SLI системах на основе старых видеокарт серии GTX 200. Поддержка 3D Vision Surround должна появиться в драйверах в следующем месяце. Выводы по архитектуре Из написанного выше очевидно, что GF100 — это абсолютно новая архитектура NVIDIA, а не доработанная старая. Новый GPU отличается значительно улучшенными возможностями по графическим и неграфическим расчётам. Можно сказать, что по своей универсальности он стал ближе к CPU и должен в ближайшем будущем составить им конкуренцию в высокопроизводительных вычислениях. С точки зрения графического конвейера в GF100 были сделаны очень важные изменения. В состав нового GPU входит шестнадцать движков тесселяции и четыре блока растеризации, которые весьма полезны для 3D-графики в играх DirectX 11. Тесселяция и наложение карт смещения являются самым важным нововведением этой версии API и приносят заметное улучшение качества картинки, и GTX 470 и GTX 480 должны обеспечивать высокую производительность при обработке геометрии. Не только изменениями в графическом конвейере может похвастать новая графическая архитектура NVIDIA. Новые решения предлагают максимальные возможности для неграфических расчётов на GPU. Это первые графические решения с поддержкой C++, рекурсии и возможностью кэширования и записи и чтения данных. Нововведения дают разработчикам возможности для решения множества задач, включая трассировку лучей, глобальное освещение, сложные физические эффекты, искусственный интеллект и т.п. В новой архитектуре были устранены и некоторые недостатки предыдущих GPU. Например, блоки ROP в GF100 значительно усилены, а полноэкранное сглаживание получило улучшения и по качеству и по производительности. По сравнению с предыдущим чипом, в GF100 компания NVIDIA удвоила число потоковых процессоров, немного увеличила пропускную способность памяти за счёт поддержки GDDR5 (но шина памяти сузилась с 512-бит до 384-бит). И всё бы хорошо, но при сравнении характеристик GF100 и GT200 видно, что слабым местом нового решения может стать количество текстурных модулей — их в GF100 стало даже меньше, чем было в GT200. И вполне возможны ситуации, когда GTX 480 будет наравне или даже уступать по скорости текстурирования предыдущим решениям NVIDIA и конкурирующим, особенно в устаревших приложениях, не использующих Gather4 и SSAO. Такому решению NVIDIA мы видим два возможных объяснения. Или разработчики намеренно усилили вычислительные способности чипа, несколько ослабив при этом графические, предполагая дальнейшее изменение баланса в играх в сторону вычислений, или же изначально частота работы текстурных блоков планировалась большей, чем получилось в итоге в моделях, поступивших в продажу. Как мы знаем, у NVIDIA разные части чипа способны работать на разных частотах, производных от других. И есть такое предположение, что TMU должны были работать быстрее, и этим объясняется их меньшее количество, по сравнению с GT200. Возможно, что из-за проблем с техпроцессом TSMC, частоту текстурных модулей не удалось поднять до проектной, и в итоге пиковая производительность текстурирования не просто не выросла, а даже снизилась. Если решение об усилении математических способностей в ущерб текстурированию было принято намеренно, будет ли оно оправданным при том, что в последние годы выходят в основном мультиплатформенные игры, а требовательные ПК-игры можно пересчитать по пальцам? Впрочем, возможно, что в реальных игровых приложениях недостаток компенсируется улучшенной архитектурой кэширования, которая сгладит его. Ещё одним недостатком новых видеокарт NVIDIA, на наш взгляд, можно назвать отключение части потоковых ядер из-за проблем с производством столь сложного чипа на 40 нм техпроцессе TSMC. Все первые модели на GF100 имеют отключенные исполнительные блоки: в GTX 480 и GTX 470 активны не 512 потоковых процессоров, которые физически есть в чипе, а лишь 480 и 448 процессоров, соответственно. Вместе с не слишком высокими частотами это объясняется необходимостью улучшения выхода годных продуктов. В результате, очень хорошо выглядящая на бумаге архитектура может показать не самые впечатляющие результаты в некоторых приложениях. Но об этом мы точно узнаем в следующих частях статьи. В первой части мы познакомились с теоретическими особенностями нового чипа GF100 и новых моделей видеокарт на его основе от компании NVIDIA, а следующая часть статьи посвящена практической части исследования в синтетических тестах, в которой мы сравним производительность новых решений на основе чипа GF100 со скоростью предыдущих решений компании и конкурирующих видеокарт AMD. По ссылке, указанной выше, мы познакомились теоретической частью и все поняли про потенциал нового продукта NVIDIA. А теперь перейдем к практической части. А начинается она, как всегда, со знакомства, собственно, с самой видеокартой. NVIDIA GeForce GTX 480 1536MB PCI-E GPU: GeForce GTX 480 (GF100) Интерфейс: PCI-Express x16 Частоты работы GPU (ROPs/Shaders): 700/1400 MHz (номинал — 700/1400 МГц) Частоты работы памяти (физическая (эффективная)): 925 (3700) MHz (номинал — 925 (3700) МГц) Ширина шины обмена с памятью: 384bit Число вершинных процессоров: - Число пиксельных процессоров: - Число универсальных процессоров: 480 Число текстурных процессоров: 60 (BLF/TLF/ANIS) Число ROPs: 48 Размеры: 270x100x33 мм (последняя величина — максимальная толщина видеокарты). Цвет текстолита: черный RAMDACs/TDMS: интегрированы в GPU Выходные гнезда: 2xDVI (Dual-Link/HDMI), HDMI-mini VIVO: нет TV-out: нет Поддержка многопроцессорной работы: SLI (Hardware) NVIDIA GeForce GTX 480 1536MB PCI-E Карта имеет 1536 МБ памяти GDDR5 SDRAM, размещенной в 12 микросхемах на лицевой сторонe PCB. Микросхемы памяти Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1000 (4000) МГц. Сравнение с эталонным дизайном, вид спереди NVIDIA GeForce GTX 480 1536MB PCI-E Reference card NVIDIA GeForce GTX 285 Сравнение с эталонным дизайном, вид сзади NVIDIA GeForce GTX 480 1536MB PCI-E Reference card NVIDIA GeForce GTX 285 Мы сравнили новый продукт с последним предыдущим однопроцессорным рещением от NVIDIA, имеющим 512-битный интерфейс обмена с памятью. Очевидно, что из-за того, что ныне шина уменьшена до 384 бит, а также из-за отсутствия отдельного блока NVIO, дизайн PCB несколько упрощен и стал дешевле. Однако в то же время усилен блок питания, поскольку ускоритель потребляет экстремально много — до 300 Вт, а это сравнимо с двухпроцессорным решением предыдущего поколения GTX 295. Кстати, про ТВ-выход можно уже забывать. Все реже и реже встречаются современные видеокарты с этим интерфейсом. Считается, что HDMI должен вытеснить старые аналоговые решения. И мы видим, что новинка от NVIDIA начисто лишена аналогого вывода на ТВ. Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также с серийными картами поставляются переходники DVI-to-HDMI (данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник, поскольку обладают собственным звуковым кодеком), поэтому проблем с такими мониторами также не должно быть. К тому же продукт уже оснащен один разъемом HDMI. Следует напомнить, что комбинация из двух таких карт в режиме SLI позволяет выводить картинку игры сразу на ТРИ монитора, делая впечатления от игры более яркими, по аналогии с технологией AMD EyeFinity. Максимальные разрешения и частоты: 240 Hz Max Refresh Rate 2048 x 1536 x 32bit x85Hz Max — по аналоговому интерфейсу 2560 x 1600 @ 60Hz Max — по цифровому интерфейсу (для DVI-гнезд с Dual-Link / HDMI) По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь. Есть смысл сказать, что карта требуют дополнительного питания, причем двумя разъемами, один из которых 8-пиновый, а второй 6-пиновый. Если насчет последнего — нет проблем, так как уже все современные БП имеют такие «хвосты», то для запитки через 8-пиновый разъем требуется специальный переходник, который должен поставляться с серийными видеокартами. О системе охлаждения. NVIDIA GeForce GTX 480 1536MB PCI-E Принципиально кулер не отличается от предыдущих решений семейства GTX — турбина прогоняет воздух через радиатор и выводит тепло за пределы системного блока. Однако в виду чрезмерного энергопотребления нового продукта, а следовательно и нагрева, СО претерпела усовершенствования в части усиления теплоотвода с помощью тепловых трубок. Как мы видим, центральный радиатор с трубками охлаждает только ядро. Когда как микросхемы памяти охлаждаются прижимающейся к ним пластиной, находящейся под кожухом. Вероятно уже исчерпаны возможности поиска СО такого типа, чтобы могли справиться с сильно греющимся ядром без шума. Поэтому должны сказать, что СО получилась шумная. Даже в 2D режиме кулер работает на 44% от максимума, хотя раньше такой показатель был где-то 20-25%. Шум начинается после 50%. Поэтому кулер работает на грани слышимости шума, и это в простое! Что говорить про нагрузку, когда СО начинает постепенно усиливать обороты вращения турбины, доводя в среднем до 70-80% при работе карты в трехмерном режиме. Мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А. Николайчук AKA Unwinder) и получили следующие результаты: NVIDIA GeForce GTX 480 1536MB PCI-E И это неудивительно, ведь нагрев ядра достигает 95 градусов, и даже такой высокий показатель достигается ценой очень шумной работы СО. Так что любителям самой передовой и быстрой трехмерной игровой графики придется забыть — что такое тишина, если гонять игры или какие-либо тесты. Даже в 2D при нагрузке карты всяким сложным контентом (типа флеша или видео) кулер уже весьма слышим. Комплектация. Это референсный продукт, поэтому комплектации и упаковки нет. Теперь перейдем к тестам. Вначале покажем конфигурацию тестового стенда. Установка и драйверы Конфигурация тестового стенда: Компьютер на базе Intel Core I7 CPU 920 (Socket 1366 LGA) процессор Intel Core I7 CPU 920 (2667 MHz); системная плата ASUS P6T Deluxe на чипсете Intel X58; оперативная память 3 GB DDR3 SDRAM Corsair 1066MHz; жесткий диск WD Caviar SE WD1600JD 160GB SATA; блок питания Tagan TG900-BZ 900W. операционная система Windows 7 32bit; DirectX 11; монитор Dell 3007WFP (30"); драйверы ATI версии CATALYST 10.3; NVIDIA версии 197.17. VSync отключен. Синтетические тесты Используемые нами пакеты синтетических тестов можно скачать здесь: D3D RightMark Beta 4 (1050) с описанием на сайте http://3d.rightmark.org. D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка. RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1. Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime. Так как у нас нет своих синтетических DirectX 11 тестов, то нам пришлось воспользоваться примерами из различных пакетов SDK и демонстрационными программами. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Также мы взяли по два примера от обоих производителей: NVIDIA и AMD, чтобы ни от кого не было никаких претензий в предвзятости. Из ATI Radeon SDK были взяты примеры DetailTessellation11.exe и PNTriangles11.exe (они есть и в DX SDK, кстати). Ну а со стороны NVIDIA были представлены две демонстрационные программы: Realistic Character Hair и Realistic Water Terrain, которые скоро должны стать доступными для скачивания на сайте компании. 0) явно завышена и нуждается в коррективе — впрочем, это уже решает рынок и спрос. Рекомендованная розничная цена для американского рынка 499 USD, для российского рынка 18999 рублей (на конец марта 2010). Теперь о дополнительных вещах. Они также немаловажны. Новый продукт NVIDIA отлично поддерживает все последние новации NVIDIA в плане физических расчетов, и этот факт может стать также плюсом в копилку GTX 480. Не забываем про SLI. Установка двух таких карт даст пользователю немалый потенциал в играх (на много месяцев вперед), а также возможность вывода игры на три монитора, причем даже в стереорежиме (у нас будет отдельный материал на тему NVIDIA 3D Vision и ATI Eyefinity). Разумеется, шум будет весьма высоким, нагрев и потребление — тоже, нужен БП не менее 1000 Вт для такой конфигурации. Но это уже для энтузиастов. Вполне вероятно, что партнеры NVIDIA выпустят свои решения и улучшат СО. Также не забываем о том, что при двухплатной конфигурации можно SLI отключить, и использовать второй ускоритель только для обсчета физики. В целом, очень тяжело дать четко выраженную однозначную оценку. Да, потенциал GTX 480 налицо. Однако он связан со многими минусами: потребление, нагрев, шумность, сверхвысокая (и необъективная) цена. Здесь уже каждый пользователь решает для себя сам — что ему важнее. И еще: чем больше будет выходить игр с реально высоким использованием тесселяции, — тем больше GTX 480 будет выигрывать. Поэтому мы не делаем сейчас окончательных выводов. Вполне возможно, что через год картина кардинально изменится, а может и раньше. Итак, на сегодня GTX 480 — самый быстрый однопроцессорный ускоритель с феноменальным потенциалом. Тем не менее, самым быстрым трехмерным ускорителем игрового класса по-прежнему остается Radeon 5970. Однако он дороже, а также очень громоздкий. И не забываем, что двухпроцессорная конструкция более уязвима в плане своевременной поддержки той или иной игры драйверами. Тем не менее, GTX 480 SLI — самая быстрая на сегодня двухплатная комбинация, но и самая дорогая. О более младшем GeForce GTX 470 мы расскажем в следующих материалах, оставайтесь с нами. Финальный выбор, как обычно, за нашими читателями. Более полные сравнительные характеристики видеокарт этого и других классов вы можете увидеть также в наших i3D-Speed и i3D-Quality. |
Rosinka |
пришлось разделить на две части скрытый текст Синтетические тесты проводились на следующих видеокартах: GeForce GTX 480 со стандартными параметрами (далее GTX 480) GeForce GTX 295 со стандартными параметрами (далее GTX 295) GeForce GTX 285 со стандартными параметрами (далее GTX 285) Radeon HD 5970 со стандартными параметрами (далее HD 5970) Radeon HD 5870 со стандартными параметрами (далее HD 5870) Для сравнения результатов новой модели GeForce GTX 480 были выбраны именно эти видеокарты по следующим причинам: Radeon HD 5870 и HD 5970 являются наиболее производительными одночиповой и двухчиповой моделями от конкурирующей компании AMD, с наиболее близкими к GTX 480 ценами. С решениями NVIDIA всё даже ещё проще: GeForce GTX 285 — наиболее производительная одночиповая карта на GPU прошлого поколения, по ней мы будем судить об архитектурных изменениях, а GTX 295 — самая мощная до выхода новых решений двухчиповая плата от NVIDIA. Direct3D 9: тесты Pixel Filling В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель: Наш тест немного устарел, и видеокарты в нём не достигают теоретически возможных значений, но пиковую скорость текстурирования видеокарт относительно друг друга он всё же показывает верно. Как обычно, результаты синтетики не дотягивают до пиковых значений, по ней получается, что GTX 480 выбирает до 40 текселей за один такт из 32-битных текстур при билинейной фильтрации в этом тесте, что в полтора раза ниже теоретической цифры в 60 отфильтрованных текселей. Этого не хватает, чтобы достать хотя бы до GTX 285, выбирающей текстурные данные на 5-7% быстрее. Не говоря уже о том, чтобы догнать конкурирующий HD 5870, более чем в полтора раза производительный, почти во всех режимах, если судить по нашей DX9 синтетике. Двухчиповая карта NVIDIA явно пала жертвой программных проблем, а вот HD 5970 ещё более производительна, по сравнению с HD 5870. Разница между GTX 480 и GTX 285 почти всегда одинаковая, кроме случаев с небольшим количеством текстур, где больше сказывается ограничение в ПСП. И HD 5870 в этих тестах не так уж далеко впереди. А вот при 4-8 текстурах разница становится большей, что намекает о недостатке скорости текстурирования GF100 для того, чтобы всегда быть впереди конкурента в устаревших игровых приложениях. Посмотрим на эти же результаты в тесте филлрейта: Второй синтетический тест показывает скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. Максимальный результат остаётся за решениями AMD, имеющими большее количество TMU и более эффективными по достижению высокого КПД в нашем синтетическом тесте. В случаях с 0-3 накладываемыми текстурами разница между решениями значительно меньше, в таких режимах производительность ограничена ПСП, прежде всего. Direct3D 9: тесты Pixel Shaders Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх. Тесты очень и очень просты для современных архитектур и показывают не все возможности современных GPU, но интересны для оценки баланса между текстурными выборками и математическими вычислениями, особенно при смене архитектур, которая и произошла в этот раз у NVIDIA. В данных тестах производительность ограничена в основном скоростью текстурных модулей, но уже с учётом эффективности блоков и кэширования текстурных данных в реальных задачах. Посмотрим, как сказались изменения в архитектуре, по сравнению с GT200? Хорошо видно, что архитектура изменилась, и новая карта GTX 480 показывает результат выше, чем одночиповая карта на основе предыдущей архитектуры. Причём в большинстве тестов GTX 480 догоняет двухчиповую GTX 295, что уже неплохо само по себе. Пропускная способность памяти в этих тестах лишь немного ограничивает новые решения, и скорость зависит от текстурирования, что не позволяет карте на базе GF100 показать результаты даже на уровне Radeon HD 5870, не говоря уже о двухчиповом решении AMD. Видеоплаты на чипах производства NVIDIA в этом наборе тестов явно отстают, что является тревожным звоночком для других наших тестов, где важна скорость текстурирования. Посмотрим на результаты несколько более сложных пиксельных программ промежуточных версий: В тестах пиксельных шейдеров версии 2.a всё даже ещё хуже, если сравнивать со скоростью конкурентов. В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, и карты всегда располагаются по скорости текстурирования, но с поправкой на разную эффективность использования TMU. Карты на основе чипов RV870 показывают максимальные результаты, ну а скорость GTX 480 оказалась где-то между одночиповой и двухчиповой моделями на GPU предыдущей архитектуры. Слабовато, конечно, но хотя бы быстрее GTX 285, что говорит о более эффективном использовании имеющихся TMU. Результаты второго теста почти такие же, хотя он более интенсивен вычислительно, и всегда лучше подходил для архитектуры AMD, обладающей большим количеством вычислительных блоков. Современные решения AMD тут далеко впереди, особенно двухчиповый вариант. GTX 480 обгоняет GTX 285 лишь на 25%, да и отстаёт от двухчиповой модели почти на столько же. Это явно указывает на ограничение производительности GTX 480 из-за малого количества TMU, по сравнению с архитектурой нового поколения. Подтверждаются наши опасения в виде основного недостатка архитектуры GF100. Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0 Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0: Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики. Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами. Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений: Это универсальные тесты, зависящие и от скорости блоков ALU и от скорости текстурирования, в них важен общий баланс чипа. Видно, что производительность видеокарт в тесте «Frozen Glass» ограничена не только математикой, но и скоростью текстурных выборок. Ситуация в нём схожа с той, что мы видели чуть выше в «Cook-Torrance», но новая GTX 480 в этот раз гораздо ближе к двухчиповому GTX 295 на основе GPU старой архитектуры NVIDIA. С другой стороны, даже одночиповый HD 5870 всё равно далеко впереди. Во втором тесте «Parallax Mapping» результаты снова очень похожи на предыдущие. Впрочем, в этот раз HD 5870 оторвался от карт NVIDIA не так сильно, как в первом тесте. Посмотрим, что будет дальше, но игры обычно многограннее, чем синтетика, и не упираются так явно в одно лишь текстурирование. Но всё-таки для таких устаревших задач количество текстурных модулей в GF100 явно недостаточное. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, чтобы убедиться в наших промежуточных выводах окончательно: Картинка в чём-то схожая, но с текстурными выборками карты AMD справляются явно лучше, особенно двухчиповый HD 5970 тут хорош! Сегодняшний герой в виде GTX 480 снова показывает средний между GTX 285 и GTX 295 результат, так как тут ещё более явно виден упор производительности в скорость текстурных блоков, и их количество у GF100 для новой мощной графической архитектуры всё же явно недостаточное. Но то были устаревшие задачи, с упором в текстурирование, да и не особенно сложные. А сейчас мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9, которые намного показательнее с точки зрения современных эксклюзивных игр на ПК. Тесты отличаются тем, что сильнее нагружают и ALU, и текстурные модули, обе шейдерные программы сложные и длинные, включают большое количество ветвлений: Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики. Fur — процедурный шейдер, визуализирующий мех. Ну наконец-то! Вот тут совсем другое дело. Оба PS 3.0 теста очень сложные, совсем не зависят от ПСП и текстурирования, они чисто математические, но с большим количеством переходов и ветвлений, с которыми, похоже, отлично справляется новая архитектура GF100. В этих тестах GTX 480 показывает свою реальную силу и обгоняет все решения, кроме нового двухчипового от конкурента. Мало того, GTX 295 в этих сложнейших тестах чуть ли не вдвое медленнее, а GTX 285 вообще втрое! На результаты явно повлияли архитектурные изменения нового графического процессора, направленные на повышение эффективности вычислений. Итак, с новой архитектурой GF100 мы отмечаем очень большой прирост производительности в сложнейших PS 3.0 тестах. В которых важнее всего не пиковая математическая мощь, которая имеется у решений AMD, а эффективность выполнения сложных шейдерных программ с переходами и ветвлениями. Ну и удвоенная математическая мощь, по сравнению с GT200, тоже сказалась. Очень хороший результат, ведь обогнать решение архитектуры AMD, имеющей большее количество исполнительных блоков ALU, это дорогого стоит. Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы) Во вторую версию RightMark3D вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсемплинга, что дополнительно увеличивает нагрузку на видеочипы. Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере. Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсемплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот. Проверим сначала режимы без включенного суперсемплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым. Производительность в этом тесте зависит и от количества и эффективности блоков TMU, и от филлрейта с ПСП в меньшей степени. Результаты в «High» получаются примерно в полтора раза ниже, чем в «Low», как и должно быть по теории. В Direct3D 10 тестах процедурной визуализации меха с большим количеством текстурных выборок решения NVIDIA традиционно сильны, но последняя архитектура AMD уже подобралась к ним вплотную. GTX 480 почти на треть быстрее GTX 285, но не дотягивает до GTX 295, что мы видели и в DX9 тестах. Это говорит скорее о влиянии филлрейта и ПСП, где новое решение NVIDIA имеет преимущество над одночиповой картой предыдущей серии. Примерно так же расположен по скорости GF100 и относительно двух карт на основе RV870. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсемплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше: Включение суперсемплинга теоретически увеличивает нагрузку в четыре раза, и в этот раз GeForce GTX 480 сдаёт позиции, как ни странно. А обе Radeon становятся немного сильнее. Разница между GTX 480 и GTX 285 совсем небольшая, что говорит скорее всего об упоре всё же в текстурирование. Или ПСП, которая у GTX 480 увеличилась по отношению к GTX 285 не слишком сильно. Влияния производительности ALU и эффективного выполнения ветвлений в этом тесте явно не видать. Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсемплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсемплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсемплинга: Данный тест интереснее с практической точки зрения, так как разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются во многих проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсемплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High». Диаграмма почти полностью повторяет предыдущую, показаны близкие результаты даже по абсолютным цифрам. В обновленном D3D10 варианте теста без суперсемплинга, GTX 480 чуть лучше справляется с поставленной задачей, чем одночиповый топ предыдущего поколения, но отстаёт от двухчиповой карты GTX 295. Также, новая видеокарта на GF100 немного обгоняет и своего соперника HD 5870, двухчиповый вариант которого становится победителем в абсолютном зачёте. Посмотрим, что изменит включение суперсемплинга, он всегда вызывает несколько большее падение скорости на картах NVIDIA. При включении суперсемплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростными показателями несколько видеокарт изменилась, включение суперсемплинга сказывается как и в предыдущем случае — карты производства AMD явно улучшили свои показатели относительно решения NVIDIA. Обе двухчиповые карты остаются впереди GTX 480, но в этот раз новое решение немного проигрывает и своему прямому конкуренту HD 5870. Похоже, что так оно и будет в игровых тестах — где-то GTX 480 окажется далеко впереди, а где-то — немного отстанет. Впрочем, карта на GF100 хотя бы обгоняет свою предшественницу, в лёгком режиме заметно, а в тяжёлом — совсем чуть-чуть. Архитектурные изменения в новом GPU компании NVIDIA не дали особенного преимущества в этих тестах, к сожалению. Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления) Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере. Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos. А вот в математических тестах мы должны увидеть большие изменения, так как графический процессор GF100 отличается удвоенной мощью ALU, по отношению к GT200. Впрочем, теоретически решения AMD в наших синтетических тестах должны быть ещё быстрее, так как в вычислительно сложных задачах современная архитектура AMD имеет явное преимущество перед конкурентами от NVIDIA. Подтверждается положение и в этот раз, новая плата GTX 480 хотя и сократила разрыв между картами NVIDIA и AMD, но он остался более чем полуторакратным. А вот сравнение с GTX 285 и GTX 295 получилось интересное. Ни двукратной разницы с предыдущей одночиповой, ни обгона старой двухчиповой карты предыдущего поколения у NVIDIA в этот раз не получилось. Подтверждается вывод о том, что данный тест не полностью зависит от скорости ALU, но и на разницу в ПСП результаты не списать. У GF100 получилось лишь 38% прироста по сравнению с GTX 285, что весьма странно и очень-очень мало, как нам кажется. Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки: Во втором тесте скорость рендеринга ограничена почти исключительно производительностью шейдерных блоков, но всё же разница между GTX 285 и GTX 480 слишком мала — всего 58%, хотя теоретически должно быть ближе к двукратной разнице. Но новое решение хотя бы догнало двухчиповую GTX 295, в отличие от предыдущего теста. Впрочем, конкуренты в лице Radeon HD 5870 и уж тем более HD 5970 в этом тесте показывают скорость ещё значительно выше. Подводим итог по математическим D3D10 тестам. Все видеокарты NVIDIA далеко позади, даже новый GF100 медленнее конкурента в пиковых синтетических задачах почти вдвое! И всё это несмотря на то, что GTX 480 быстрее одночипового варианта GTX 285 теоретически почти вдвое. Реальность показывает гораздо меньшую цифру, и даже приблизиться к картам AMD по простым математическим тестам NVIDIA не удалось. В общем, итог по предельным математическим вычислениям остаётся неизменным и в этот раз — явное и неоспоримое преимущество решений компании AMD, которое не изменил выход линейки GTX 400. Посмотрим на результаты тестирования геометрических шейдеров — уж там-то новое решение должно быть сильно, как никакое другое. Direct3D 10: тесты геометрических шейдеров В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх. Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково. Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности: Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое у всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не особенно сложная, а производительность в целом ограничена скоростью обработки геометрии и не упирается в пропускную способность памяти. И вот тут новый графический процессор показывает свою настоящую силу. GeForce GTX 480 во всех режимах показывает близкие к двухчиповому решению конкурента результаты, в полтора раза обгоняя и HD 5870 и двухчиповую карту на базе GT200. Отличный результат! Как и ожидалось, выполнение геометрических шейдеров у GF100 весьма и весьма эффективное, примерно в 2,5 раза быстрее, чем может GT200. Посмотрим, изменится ли ситуация при переносе части вычислений в геометрический шейдер: Нет, цифры при изменении нагрузки в этом тесте почти не изменились. Все карты в этом тесте не замечают изменения параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, и показывают аналогичные предыдущей диаграмме результаты. Смотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры. «Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек. Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим: Обе двухчиповые конфигурации показали себя в этом тесте как обычно, что GeForce GTX 295, что Radeon HD 5970. Видимо, с методом многочипового рендеринга AFR этот тест несовместим вообще. В остальном относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть менее чем в два раза медленней. В этом тесте производительность нового GeForce GTX 480 лишь немного превосходит скорость Radeon HD 5870 в сложном режиме, зато в лёгких разница заметна больше. Сравнивать GTX 480 с GTX 285 на основе GPU предыдущего поколения вообще смешно, новый видеочип оказывается быстрее примерно в два раза. Цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах. Настало время ещё раз удивиться возможностям GF100 по обработке геометрии и скорости исполнения геометрических шейдеров. Вот это — как раз тот результат, ради которого были сделаны глобальные изменения в графическом конвейере GF100. Хотя исполнение геометрических шейдеров было неплохо улучшено и в GT200 и в RV870, но GF100 просто рвёт их на куски в этой задаче. Новое решение GTX 480 в этом тесте почти вдвое быстрее, чем Radeon HD 5870 и до 2,75 раз быстрее своей одночиповой предшественницы GTX 285. Инженеры компании NVIDIA постарались повысить эффективность предыдущей архитектуры по обработке геометрии, и это им явно удалось. Все предыдущие решения просто не способны на столь же эффективное исполнение геометрических шейдеров. Что же будет в тестах тесселяции, которые должны показать ещё большую разницу, исходя из теории? Но не будем заглядывать слишком далеко вперёд. Direct3D 10: скорость выборки текстур из вершинных шейдеров В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет. Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»: Предыдущие исследования показали, что на результаты этого теста влияет и скорость текстурирования и пропускная способность памяти. Но разница между решениями совсем небольшая. GTX 480 показывает схожий с двухчиповой GTX 295 результат, немного опережает HD 5870, но совсем немного уступает во всех режимах наиболее производительной в этом тесте карте Radeon HD 5970. Результаты явно странные... Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок: Взаимное расположение карт на диаграмме немного изменилось, это видно по немного ухудшившимся показателям почти всех карт. Кроме рассматриваемой сегодня GTX 480. Она почти не потеряла в производительности относительно этого же теста в лёгких условиях. Вот что значит — увеличенная эффективность текстурных модулей и особенно подсистемы кэширования. Теперь новая карта на GF100 быстрее всех при среднем и большом количестве полигонов и наравне с двухчиповыми картами в наиболее простом режиме. Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту. Интересно, что результаты в тесте «Waves» не похожи на те, что мы видели на предыдущих диаграммах. Преимущество продукции AMD несколько усилилось, и теперь GTX 480 показывает схожую с HD 5870 и GeForce GTX 295 производительность, немного проигрывая конкуренту в тяжёлом режиме. Предыдущее топовое решение NVIDIA на одном чипе осталось позади, новая модель семейства GeForce GTX 400 опережает её, хоть и не в разы. Рассмотрим второй вариант этого же теста: Изменений снова почти нет, хотя с ростом сложности условий результаты новейшего графического процессора NVIDIA во втором тесте вершинных выборок стали чуть лучше, относительно скорости видеокарт AMD. Перевес над HD 5870 хоть и небольшой, но есть, да и с GeForce GTX 295 новая одночиповая карта справилась, за исключением самого лёгкого режима. 3DMark Vantage: Feature тесты В данный обзор мы снова решили включить синтетические тесты из пакета 3DMark Vantage. Пакет хоть уже и не новый, но его feature тесты обладают поддержкой D3D10 и интересны уже тем, что отличаются от наших. При анализе результатов нового решения NVIDIA в этом пакете мы сможем сделать какие-то новые и полезные выводы, ускользнувшие от нас в тестах семейства RightMark. Feature Test 2: Color Fill Тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным. Показатели производительности в этом тесте не соответствуют тому, что мы видели в своих аналогичных тестах, даже с учетом разных форматов: у нас используется целочисленный буфер с 8-бит на компоненту, а в тесте Vantage — 16-бит с плавающей точкой. Цифры Vantage скорее показывают не производительность блоков ROP, а примерную величину пропускной способности памяти. Для двухчиповых карт всё несколько сложнее, GTX 295 показывает меньшую цифру, чем должна. Результаты теста примерно соответствуют теоретическим цифрам, и зависят от ширины шины памяти, её типа и частоты. GTX 285 показывает неплохой результат из-за применения 512-битной памяти, а GTX 480 не слишком сильно её опережает из-за того, что GDDR5 память работает на не особенно высокой частоте, и ширина шины памяти соответствует 384-бит. Ну и Radeon HD 5870 тоже где-то там недалеко, хотя у неё лишь 256-битная шина памяти, зато GDDR5 довольно быстрая. Несмотря на использование GDDR5 памяти с большей ПСП, новое решение NVIDIA вместе с HD 5870 показывает результат лишь немного выше уровня GTX 285, имеющего 512-битную шину и GDDR3 память. Это может служить потенциальным ограничением производительности в случае использования буферов рендеринга в FP16 формате, что массово наблюдается в современных играх. Feature Test 3: Parallax Occlusion Mapping Один из самых интересных feature тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника), с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss. Тест отличается от других тем, что зависит не только от шейдерной мощности, эффективности исполнения ветвлений и скорости текстурных выборок по отдельности, а от всего понемногу. И для достижения высокой скорости важен грамотный баланс блоков GPU и ПСП видеопамяти. Сильно влияет на тест и эффективность выполнения ветвлений в шейдерах. К сожалению, GTX 480 показывает посредственный результат в этом тесте, лишь на 23% быстрее, чем предыдущее решение на одном чипе — GTX 285. Представленная сегодня видеоплата NVIDIA отстаёт и от двухчиповой GTX 295, и от главного конкурента Radeon HD 5870, а двухчиповый HD 5970 вообще остался недосягаемым. Не очень понятно, что повлияло так негативно на результаты этого теста. Возможно, виновата низкая скорость текстурных выборок, которые активно используются в тесте, так как эффективность ветвлений у GF100 довольно высока, что доказали наши тесты пиксельных шейдеров третьей версии. Решения NVIDIA всегда были эффективны в этом тесте, но HD 5870 обгоняет даже новую GTX 480. Может быть, в тестах физических симуляций GF100 покажет себя с лучшей стороны? Feature Test 4: GPU Cloth Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out. Сразу можно отбросить показатели двухчиповых карт, они явно соответствуют скорости одночиповых аналогов (каждый чип в HD 5970 и GTX 295 работает на меньшей частоте, чем в HD 5870 и GTX 285). Скорость рендеринга тут зависит от производительности обработки геометрии и исполнения геометрических шейдеров. В этом тесте даже GTX 285 неплохо работает, лишь немного отставая от HD 5870, а уж новая карта GTX 480 вновь показала свои сильные стороны. GF100 в этом тесте почти вдвое производительнее предыдущего решения, что неплохо соответствует двукратно усиленной шейдерной мощи нового чипа. Преимущество над конкурирующим решением Radeon HD 5870 столь же впечатляющее. В общем, за нашим сегодняшним героем можно закрепить статус лидера по выполнению геометрических шейдеров и скорости обработки геометрии в целом, как и должно быть по теории. Feature Test 5: GPU Particles Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out. Налицо даже ещё более сильный результат. В синтетических тестах имитации тканей и частиц пакета Vantage, где используются геометрические шейдеры, новый чип GF100 просто оставляет в пыли всех своих соперников. В этот раз он опережает предыдущий графический процессор NVIDIA почти втрое, а конкурирующий Radeon HD 5870 показывает в тесте имитации частиц примерно вдвое худший результат. Результаты мультичипов снова такие же — и у карты AMD, и у NVIDIA явно не работает метод мультичипового рендеринга, так как результаты расчётов текущего кадра используются в следующем, что не даёт начать его рассчитывать до того, как закончится рендеринг текущего. В этом — очевидная слабость двухчиповых карт, они не могут работать эффективно, когда в кадре используются данные из предыдущего. Feature Test 6: Perlin Noise Последний feature тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто используемый в процедурном текстурировании, он использует очень много математических расчётов. Математический feature тест из пакета тестов компании Futuremark показывает чистую производительность видеочипов в предельных задачах. Показанная в нём производительность неплохо соответствует тому, что должно получаться по теории, и частично соответствует тому, что мы видели выше в собственных математических тестах из RightMark 2.0. Но в этом тесте разница между решениями ещё больше. Так, в этом математическом тесте GTX 480 на базе нового GF100 наконец-то обогнал GTX 285 ровно вдвое, что соответствует теории. А вот от HD 5870 отставание нового решения оказалось слишком большим — 1,7 раза. Это мы ещё двухчиповый HD 5970 не рассматриваем... В общем, видеокарты AMD закономерно всухую выигрывают у конкурентов от NVIDIA этот тест, но новое решение на основе графического процессора NVIDIA GF100 всё-таки смогло к нему приблизиться. Напомним, что этот математический тест довольно прямолинеен и призван показать производительность, близкую к пиковой теоретической. В более сложных вычислительных тестах, таких как физические расчёты, получается несколько иная картина. А вот простая, но интенсивная математика, выполняется на картах AMD значительно быстрее. Direct3D 11: вычислительные и геометрические шейдеры Чтобы протестировать новые решения компаний NVIDIA и AMD в задачах, использующих возможности DirectX 11, мы воспользовались примерами из пакетов для разработчиков (SDK) от Microsoft, AMD и NVIDIA, а также некоторыми демонстрационными программами этих компаний. Сначала рассмотрим тесты, использующие новый тип шейдеров — вычислительные (Compute). Их появление — одно из наиболее важных нововведений в последних версиях DX API, они используются для различных задач: постобработки, симуляций и т.п. В первом тесте показан пример HDR рендеринга с tone mapping из DirectX SDK с постобработкой, использующей пиксельные или вычислительные шейдеры. Нужно признать явную победу одночипового решения AMD над новой видеокартой NVIDIA GeForce GTX 480 в этом тесте. Анонсированная сегодня плата на новом чипе GF100 отстаёт от конкурирующего Radeon HD 5870 в обоих режимах, и с использованием пиксельного, и с использованием вычислительного шейдеров. Причём отставание довольно ощутимое — до полутора раз. У двухчипового HD 5970 в этом тесте работает только один GPU, поэтому его результат даже ниже, чем у HD 5870. Второй тест вычислительных шейдеров также взят из DirectX SDK от Microsoft, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация. И в этом вычислительном тесте новое решение NVIDIA снова проигрывает ближайшему конкуренту в лице Radeon HD 5870. В данном случае — около 25%, что также довольно много. Двухчиповый HD 5970 в очередной раз не может показать свои возможности, и ограничивается работой одного из двух установленных на плате GPU. Следующий тест — демонстрационная программа от NVIDIA под названием Realistic Character Hair. В ней используется не чисто синтетический код вычислительных или геометрических шейдеров, а комплекс геометрических и вычислительных шейдеров и тесселяции, поэтому он несколько ближе к реальным задачам, чем чистая синтетика первых двух тестов. А вот в этом тесте новый графический процессор NVIDIA показывает отличный результат, значительно опережая одночиповый Radeon HD 5870 и двухчиповый HD 5970, второй GPU которого снова не сработал. При этом интересна не только сама по себе разница в производительности между одночиповыми картами до 1,5-1,8 раз, но и разное их поведение при включении аппаратной тесселяции. Новая видеокарта GeForce GTX 480 на базе чипа GF100 в таком случае ускоряется при включении тесселяции на 15%, а решение AMD на основе RV870 замедляется почти на 5%. Иными словами, в данном случае тесселяция для решения NVIDIA выгодна, а для AMD — нет. Видимо, сказывается различная организация геометрического конвейера, к рассмотрению производительности которого мы сейчас и переходим. Direct3D 11: производительность тесселяции Самым важным нововведением в Direct3D 11 по праву считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про NVIDIA GF100. Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Тесселяцию уже начали использовать в первых DirectX 11 играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro 2033. В некоторых из них тесселяция используется для моделей персонажей (все игры жанра FPS из перечисленных), в других — для имитации реалистичной водной поверхности (DiRT 2). Схема PN Triangles используется в STALKER: Зов Припяти, в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, что и было проделано. Первым тестом тесселяции у нас будет пример Detail Tessellation из ATI Radeon SDK. Собственно, он показывает не только тесселяцию, но и две разные техники бампмаппинга: обычное наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DirectX 11 решения от NVIDIA и AMD в различных условиях: Первым же выводом напрашивается следующий: попиксельная техника parallax occlusion mapping (средние столбики на диаграмме) и на GeForce GTX 480 и на RADEIN HD 5870 выполняется менее эффективно, чем тесселяция (нижние столбики). То есть, имитация геометрии при помощи пиксельных расчётов обеспечивает меньшую производительность, чем реальная геометрия, отрисованная при помощи тесселяции. Это к слову о перспективности тесселяции там, где сейчас используется parallax mapping. Далее, что касается производительности GTX 480 и карт AMD относительно друг друга. Двухчиповый HD 5970 опережает одночиповые варианты, что вполне понятно. А вот GTX 480 впереди HD 5870 на 5-15%. Больше при включенной тесселяции, меньше при попиксельных расчётах. Что соответствует нашим ожиданиям — в играх с поддержкой только DX9 или DX10 разница между GTX 480 и HD 5870 тоже должна быть меньше, чем в DX11 играх с тесселяцией. Вторым тестом на производительность тесселяции у нас будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что на их основе будут создавать свой код множество игровых разработчиков. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность. В этом примере, пожалуй, мы впервые увидели настоящую геометрическую мощь графической архитектуры GF100. Да, это лишь синтетический тест и такие экстремальные коэффициенты разбиения вряд ли будут использоваться поначалу. Но синтетика для того и нужна, чтобы помочь оценить перспективность решений в будущих задачах. И GeForce GTX 480 тут отлично показывает, на что способен GF100 в задачах тесселяции. Единственный чип в разы опережает двухчиповую карту конкурента. Преимущество над HD 5970 достигает четырёх раз, а одночиповая HD 5870 в этом тесте повержена с просто разгромным счётом. По сути, GF100 позволяет использовать коэффициент тесселяции на несколько ступеней больше, по сравнению с RV870. Вот что значит архитектура, специально разработанная с учётом возможностей нового API в виде тесселяции. Но давайте рассмотрим ещё один тест — демонстрационную программу NVIDIA Realistic Water Terrain, также известную как Island. Кстати, автор этой программы — известный 3D-энтузиастам Тимофей Чеблоков aka Smalltim. Его демка Island использует тесселяцию и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта. Смотрится она просто отлично: Вообще, Island не является чистым синтетическим тестом для тесселяции, а содержит и довольно сложные пиксельные и вычислительные шейдеры, поэтому разница в производительности может быть меньше, чем в предыдущем случае, но зато это положение будет ближе к реальности. В данном случае мы протестировали демо при четырёх разных коэффициентах тесселяции, здесь эта настройка названа Dynamic Tessellation LOD. Если при самом низком коэффициенте разбиения карта на GF100 лишь немного опережает одночиповый вариант от AMD, и даже уступает HD 5970, то при росте коэффициента разбиения и итоговой сложности сцены производительность GTX 480 снижается далеко не так сильно, как скорость рендеринга у конкурирующих решений. В итоге мы снова получили ситуацию, когда чип GF100 новой графической архитектуры NVIDIA обеспечивает схожую с RV870 производительность тесселяции при значительно отличающейся сложности сцены. Так, при максимальном коэффициенте LOD равном 100 в этой программе GTX 480 показывает такую же производительность, как и Radeon HD 5870, но при коэффициенте лишь 25 — то есть при в несколько раз большем количестве треугольников (28 млн. против 4 млн. в данном случае). Это просто огромная разница! Выводы по синтетическим тестам По результатам проведённых синтетических тестов новой модели NVIDIA GeForce GTX 480, основанной на графическом процессоре GF100, а также результатам других моделей видеокарт основных производителей видеочипов, мы можем сделать вывод о том, что это — очень мощная графическая архитектура NVIDIA, которая отличается значительно улучшенными производительностью и возможностями. Новые модели видеокарт на основе GF100 стали одними из самых быстрых среди всех одночиповых. Увеличенное количество блоков обработки геометрии и их параллельная работа позволили значительно улучшить производительность тесселяции и геометрических шейдеров. В синтетических задачах тесселяции новому решению компании NVIDIA просто нет равных. Конкуренту не помогает даже двухчиповое решение, а уж при сравнении видеоплат с одним GPU, решение на основе GF100 выигрывает в таких тестах у лучшей карты на основе RV870 до 4-6 раз. И до выхода архитектуры конкурента, специально усиленной для эффективной обработки геометрии, ситуация не изменится. Если же судить о производительности в 3D-приложениях без тесселяции, то можно предположить, что в игровых тестах будет то же самое, что и в наших синтетических — где-то GeForce GTX 480 окажется впереди конкурента, а где-то — немного отстанет. Причём слишком больших проигрышей быть не должно, так как нет игр, которые были бы полностью ограничены математическими вычислениями или производительностью текстурных выборок — единственными параметрами, по которым к архитектуре GF100 у нас возникают некоторые вопросы. В синтетических тестах тесселяции, геометрических шейдеров и физических расчётов (имитации тканей и частиц в пакете Vantage, где также используются геометрические шейдеры), новый чип NVIDIA GF100 значительно сильнее других. Как и в других вычислительных тестах со сложными программами. А вот прямолинейная математика вроде чисто вычислительных тестов из RightMark или Vantage, как и ожидалось, была проиграна решениям AMD, и отставание у NVIDIA до сих пор приличное. Получается, что GF100 приблизился к CPU по своим особенностям, стал ещё универсальнее (вспоминаем про C++ и кэширование как у CPU), но по сравнению с RV870 он обладает несколько меньшей «числодробильной» мощью, которой всегда отличались GPU от CPU. Сравнительно невысокая пиковая вычислительная и текстурная производительность, которые мы отметили в нашей статье, приводит к отставанию от конкурента в некоторых искусственных тестах, но в целом GTX 480 показала весьма приличные результаты, которые должны подтвердиться в следующей части нашего материла. В ней вы ознакомитесь с тестами свежего решения компании NVIDIA, основанного на новом GPU, в самых современных игровых приложениях. Предполагаем, что игровые результаты будут примерно соответствовать нашим выводам, сделанным при анализе результатов синтетических тестов. Хотя разницы в разы не будет, потому что скорость рендеринга в играх зачастую зависит сразу от нескольких характеристик видеокарт, и гораздо сильнее зависит от филлрейта и пропускной способности памяти, чем синтетика. Думаем, что модель GeForce GTX 480 должна немного опережать своего одночипового конкурента Radeon HD 5870 в играх без тесселяции и уж точно будет впереди в тестах с её применением. Результаты тестов (ДИАГРАММЫ!): сравнение производительности Конфигурацию стенда можно еще раз посмотреть здесь Результаты тестов: сравнение производительности В качестве инструментария мы использовали: Far Cry 2 (Ubisoft) — DirectX 10.0, shaders 4.0 (HDR), для тестирования использовалась утилита из комплекта игры (уровень Middle). Все настройки выставлены на максимальное качество. Unigine Tropics Benchmark 1.2 (Unigine) — DirectX 10.0, скачать здесь. Настройки тестирования — High. Хотим отдельно поблагодарить коллектив компании Unigine и лично Александра Запрягаева за помошь в настройках работы бенчмарка 3DMark Vantage 1.02 (FutureMark) — DirectX 10.0, shaders 4.0, мультитекстурирование, настройки тестирования — Extreme. CRYSIS 1.2 (Crytek/EA), DirectX 10.0, shaders 4.0, (батник и демо для запуска), настройки тестирования — Very High, используется уровень RESCUE). CRYSIS Warhead (Crytek/EA), DirectX 10.0, shaders 4.0, (батник и демо для запуска), настройки тестирования — Very High, используется уровень CARGO). Unigine Heaven Benchmark 1.1 (Unigine) — DirectX 10.0, скачать здесь. Настройки тестирования — High. Хотим отдельно поблагодарить коллектив компании Unigine и лично Александра Запрягаева за помошь в настройках работы бенчмарка Unigine Heaven Benchmark 1.1 (Unigine) — DirectX 11.0, скачать здесь. Настройки тестирования — High. Хотим отдельно поблагодарить коллектив компании Unigine и лично Александра Запрягаева за помошь в настройках работы бенчмарка Colin McRae: DiRT2 (Codemasters) — DirectX 10.0/11.0, настройки тестирования — Ultra High (запуск бенчмарка dirt2.exe -benchmark example_benchmark.xml). Warhammer 40.000: Dawn Of War 2 (Relic Entertainment/THQ) — DirectX 9.0, настройки тестирования — Super High (запуск бенчмарка в самой игре в настройках). Just Cause 2 (Avalanche Studios/Eidos Interactive) — DirectX 11.0, настройки тестирования — Super High (запуск бенчмарка в самой игре в настройках). Внимание! Насчет набора тестовых инструментов! В обновленном и дополненном материале, посвященном инструменту тестирования FRAPS, мы наглядно показали, как неточны и ненадежны тесты, полученные с помощью этой утилиты, а иного инструмента, кроме встроенных в игры бенчмарков, у тестеров и нет. Поэтому мы считаем, что пусть набор тестовых игр будет не столь большим, но все тесты будут прозрачными, точными, и, главное, прекрасно отражающими картину соотношения ускорителей. Производительность видеокарт Важно! Придя к решению о самостоятельном выборе трехмерного ускорителя, то бишь видеокарты в своем компьютере, пользователь должен осознавать, что он меняет одну из основных составляющих работы его системного блока, которая может потребовать дополнительной настройки для лучшего быстродействия или включения ряда качественных функций. Это не конечный потребительский продукт, а лишь одно звено среди всех комплектующих компьютера. И поэтому пользователь должен понимать, что для получения наибольшей отдачи от новой видеокарты ему придется познать некоторые азы трехмерной графики. Да и графики в целом. Если он не хочет этим заниматься, то не стоит приступать к самостоятельному апгрейду в этом плане. Лучше приобретать готовые системные блоки с уже настроенным ПО (а также он будет обеспечен технической поддержкой со стороны компании-сборщика такого системника), либо приставки для игр, где не нужно ничего настраивать — все, что нужно, уже включено в самой игре. Читатели, которые хорошо разбираются в трехмерной графике, смогут разобраться, посмотрев диаграммы далее, и сделают для себя вывод. А для новичков и тех, кто только-только занялся вопросом выбора видеокарты, мы сделаем некоторые пояснения. Во-первых, есть смысл ознакомиться с нашими краткими справочниками по семействам современных видеокарт и процессоров, на основе которых они выпускаются. Следует отметить частоты работы, поддержку современных технологий (шейдеры), а также конвейерную архитектуру. Справочник по ATI Radeon Справочник по NVIDIA GeForce Во-вторых, в разделе 3D-Video наш читатель, который только-только столкнулся с проблемой выбора видеокарты и растерян, может ознакомиться как с азами трехмерной графики (все равно они понадобятся, ведь запуская игру и входя в ее настройки, пользователь столкнется с такими понятиями, как текстуры, освещение и т.д.), так и с базовыми материалами по новым продуктам. Компаний, выпускающих ныне популярные графические процессоры, всего две: AMD (графикой занимается подразделение ATI) и NVIDIA (есть еще Matrox, S3, однако их доля в дискретной графике сегодня меньше 1%, и потому их можно не брать во внимание). Поэтому основная масса информации разбита именно на две части. Ежемесячно выходит 3DSpeed, где как бы сводятся в одно все сравнения различных карт для разных ценовых секторов. Сразу заметим, что на момент уже формирования материала вышла новая версия 2.0 бенчмарка Heaven, поэтому в последующих наших статьях и тестах мы заменим версию 1.1 на 2.0. Выводы Перед тем, как сделать выводы по самой новинке от NVIDIA, следует дать ответ на нашумевшие уже в Сети высказывания и взаимные обвинения. Дело в том, что компания NVIDIA обвинила AMD в том, что в игре Warhammer 40.000: Dawn Of War 2 при включенном CATALYST AI занижается качество, подменяя форматы. Чем якобы вызывается более высокая производительность. И поэтому NVIDIA рекомендует тестерам выключать CATALYST AI для сравнения скоростей при равном качестве. Наши исследования показали, что включение-выключения CATALYST AI в драйверах 10.3 приводят к крайне незначительным изменениям производительности, когда как на более ранних версиях драйверов от AMD эта разница более существенная. Поэтому в наш материал включены тесты Warhammer 40.000: Dawn Of War 2 при ВЫКЛЮЧЕННОМ Catalyst AI, дабы соблюсти чистоту эксперимента, ибо действительно AI понижал качество картинки. Впрочем, эта игра уровня DX9 и потому малоинтересна с точки зрения перспективности. Ведь DX11 ускорители покупают для того, чтобы играть в более современных играх. Далее. В то же время со стороны AMD были обвинения в адрес NVIDIA в том, что в демо-версии игры Colin McRae: DiRT2 новые продукты GTX 4xx работают в DX9 режиме вместо положенного DX11, тем самым NVIDIA повышает производительность нечестным путем. Отвечаем и на это: в полноценной версии Colin McRae: DiRT2, которую мы и используем, GTX 480 работает в DX11 режиме, и это проверялось неоднократно, поэтому наше сравнение GTX 480 с конкурентами в данном тесте — объективно, так как все они работают в DX11. Теперь вернемся к новому продукту. NVIDIA GeForce GTX480 1536MB PCI-E — очень интересное решение с точки зрения API DX11. Новый ускоритель продемонстрировал отличный потенциал в плане скорости работы тесселяции и явно готов к новым играм ближайщего будущего. Два из трех тестов, связанных с DX11, GTX 480 выиграл. Однако есть и существенные недостатки. Прежде всего, это шумность видеокарты. Увы, но этот факт может огорчить многих. Разумеется, найдутся энтузиасты, жаждущие всего самого быстрого, которым шумность — не помеха. Но в целом, это недостаток. Вместе с тем, как мы видели еще из спецификаций, длина видеокарты — стандартная — 270 мм, в отличие от более длинного Radeon 5870, что является также немаловажным плюсом, ибо уже известны случаи, когда 5870 не умещался даже в корпуса весьма приличных размеров (не хватало считанных миллиметров) и приходилось или менять корпус, или отказываться от 5870. Далее. GTX 480 показал в целом результаты сравнимые с 5870, где-то чуть опережаая, где-то чуть отставая, но в целом — чуть-чуть быстрее. Заметно, что в высоких разрешениях производительность упирается в пропускную способность памяти (ПСП), и немного странно, что при наличии на рынке 50х микросхем памяти, компания ставит 40х и даже их понижает в частоте работы. Вероятно все ради того, чтобы уложиться в энергопотребление до 300 Вт. Кстати, обрезание ядра с 512 до 480 процессоров вероятно связано также с этой же проблемой, а также с повышением процента выхода годных кристаллов. Ждем выхода GTX 490 с 512 потоковыми процессорами? О цене. Рекомендованная цена (на конец марта 201 |