Рождественская сказка AMD. Обзор и тестирование видеокарты Radeon HD 7970

Direct3d 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не слишком сложная, и производительность ограничена в основном скоростью обработки геометрии, но ещё и пропускной способностью памяти/филлрейтом (в рамках решений одного производителя).

В этом тесте должны были проявиться улучшенные возможности Southern Islands по обработке геометрии, вот они и проявились. Новая видеокарта AMD действительно гораздо быстрее выполняет геометрические расчёты, по сравнению со всеми предыдущими решениями компании. Хотя AMD дала цифры прироста до 4 раз, но в этом тесте геометрическая производительность выросла примерно в 1,5-2 раза. В итоге, одночиповая видеокарта оказалась примерно на том же уровне, что и двухчиповая модель Radeon HD 6990 на GPU предыдущего поколения.

Столь значительное улучшение привело к тому, что Tahiti практически догнала топовую видеокарту Nvidia, хотя выполнение геометрических шейдеров у той в некоторых условиях должно быть ещё эффективнее. Ранее видеокарты Nvidia справлялись с работой примерно вдвое быстрее аналогичных видеокарт конкурента, а теперь разницы совсем нет. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры почти не изменились для решений Nvidia и большинства плат AMD. Лишь новая видеокарта из семейства HD 7900 в данном тесте слабо отреагировала на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер. Поэтому плата показала результат чуть выше, чем на предыдущей диаграмме. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy» — ещё и для их отрисовки. То есть в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Предлагаем ознакомиться  Актуальные сборки компьютеров на 2019-2021 год.

Относительные результаты в разных режимах снова примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть менее чем в два раза медленней.

В этом тесте скорость рендеринга должна быть ограничена геометрической производительностью, и новая архитектура от компании AMD показывает себя просто отлично, даже немного обгоняя конкурента в лице Geforce GTX 580! Обе двухчиповые платы тут показали некорректные результаты, поэтому с ними сравнения не получится.

Цифры должны сильно измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy».

А вот тут рекорда у Radeon HD 7970 не получилось, всё-таки разница между чипами AMD с традиционным графическим конвейером (в т. ч. и Cayman с Tahiti с двумя растеризаторами) и чипами с архитектурой Fermi, имеющей распараллеленную обработку геометрии, хорошо заметна. И результаты Geforce GTX 580, имеющей в своей основе чип GF110, хороши настолько, что она обгоняет лучшее из решений компании AMD (а это анонсированная сегодня модель) на 35-40%.

Хотя возможности новенького топового чипа AMD по обработке геометрии и скорости исполнения геометрических шейдеров явно выросли по сравнению с предыдущими видеокартами компании, и первое решение на чипе Tahiti показывают в этих тестах результаты на 22-28% выше, чем решения на базе Cayman. Вероятно, инженеры AMD решили, что такой оптимизации блоков установки треугольников и обработки геометрии будет вполне достаточно.

Direct3d 10: тесты пиксельных шейдеров ps 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов обычно соответствуют разнице в частотах и количестве исполнительных блоков, но с некоторым влиянием разной эффективности их использования. Все последние архитектуры AMD в таких случаях имеют подавляющее преимущество перед конкурирующими видеокартами Nvidia, и это объясняет результаты тестов, в которых решения AMD снова оказываются значительно более производительными.

Решения расположились примерно соответственно теории, но за некоторыми исключениями. На практике открылись некоторые нюансы, связанные с различной эффективностью. Теоретически, Geforce GTX 580 должна быть более чем вдвое (2,4 раза) медленнее, чем новая модель Radeon HD 7970, на практике же разница составляет лишь 80%, что значительно меньше.

Да и при сравнении с HD 6970 возникают вопросы оптимизации новой архитектуры и драйверов для неё к этому тесту. При теоретическом превосходстве по вычислениям в 40%, новая плата AMD лишь на 28% быстрее предыдущей — HD 6970, а ещё меньше дистанция между ней и совсем старой HD 5870, основанной на VLIW5-архитектуре. То ли тест действительно лучше подходит для VLIW (особенно для VLIW5), то ли виноваты ещё сырые драйверы.

Есть и ещё одно объяснение — возможно, на результаты плат HD 7970 HD 6970 в этом тесте повлияла технология PowerTune, снизившая частоты при достижении предела энергопотребления. Впрочем, всё это мало что меняет при сравнении с конкурентом, ведь даже дорогущая двухчиповая плата Geforce GTX 590 лишь достигла уровня HD 6970 и HD 5870. А уж одночиповая GTX 580 так и вовсе далеко позади.

Предлагаем ознакомиться  ...и кое-что о компьютерах.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Мы видим почти идентичную предыдущей диаграмму, за исключением абсолютных цифр. В этот раз все GPU остались примерно на тех же позициях, ну разве что видеоплаты на базе Cayman и Cypress поменялись местами — теперь чуть-чуть быстрее более новая модель, но совсем незначительно. Хотя строгого соответствия теоретическим цифрам пиковой производительности всё так же нет, но их результаты всё-таки близки к сухой теории. Разница между HD 7990 и HD 6970 немного увеличилась.

В остальном, мы не нашли на графике ничего нового. Скорость рендеринга в этом тесте ограничена исключительно производительностью шейдерных блоков и их эффективностью, поэтому двухчиповая HD 6990 снова стала явным лидером, а за ней на приличном отдалении следует сегодняшняя новинка от AMD. Обе платы Geforce уступают даже устаревшей модели из семейства Radeon HD 5800, но и в этот раз преимущество решений AMD остаётся несколько меньшим, чем при сравнении теоретических цифр, и это снова говорит о худшей оптимизации или влиянии PowerTune.

Direct3d 10: тесты пиксельных шейдеров ps 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.


Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит от количества и эффективности блоков TMU, и от эффективности выполнения сложных программ. В варианте без суперсэмплинга дополнительное влияние на производительность оказывает эффективный филлрейт (производительность ROP) и пропускная способность памяти. Результаты при детализации уровня «High» получаются примерно в полтора раза ниже, чем при «Low», как и должно быть по теории, но для быстрейших решений разница несколько ниже.

Ранее в тестах процедурной визуализации меха с большим количеством текстурных выборок решения Nvidia были заметно сильнее, но начиная с предыдущего поколения компании AMD, разница начала сокращаться. Что же получилось у Radeon HD 7970? Отличный результат — новинка AMD снова оказалась быстрее двухчиповой платы предыдущего поколения, а одночиповая HD 6970 отстала вдвое, что явно говорит об увеличении эффективности новой архитектуры Southern Islands. Да и решения компании Nvidia остались позади, даже двухчиповая GTX 590 уступила представленной сегодня топовой модели Radeon HD 7970.

Предлагаем ознакомиться  Контрнаступление ATI Technologies: семейство RADEON X1800 (R520), X1600 (RV530) и X1300 (RV515)

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга увеличивает теоретическую нагрузку в четыре раза, и результаты решений Nvidia всегда падают, по сравнению с показателями видеокарт AMD. Теперь разница в эффективности выполнения данной задачи ещё более очевидна, и новая модель HD 7970 быстрее HD 6970 в 2,5 раза! Примерно столько же новинке уступила и Geforce GTX 580. Вполне естественно, что даже HD 6990 осталась далеко позади, а новая плата укрепила лидерство, да какое…

Второй шейдерный DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза.

Второй пиксель-шейдерный тест Direct3D 10 несколько интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Эта диаграмма похожа на предыдущую без включения SSAA, но позиции Nvidia ещё немного ослабли, да и Radeon HD 6990 почти догнала представленную сегодня модель. В обновленном D3D10-варианте теста без суперсэмплинга HD 7970 показывает отличный результат, значительно опережая и HD 6970 и GTX 580 и даже GTX 590.

При включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается, как и в предыдущем случае — карты производства AMD улучшили свои показатели относительно решений Nvidia.

И теперь Radeon HD 7970 снова становится единоличным лидером сравнения, показывая результаты выше, чем у HD 6990. Более старые одночиповые платы компании далеко позади, вместе с ними и Geforce GTX 580. И лишь более дорогие двухчиповые варианты от AMD и Nvidia способны хоть как-то приблизиться к свежей видеоплате.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core i7-975 (Socket 1366)
    • процессор Intel Core i7-975 (3340 МГц);
    • системная плата Asus P6T Deluxe на чипсете Intel X58;
    • оперативная память 6 ГБ DDR3 SDRAM Corsair 1600 МГц;
    • жесткий диск WD Caviar SE WD1600JD 160 ГБ SATA;
    • блок питания Tagan TG900-BZ 900 Вт.
  • операционная система Windows 7 64-битная; DirectX 11;
  • монитор Dell 3007WFP (30″);
  • драйверы AMD версии Catalyst 11.12; Nvidia версии 290.36

VSync отключен.

Оцените статью
Техничка
Adblock detector