Depuis que 3dfx a fait ses débuts avec l’accélérateur Voodoo original, aucun équipement dans un PC n’a autant d’impact sur la capacité de votre machine à jouer que l’humble carte graphique. Alors que d’autres composants sont absolument importants, un PC haut de gamme avec 32 Go de RAM, un processeur de 4 000 $ et un stockage basé sur PCIe s’étouffera et mourra si on lui demande d’exécuter des titres AAA modernes sur une carte de dix ans à des résolutions modernes et à des niveaux de détail . Les cartes graphiques, également appelées GPU (Graphics Processing Units), sont essentielles aux performances du jeu et nous les couvrons largement. Mais nous ne nous penchons pas souvent sur ce qui fait tourner un GPU et sur le fonctionnement des cartes.

Par nécessité, ce sera un aperçu de haut niveau des fonctionnalités du GPU et couvrira les informations communes aux processeurs intégrés AMD, Nvidia et Intel, ainsi que toutes les cartes discrètes qu’Intel pourrait construire à l’avenir sur la base de l’architecture Xe. Il devrait également être commun aux GPU mobiles construits par Apple, Imagination Technologies, Qualcomm, ARM et d’autres fournisseurs.

Pourquoi n’exécutons-nous pas le rendu avec les processeurs?

Le premier point que je veux aborder est la raison pour laquelle nous n’utilisons pas les processeurs pour le rendu des charges de travail dans les jeux en premier lieu. La réponse honnête à cette question est que vous pouvez exécuter des charges de travail de rendu directement sur un processeur. Les premiers jeux 3D antérieurs à la large disponibilité des cartes graphiques, comme Ultima Underworld, fonctionnaient entièrement sur le processeur. UU est un cas de référence utile pour plusieurs raisons – il avait un moteur de rendu plus avancé que des jeux comme Doom, avec un support complet pour la recherche de haut en bas, ainsi que des fonctionnalités avancées comme le mappage de texture. Mais ce type de soutien a coûté cher – de nombreuses personnes n’avaient pas de PC capable d’exécuter le jeu.

Aux débuts du jeu en 3D, de nombreux titres comme Half-Life et Quake II comportaient un moteur de rendu permettant aux joueurs sans accélérateurs 3D de jouer le titre. Mais la raison pour laquelle nous avons supprimé cette option des titres modernes est simple: les processeurs sont conçus pour être des microprocesseurs à usage général, ce qui est une autre façon de dire qu’ils manquent du matériel spécialisé et des capacités qu’offrent les GPU. Un processeur moderne pourrait facilement gérer des titres qui avaient tendance à bégayer lorsqu’il était exécuté dans un logiciel il y a 18 ans, mais aucun processeur sur Terre ne pourrait facilement gérer un jeu AAA moderne s’il était exécuté dans ce mode. Pas, du moins, sans quelques changements drastiques à la scène, la résolution et divers effets visuels.

Un exemple amusant de cela: le Threadripper 3990X est capable d’exécuter Crysis en mode logiciel, bien que pas très bien.

Qu’est-ce qu’un GPU?

Un GPU est un appareil doté d’un ensemble de capacités matérielles spécifiques destinées à bien correspondre à la façon dont divers moteurs 3D exécutent leur code, y compris la configuration et l’exécution de la géométrie, le mappage de texture, l’accès à la mémoire et les shaders. Il existe une relation entre le fonctionnement des moteurs 3D et la façon dont les concepteurs de GPU créent du matériel. Certains d’entre vous se souviennent peut-être que la famille HD 5000 d’AMD utilisait une architecture VLIW5, tandis que certains GPU haut de gamme de la famille HD 6000 utilisaient une architecture VLIW4. Avec GCN, AMD a changé son approche du parallélisme, au nom de l’extraction de performances plus utiles par cycle d’horloge.

Nvidia a d’abord inventé le terme «GPU» avec le lancement de la GeForce 256 originale et son support pour effectuer des calculs de transformation matérielle et d’éclairage sur le GPU (cela correspondait, à peu près au lancement de Microsoft DirectX 7). L’intégration de capacités spécialisées directement dans le matériel était une caractéristique des premières technologies GPU. Beaucoup de ces technologies spécialisées sont encore utilisées (sous des formes très différentes). Il est plus économe en énergie et plus rapide de disposer de ressources dédiées sur puce pour gérer des types de charges de travail spécifiques que de tenter de gérer tout le travail dans une seule matrice de cœurs programmables.

Il existe un certain nombre de différences entre les cœurs GPU et CPU, mais à un niveau élevé, vous pouvez penser à eux comme ceci. Les processeurs sont généralement conçus pour exécuter du code monothread aussi rapidement et efficacement que possible. Des fonctionnalités telles que SMT / Hyper-Threading améliorent cela, mais nous améliorons les performances multithread en empilant plus de cœurs monofil à haute efficacité côte à côte. Les processeurs Epyc 64 cœurs / 128 threads d’AMD sont les plus grands que vous puissiez acheter aujourd’hui. Pour mettre cela en perspective, le GPU Pascal le plus bas de Nvidia a 384 cœurs, tandis que le processeur x86 avec le plus grand nombre de cœurs sur le marché dépasse 64. Un «cœur» dans le langage GPU est un processeur beaucoup plus petit.

Remarque: Vous ne pouvez pas comparer ou estimer les performances de jeu relatives entre AMD, Nvidia et Intel simplement en comparant le nombre de cœurs GPU. Au sein de la même famille de GPU (par exemple, la série GeForce GTX 10 de Nvidia ou la famille RX 4xx ou 5xx d’AMD), un nombre de cœurs de GPU plus élevé signifie que le GPU est plus puissant qu’une carte bas de gamme. Les comparaisons basées sur FLOPS sont suspectes pour les raisons discutées ici.

La raison pour laquelle vous ne pouvez pas tirer de conclusions immédiates sur les performances du GPU entre fabricants ou familles de base uniquement en fonction du nombre de cœurs est que les différentes architectures sont de plus en moins efficaces. Contrairement aux processeurs, les GPU sont conçus pour fonctionner en parallèle. AMD et Nvidia structurent leurs cartes en blocs de ressources informatiques. Nvidia appelle ces blocs un SM (Streaming Multiprocessor), tandis qu’AMD les appelle une unité de calcul.

Chaque bloc contient un groupe de cœurs, un planificateur, un fichier de registre, un cache d’instructions, un cache de texture et L1 et des unités de mappage de texture. Le SM / CU peut être considéré comme le plus petit bloc fonctionnel du GPU. Il ne contient pas littéralement tout – les moteurs de décodage vidéo, les sorties de rendu nécessaires pour dessiner réellement une image à l’écran et les interfaces mémoire utilisées pour communiquer avec la VRAM intégrée sont toutes hors de sa portée – mais quand AMD se réfère à un APU comme ayant 8 ou 11 unités de calcul Vega, c’est le bloc (équivalent) de silicium dont ils parlent. Et si vous regardez un diagramme d’un GPU, n’importe quel GPU, vous remarquerez que c’est le SM / CU qui est dupliqué une douzaine de fois ou plus dans l’image.

Plus le nombre d’unités SM / CU dans un GPU est élevé, plus il peut effectuer de travail en parallèle par cycle d’horloge. Le rendu est un type de problème qui est parfois appelé «parallèle embarrassant», ce qui signifie qu’il peut extrêmement bien évoluer vers le haut à mesure que le nombre de cœurs augmente.

Lorsque nous discutons des conceptions de GPU, nous utilisons souvent un format qui ressemble à ceci: 4096: 160: 64. Le nombre de cœurs GPU est le premier nombre. Plus il est grand, plus le GPU est rapide, à condition de comparer au sein d’une même famille (GTX 970 contre GTX 980 contre GTX 980 Ti, RX 560 contre RX 580, etc.).

Cartographie des textures et sorties de rendu

Il existe deux autres composants majeurs d’un GPU: les unités de mappage de texture et les sorties de rendu. Le nombre d’unités de mappage de texture dans une conception dicte sa sortie texel maximale et la rapidité avec laquelle elle peut adresser et mapper des textures sur des objets. Les premiers jeux 3D utilisaient très peu de textures car le travail de dessin de formes polygonales 3D était déjà assez difficile. Les textures ne sont pas réellement nécessaires pour les jeux 3D, bien que la liste des jeux qui ne les utilisent pas à l’ère moderne soit extrêmement petite.

Le nombre d’unités de mappage de texture dans un GPU est indiqué par le deuxième chiffre de la métrique 4096: 160: 64. AMD, Nvidia et Intel modifient généralement ces chiffres de manière équivalente lorsqu’ils font évoluer une famille de GPU de haut en bas. En d’autres termes, vous ne trouverez pas vraiment un scénario où un GPU a une configuration 4096: 160: 64 alors qu’un GPU au-dessus ou en dessous dans la pile est une configuration 4096: 320: 64. Le mappage de texture peut absolument être un goulot d’étranglement dans les jeux, mais le GPU suivant le plus élevé dans la pile de produits offrira généralement au moins plus de cœurs de GPU et d’unités de mappage de texture (si les cartes haut de gamme ont plus de ROPs dépend de la famille de GPU et de la configuration de la carte ).

Les sorties de rendu (parfois aussi appelées pipelines d’opérations raster) sont l’endroit où la sortie du GPU est assemblée en une image pour l’affichage sur un moniteur ou un téléviseur. Le nombre de sorties de rendu multiplié par la vitesse d’horloge du GPU contrôle le taux de remplissage des pixels. Un nombre plus élevé de ROP signifie que plus de pixels peuvent être sortis simultanément. Les ROP gèrent également l’anticrénelage, et l’activation des AA – en particulier des AA suréchantillonnés – peut entraîner un jeu dont le taux de remplissage est limité.

Bande passante mémoire, capacité mémoire

Les derniers composants dont nous parlerons sont la bande passante mémoire et la capacité mémoire. La bande passante mémoire fait référence à la quantité de données pouvant être copiées vers et depuis le tampon VRAM dédié du GPU par seconde. De nombreux effets visuels avancés (et plus généralement des résolutions plus élevées) nécessitent plus de bande passante mémoire pour fonctionner à des fréquences d’images raisonnables car ils augmentent la quantité totale de données copiées dans et hors du cœur du GPU.

Dans certains cas, un manque de bande passante mémoire peut être un goulot d’étranglement important pour un GPU. Les APU d’AMD comme le Ryzen 5 3400G sont fortement limités en bande passante, ce qui signifie que l’augmentation de votre fréquence d’horloge DDR4 peut avoir un impact substantiel sur les performances globales. Le choix du moteur de jeu peut également avoir un impact substantiel sur la bande passante mémoire dont un GPU a besoin pour éviter ce problème, tout comme la résolution cible d’un jeu.

La quantité totale de mémoire intégrée est un autre facteur critique dans les GPU. Si la quantité de VRAM nécessaire pour fonctionner à un niveau de détail donné ou une résolution dépasse les ressources disponibles, le jeu continuera souvent à fonctionner, mais il devra utiliser la mémoire principale du CPU pour stocker des données de texture supplémentaires – et cela prend beaucoup plus de temps au GPU pour extraire les données de la DRAM par opposition à son pool intégré de VRAM dédiée. Cela conduit à un bégaiement massif alors que le jeu oscille entre l’extraction de données d’un pool rapide de mémoire locale et la mémoire RAM générale du système.

Une chose à savoir est que les fabricants de GPU équiperont parfois une carte bas de gamme ou de milieu de gamme avec plus de VRAM que ce qui est par ailleurs standard pour recharger un peu plus le produit. Nous ne pouvons pas faire de prédiction absolue quant à savoir si cela rend le GPU plus attrayant, car honnêtement, les résultats varient en fonction du GPU en question. Ce que nous pouvons vous dire, c’est que dans de nombreux cas, cela ne vaut pas la peine de payer plus cher pour une carte si la seule différence est un tampon RAM plus grand. En règle générale, les GPU bas de gamme ont tendance à se heurter à d’autres goulots d’étranglement avant d’être obstrués par une mémoire disponible limitée. En cas de doute, vérifiez les avis sur la carte et recherchez des comparaisons pour savoir si une version de 2 Go est surclassée par la saveur de 4 Go ou quelle que soit la quantité de RAM appropriée. Plus souvent qu’autrement, en supposant que tout le reste est égal entre les deux solutions, vous constaterez que le chargement de RAM plus élevé ne vaut pas la peine d’être payé.

Consultez notre série ExtremeTech Explains pour une couverture plus approfondie des sujets technologiques les plus chauds d’aujourd’hui.

