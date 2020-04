Le développement des caches et de la mise en cache est l’un des événements les plus importants de l’histoire de l’informatique. Pratiquement tous les cœurs de processeurs modernes, des puces à très faible consommation comme l’ARM Cortex-A5 aux processeurs Intel Core i9 haut de gamme, utilisent des caches. Même les microcontrôleurs haut de gamme ont souvent de petits caches ou les offrent en option – les avantages en termes de performances sont trop importants pour être ignorés, même dans les conceptions à très faible consommation.

La mise en cache a été inventée pour résoudre un problème important. Au cours des premières décennies de l’informatique, la mémoire principale était extrêmement lente et incroyablement chère, mais les processeurs n’étaient pas particulièrement rapides non plus. À partir des années 80, l’écart a commencé à se creuser rapidement. La vitesse d’horloge du microprocesseur a décollé, mais les temps d’accès à la mémoire se sont améliorés de manière beaucoup moins spectaculaire. À mesure que cet écart se creusait, il devenait de plus en plus clair qu’un nouveau type de mémoire rapide était nécessaire pour combler le fossé.

Fonctionnement de la mise en cache

Les caches de CPU sont de petits pools de mémoire qui stockent les informations dont le CPU aura probablement le plus besoin ensuite. Les informations chargées dans le cache dépendent d’algorithmes sophistiqués et de certaines hypothèses sur la programmation du code. Le but du système de cache est de s’assurer que le CPU a le prochain bit de données dont il aura besoin déjà chargé dans le cache au moment où il va le chercher (également appelé un hit de cache).

Un cache manquant, d’autre part, signifie que le processeur doit aller chercher pour trouver les données ailleurs. C’est là que le cache L2 entre en jeu – bien qu’il soit plus lent, il est également beaucoup plus grand. Certains processeurs utilisent une conception de cache inclusive (ce qui signifie que les données stockées dans le cache L1 sont également dupliquées dans le cache L2) tandis que d’autres sont exclusives (ce qui signifie que les deux caches ne partagent jamais de données). Si les données ne peuvent pas être trouvées dans le cache L2, le processeur continue sur la chaîne jusqu’à L3 (généralement toujours en cours de désactivation), puis L4 (s’il existe) et la mémoire principale (DRAM).

Ce graphique montre la relation entre un cache L1 avec un taux de réussite constant, mais un cache L2 plus grand. Notez que le taux de réussite total augmente fortement à mesure que la taille du L2 augmente. Un L2 plus grand, plus lent et moins cher peut offrir tous les avantages d’un grand L1, mais sans la taille de la puce et la consommation d’énergie. La plupart des taux de cache L1 modernes ont atteint des taux bien supérieurs aux 50% théoriques présentés ici – Intel et AMD ont tous deux généralement des taux de succès de cache de 95% ou plus.

Le prochain sujet important est l’associativité des ensembles. Chaque CPU contient un type spécifique de RAM appelé RAM de balise. La RAM de balise est un enregistrement de tous les emplacements de mémoire qui peuvent être mappés à un bloc de cache donné. Si un cache est entièrement associatif, cela signifie que tout bloc de données RAM peut être stocké dans n’importe quel bloc de cache. L’avantage d’un tel système est que le taux de réussite est élevé, mais le temps de recherche est extrêmement long – le CPU doit parcourir son cache entier pour savoir si les données sont présentes avant de rechercher dans la mémoire principale.

À l’autre extrémité du spectre, nous avons des caches à mappage direct. Un cache à mappage direct est un cache où chaque bloc de cache peut contenir un et un seul bloc de mémoire principale. Ce type de cache peut être recherché extrêmement rapidement, mais comme il mappe 1: 1 aux emplacements de mémoire, il a un faible taux de réussite. Entre ces deux extrêmes se trouvent des caches associatifs à n voies. Un cache associatif bidirectionnel (le L1 de Piledriver est bidirectionnel) signifie que chaque bloc de mémoire principal peut être mappé sur l’un des deux blocs de cache. Un cache associatif à huit voies signifie que chaque bloc de mémoire principale pourrait être dans l’un des huit blocs de cache. Le cache d’instructions L1 de Ryzen est associatif à 4 voies, tandis que le cache de données L1 est associatif à 8 voies.

Les deux diapositives suivantes montrent comment le taux de réussite s’améliore avec l’associativité définie. Gardez à l’esprit que des choses comme le taux de réussite sont très particulières – différentes applications auront des taux de réussite différents.

Pourquoi les caches CPU continuent de s’agrandir

Alors, pourquoi ajouter des caches toujours plus grands en premier lieu? Parce que chaque pool de mémoire supplémentaire repousse la nécessité d’accéder à la mémoire principale et peut améliorer les performances dans des cas spécifiques.

Ce graphique de la revue Hasand d’Anandtech est utile car il illustre l’impact sur les performances de l’ajout d’un énorme cache L4 (128 Mo) ainsi que des structures L1 / L2 / L3 conventionnelles. Chaque marche d’escalier représente un nouveau niveau de cache. La ligne rouge est la puce avec un L4 – notez que pour les gros fichiers, elle est toujours presque deux fois plus rapide que les deux autres puces Intel.

Il peut donc sembler logique de consacrer d’énormes quantités de ressources en attente au cache – mais il s’avère que le rendement marginal de ce fait diminue. Les caches plus grandes sont à la fois plus lentes et plus chères. À six transistors par bit de SRAM (6T), le cache est également coûteux (en termes de taille de puce, et donc de coût en dollars). Passé un certain point, il est plus judicieux de dépenser le budget de puissance de la puce et de compter les transistors sur plus d’unités d’exécution, une meilleure prédiction de branche ou des cœurs supplémentaires. En haut de l’histoire, vous pouvez voir une image de la puce Pentium M (Centrino / Dothan); tout le côté gauche du dé est dédié à un cache L2 massif. Ce fut le cas dans les derniers jours des processeurs à un seul thread, maintenant que nous avons des puces multicœurs et des processeurs graphiques en cours dans de nombreux cas, un pourcentage plus faible du processeur global est dédié au cache.

Impact de la conception du cache sur les performances

L’impact sur les performances de l’ajout d’un cache CPU est directement lié à son efficacité ou à son taux de réussite; les échecs répétés du cache peuvent avoir un impact catastrophique sur les performances du processeur. L’exemple suivant est largement simplifié mais devrait servir à illustrer le point.

Imaginez qu’un CPU doive charger les données du cache L1 100 fois de suite. Le cache L1 a une latence d’accès de 1ns et un taux de réussite de 100%. Il faut donc à notre CPU 100 nanosecondes pour effectuer cette opération.

Supposons maintenant que le cache ait un taux de réussite de 99%, mais les données dont le processeur a réellement besoin pour son 100e accès se trouvent en L2, avec une latence d’accès de 10 cycles (10ns). Cela signifie qu’il faut au processeur 99 nanosecondes pour effectuer les 99 premières lectures et 10 nanosecondes pour effectuer la 100e. Une réduction de 1% du taux de réussite vient de ralentir le processeur de 10%.

Dans le monde réel, un cache L1 a généralement un taux de réussite compris entre 95 et 97%, mais l’impact sur les performances de ces deux valeurs dans notre exemple simple n’est pas de 2% – il est de 14%. Gardez à l’esprit que nous supposons que les données manquées se trouvent toujours dans le cache L2. Si les données ont été supprimées du cache et se trouvent dans la mémoire principale, avec une latence d’accès de 80 à 120 ns, la différence de performances entre un taux de réussite de 95 et 97% pourrait presque doubler le temps total nécessaire pour exécuter le code.

À l’époque où la famille Bulldozer d’AMD était comparée aux processeurs d’Intel, le thème de la conception du cache et de l’impact sur les performances a beaucoup été abordé. On ne sait pas dans quelle mesure les performances médiocres de Bulldozer pourraient être imputées à son sous-système de cache relativement lent – en plus d’avoir des latences relativement élevées, la famille Bulldozer a également souffert d’une forte contention de cache. Chaque module Bulldozer / Piledriver / Steamroller a partagé son cache d’instructions L1, comme indiqué ci-dessous:

Un cache est contesté lorsque deux threads différents écrivent et écrasent des données dans le même espace mémoire. Cela nuit aux performances des deux threads – chaque cœur est obligé de passer du temps à écrire ses propres données préférées dans le L1, mais l’autre cœur écrase rapidement ces informations. AMD’S OLDER Steamroller est toujours bouleversé par ce problème, même si AMD a augmenté le cache de code L1 à 96 Ko et l’a rendu associatif à trois au lieu de deux. Les processeurs Ryzen ultérieurs ne partagent pas le cache de cette manière et ne souffrent pas de ce problème.

Ce graphique montre comment le taux de réussite de l’Opteron 6276 (un processeur Bulldozer d’origine) a chuté lorsque les deux cœurs étaient actifs, dans au moins certains tests. De toute évidence, cependant, la contention du cache n’est pas le seul problème – le 6276 a toujours eu du mal à surpasser le 6174 même lorsque les deux processeurs avaient des taux de réussite égaux.

Zen 2 ne présente pas ce type de faiblesses aujourd’hui, et les performances globales de cache et de mémoire de Zen et Zen 2 sont bien meilleures que celles de l’ancienne architecture Piledriver.

Les processeurs modernes ont également souvent un très petit cache «L0», qui ne fait souvent que quelques Ko et est utilisé pour stocker des micro-opérations. AMD et Intel utilisent tous les deux ce type de cache; Zen avait un cache de 2048 µOP, tandis que Zen 2 a un cache de 4096 µOP. Ces petits pools de cache fonctionnent selon les mêmes principes généraux que L1 et L2, mais représentent un pool de mémoire encore plus petit auquel le CPU peut accéder à des latences encore plus faibles que L1. Souvent, les entreprises ajusteront ces capacités les unes contre les autres. Les Zen 1 et Zen + (Ryzen 1xxx, 2xxx, 3xxx APU) ont un cache d’instructions L1 de 64 Ko qui est associatif à 4 voies et un cache L0 de 2 048 µOP. Zen 2 (processeurs de bureau Ryzen 3xxx, Ryzen Mobile 4xxx) possède un cache d’instructions L1 de 32 Ko qui est associatif à 8 voies et un cache de 4 096 µOP. Le doublement de l’associativité définie et de la taille du cache µOP a permis à AMD de réduire de moitié la taille du cache L1. Ces types de compromis sont courants dans les conceptions de CPU.

Mise en cache

La structure et la conception du cache sont toujours affinées, les chercheurs recherchant des moyens d’extraire des performances plus élevées des caches plus petits. Jusqu’à présent, des fabricants comme Intel et AMD n’ont pas encore poussé de manière spectaculaire vers des caches plus importants ou ont adopté des conceptions jusqu’à un L4. Certains processeurs Intel avec EDRAM intégrée ont ce qui équivaut à un cache L4, mais cette approche est inhabituelle. C’est pourquoi nous avons utilisé l’exemple Haswell ci-dessus, même si ce processeur est plus ancien. Vraisemblablement, les avantages d’un grand cache L4 ne l’emportent pas encore sur les coûts pour la plupart des cas d’utilisation.

Quoi qu’il en soit, la conception du cache, la consommation d’énergie et les performances seront essentielles à la performance des futurs processeurs, et des améliorations substantielles des conceptions actuelles pourraient améliorer le statut de la société qui peut les mettre en œuvre.

Maintenant lis:

Consultez également notre série ExtremeTech Explains pour une couverture plus approfondie des sujets technologiques les plus chauds d’aujourd’hui.