Archiv verlassen und diese Seite im Standarddesign anzeigen : AMD/ATI - RDNA3 (Navi 3X, Radeon RX 7000 Serie, tlw. Chiplets, 5/6 nm, 2022)
mksn7
2024-07-19, 11:27:44
Quick and dirty: https://cr.yp.to/bib/2004/-amd-25112.pdf Seite 132 bzw. 148
Ansonsten wenn du dich weiter verwirren möchtest: https://www.google.com/search?q=branch+target+alignment
Mit sowas kannst du mich nicht verwirren... Ohne jetzt angeben zu wollen, branch targets hab ich schon vor 10 Jahren manuell aligned, als ich Assembler für den "Knights Corner" Xeon Phi geschrieben habe, weil da sonst plötzlich ein cycle zuviel da war.
Aber der Trick an dieses alignment NOPs ist doch gerade eben dass die selten ausgeführt werden, weil ja zum branch target direkt hinter den nops gesprungen wird. Branch targets für die sich das alignen lohnt sind Schleifenköpfe, also wird der code direkt hinter den NOPs sehr oft ausgeführt, die NOPs nur einmal.
dildo4u
2024-09-17, 09:40:38
"RDNA3.5" Instruction Set Architecture Guide als pdf
https://www.amd.com/content/dam/amd/en/documents/radeon-tech-docs/instruction-set-architectures/rdna35_instruction_set_architecture.pdf
dildo4u
2024-09-27, 11:33:51
Radeon RX 7800M Test@ 180Watt
afldfJ9cTUc
fondness
2024-09-27, 11:36:15
"RDNA3.5" Instruction Set Architecture Guide als pdf
https://www.amd.com/content/dam/amd/en/documents/radeon-tech-docs/instruction-set-architectures/rdna35_instruction_set_architecture.pdf
Die Dokumentation von AMD ist schon erste Sahne. Da wird auf 650 Seiten jede Instruction, jedes noch so kleine Details penibel aufgelistet und erklärt.
davidzo
2024-09-27, 12:02:02
Das kann man auch erwarten. Jeder kleine µSOC hat einen Datenblatt mit 600+ Seiten wo jede Hardwarefunktion beschrieben wird bis hin zu i2c bus timing, voltage tresholds der Pins oder der Adressierung einzelner sram oder flash-Bänke. Wie soll man sonst Software dafür schreiben wenn das nicht dokumentiert wäre?
Ich finde 600Seiten sind eher überraschend wenig Dokumentation für so einen Monsterchip.
davidzo
2024-09-27, 12:14:11
Im Vergleich zu Granite Ridge sind die CCX in Strix - wenn die Info mit 2 CCX stimmt - auch noch mal physisch viel dichter beieinander, was auch nochmal zusätzlich helfen sollte und mit den ganzen IF-Verbesserungen über die Jahre sowie Scheduling-Verbesserungen in Win11 wohl nicht mehr mit Renoir zu vergleichen ist, was Performance-Auswirkungen angeht.
Wenn die Vergangenheit uns eines gezeigt hat, dann dass AMD die potentiellen Fabric-Latenz-Vorteile der monolitischen mobile Chips eben nicht nutzt. Was der Grund dafür ist wissen wir nicht. Dabei könnte ein on chip fabric natürlich sehr viel schneller sein als ein on package fabric wie im Desktop. Das ist es aber nicht bei AMD mobilchips. Eher sind die Latenzen sogar noch etwas größer, was allerdings auch an dem weniger agressiven Speichertakt und Latenzen und ggf. dem besseren power management der Caches liegen dürfte. Entweder es ist eben das power management weswegen man die potentiellen Latenzverbesserungen nicht nutzt, oder es ist die Faulheit etwas proprietäres zu entwickeln was Mehraufwand darstellt den man nicht bereit ist zu leisten. Immerhin hat man bei Zen5 mobile die FPU deutlich abgespeckt, man ist also bereit Anpassungen zu machen, aber leider nicht in die andere Richtung. Ich sehe in der Aufteilung in 16+8+2MB Cache statt einem unified L3 außer dem offensichtlichen Grund der CPU-Latenz noch zwei andere potentielle Gründe: 1. Die Entwicklung der IP war getrennt schneller und einfacher. 2. Power management ist mit zwei getrennten Caches einfacher und effizienter.
Und was ist wohl der Grund wieso die GPU bei AMD immer noch nicht auf den L3 zugreifen kann?
Klar, da gibt es auch Latenzgründe. Aber der Hauptgrund ist imo dass AMD seine Desktop IP recyclet. Und der Desktop L3 den man mittlerweile seit Zen3 mit wenigen Änderungen hat ist halt Weltspitze, da könnte sich auch Intel eine Scheibe von abschneiden. Die Entwicklungsressourcen von AMD sind begrenzt und das steckt man lieber in die AI offensive oder hoffentlich bald auch in RDNA anstatt eine neue Cache Hierachie für APUs zu entwicklen.
mczak
2024-09-27, 12:37:32
Und was ist wohl der Grund wieso die GPU bei AMD immer noch nicht auf den L3 zugreifen kann?
Nur Vorteile hat das auch nicht, das geht bei intel auch nicht mehr. Bei Meteor Lake war das ja ziemlich klar (ist auch auf einem anderen Die), bei Lunar Lake aber hat der P-Cluster einen eigenen Ringbus und wird komplett abgeschaltet ohne hohe CPU-Last.
Wobei LL natürlich einen SLC hat (intel nennt das Memory-Side Cache), der dürfte auch für die GPU genutzt werden (so klar erwähnt wird das nirgends?). Mit 8MB ist der zwar nicht sonderlich gross verglichen mit den restlichen Caches (12 MB L3 für P-Cluster, 4 MB L2 für E-Cluster, 8 MB L2 für GPU), aber immerhin. Sowas fehlt AMD schon bisher.
Lehdro
2024-09-27, 12:58:53
Arbeitet Radeon Chill nicht auch wenigstens für die GPU so?
Tut es. Radeon Chill ist so ziemlich das einzige AMD Treiberfeature welches ich bei NV vermisse. Auf Knopfdruck auf ein vordefiniertes FPS Limit begrenzt zu werden, welches je nach Spiel individuell konfiguriert werden kann.
Bei meiner alten 6900XT habe ich das sehr oft genutzt, weil diese sich brav nur soweit hochgetaktet und die Spannung angepasst hat, wie es tatsächlich notwendig war für das Limit.
robbitop
2024-09-27, 15:23:55
Wobei LL natürlich einen SLC hat (intel nennt das Memory-Side Cache), der dürfte auch für die GPU genutzt werden (so klar erwähnt wird das nirgends?). Mit 8MB ist der zwar nicht sonderlich gross verglichen mit den restlichen Caches (12 MB L3 für P-Cluster, 4 MB L2 für E-Cluster, 8 MB L2 für GPU), aber immerhin. Sowas fehlt AMD schon bisher.
Da wurde in einem kürzlichen Interview ganz direkt nein gesagt. Der SLC ist nicht für die GPU gedacht. Vermutlich hat sie deswegen immerhin fettige 8 MiB L2 Cache (Strix GPU hat nur 2 MiB).
aufkrawall
2024-09-27, 15:38:16
Tut es. Radeon Chill ist so ziemlich das einzige AMD Treiberfeature welches ich bei NV vermisse. Auf Knopfdruck auf ein vordefiniertes FPS Limit begrenzt zu werden, welches je nach Spiel individuell konfiguriert werden kann.
Was ist jetzt besonders? Die Karten takten sich auch mit anderen Limitern oder CPU-Limit deutlich runder, dafür brauchts nicht Chill.
Und mit Lovelace geht der Verbrauch bei Teillast sowieso völlig runter, selbst wenn man 3D-Takt über den Treiber/Reflex erzwungen hat.
Lehdro
2024-09-27, 15:47:57
Was ist jetzt besonders?
Das ich das bei NV nicht per Knopfdruck machen kann? Das hatte ich doch extra geschrieben. Ich will kein dauerhaftes Limit, sondern eins was ich ein- oder ausschalten kann. On the fly.
Derzeit ist der bequemste Umweg: RTSS und da eintippen/rauslöschen.
Die Karten takten sich auch mit anderen Limitern oder CPU-Limit deutlich runder, dafür brauchts nicht Chill.
Und mit Lovelace geht der Verbrauch bei Teillast sowieso völlig runter, selbst wenn man 3D-Takt über den Treiber/Reflex erzwungen hat.
Ist bekannt.
aufkrawall
2024-09-27, 15:56:54
Kannst auch RTSS-Limiter per Hotkey toggeln. :confused: Im Gegensatz zu Chill geht der bei zu niedriger GPU-Last in alten Spielen o.ä. auch nicht einfach zwischendurch aus...
mczak
2024-09-27, 15:58:56
Da wurde in einem kürzlichen Interview ganz direkt nein gesagt. Der SLC ist nicht für die GPU gedacht. Vermutlich hat sie deswegen immerhin fettige 8 MiB L2 Cache (Strix GPU hat nur 2 MiB).
Das Interview habe ich wohl verpasst... Wer nutzt denn nun den Memory-Side Cache? z.B. die NPU? Laut den (alten) Lunar Lake Diagrammen (z.B. https://www.guru3d.com/story/intel-lunar-lake-mx-technical-details-revealed-cores-gpu-tsmc-n3b-node-and-more/) ist da jedenfalls nicht ersichtlich wieso die GPU den nicht nutzen könnte - wenn sie es nicht tut sieht mir das eher nach bewusster Software-Entscheidung als HW-Restriktion aus.
Aber klar da die GPU schon 8MB eigenen Cache hat braucht sie den SLC nicht wirklich, der ist wohl eher zur effizienten Kommunikation zwischen den CPU-Clustern gedacht (die Core-to-Core Latenzen zwischen E-Kernen und P-Kernen sehen auch wirklich super aus), wobei man in modernen Grafik-APIs durchaus auch kohärenten Speicher anfordern kann.
Lehdro
2024-09-27, 16:17:50
Kannst auch RTSS-Limiter per Hotkey toggeln. :confused:
Individuelles Limit pro Spiel, was ich auch geschrieben habe. In manchen reichen 60 fps, in manchen brauche ich 120 fps. Woanders will ich nicht über 239 gehen und wieder andere sollen gar kein reelles Limit haben, aber ich muss mir auch kein Spulenfiepen bei vierstelligen FPS antun.
Im Gegensatz zu Chill geht der bei zu niedriger GPU-Last in alten Spielen o.ä. auch nicht einfach zwischendurch aus...
Und das Problem was du da beschreibst, hatte ich nie. Aber ich habe/hatte auch nur RDNA1 & 2.
Eh alles offtopic.
basix
2024-09-27, 16:28:51
Das Interview habe ich wohl verpasst... Wer nutzt denn nun den Memory-Side Cache? z.B. die NPU? Laut den (alten) Lunar Lake Diagrammen (z.B. https://www.guru3d.com/story/intel-lunar-lake-mx-technical-details-revealed-cores-gpu-tsmc-n3b-node-and-more/) ist da jedenfalls nicht ersichtlich wieso die GPU den nicht nutzen könnte - wenn sie es nicht tut sieht mir das eher nach bewusster Software-Entscheidung als HW-Restriktion aus.
Aber klar da die GPU schon 8MB eigenen Cache hat braucht sie den SLC nicht wirklich, der ist wohl eher zur effizienten Kommunikation zwischen den CPU-Clustern gedacht (die Core-to-Core Latenzen zwischen E-Kernen und P-Kernen sehen auch wirklich super aus), wobei man in modernen Grafik-APIs durchaus auch kohärenten Speicher anfordern kann.
Ich hatte mir auch schon überlegt, dass wenn AMD einen Infinity Cache für die iGPU einbaut, dass die NPU den auch benutzen kann. Beide profitieren davon.
aufkrawall
2024-09-27, 17:09:28
Eh alles offtopic.
Ich kapier auch nicht, wie Chill das alles machen können soll, ohne dass du irgendwas eintippen musst. Ist das dieses Radeon-Link, was Telepathie implementiert? :freak:
Ja, lassen wir das lieber...
robbitop
2024-09-27, 17:18:30
Ich schätze er erstellt spielespezifische Profile und aktiviert/deaktiviert das per Tastenkombination?
Zumindest klingt das relativ praktisch.
aufkrawall
2024-09-28, 06:47:44
Ja. Dafür gibt er die Werte für die Spiele-Profile in Chill ein. Das geht genauso auch mit RTSS, und per Hotkey lässt sich der Limiter auch an-/ausschalten. Warum auch immer man das mit einem stationären System mit VRR-Monitor braucht.
basix
2024-10-10, 14:16:05
7650GRE: Hört sich nach einer 7700XT an, welche nochmals etwas gestutzt wurde (12GB, 40/42 CU, geringere TDP)
https://www.pcgameshardware.de/Radeon-RX-7000-Grafikkarte-278190/News/7650-GRE-zur-CES-1457310/
dargo
2025-01-28, 08:20:55
Ist AMD mit Ryzen AI Max+ bei Mobile gut aufgestellt? Verfolge den Mobilesektor nicht so.
2gFdidQzbXw
dildo4u
2025-01-28, 08:39:40
Das Ding wird als Workstation verkauft da man Nvidia überbieten kann was Vram Ausbau angeht.
Zum zocken macht es natürlich mehr Sinn eine alte CPU mit neuer Nvidia Karte zu kaufen da man die unter 2000€ bekommt.
Zen 3 plus 4070 1200€
https://geizhals.de/lenovo-loq-15arp9-83jc007xge-a3260129.html?v=l&hloc=at&hloc=de&hloc=eu&hloc=pl&hloc=uk
Strix Halo 2000$
https://rog.asus.com/us/laptops/rog-flow/rog-flow-z13-2025/spec/
MSABK
2025-01-28, 08:46:50
Die Preise sind auch wieder mal interessant. In den Usa kostet der Maximalausbau mit 128GB Ram $2700 und hier 32GB Ram 2500€.
dargo
2025-01-28, 09:27:17
Das Ding wird als Workstation verkauft da man Nvidia überbieten kann was Vram Ausbau angeht.
Zum zocken macht es natürlich mehr Sinn eine alte CPU mit neuer Nvidia Karte zu kaufen da man die unter 2000€ bekommt.
Zen 3 plus 4070 1200€
https://geizhals.de/lenovo-loq-15arp9-83jc007xge-a3260129.html?v=l&hloc=at&hloc=de&hloc=eu&hloc=pl&hloc=uk
Strix Halo 2000$
https://rog.asus.com/us/laptops/rog-flow/rog-flow-z13-2025/spec/
Da komme ich jetzt nicht ganz mit. Warum verlinkst du das Lenovo Ding wenn im Video die Rede von ROG Flow Z13 ist? :confused: Da finde ich nur das hier.
https://geizhals.de/asus-rog-flow-z13-gz301vv-mu001w-black-90nr0bh1-m000e0-a3061848.html
Und da ist nicht mal eine RTX 4070 drin. Also ich finde schon mal sollte Äpfel mit Äpfel vergleichen oder übersehe ich hier was?
dildo4u
2025-01-28, 09:52:13
Mein Punkt ist das Ding macht nur Sinn wenn das Gehäuse dich beim TDP beschränkt.
Schon 14 Zoll Geräte wie Asus G14 erlauben dir über 100 Watt für die GPU zu nutzen womit man für ein Vergleichbaren Preis zum 13 Flow mehr Performance bekommt.
dargo
2025-01-28, 10:45:04
Ah ok, mit den ganzen Powerlimits @Mobile kenne ich mich nicht aus.
vBulletin®, Copyright ©2000-2025, Jelsoft Enterprises Ltd.