TBDR: MultiSampling4free, aber wieso? [Archiv]

Neomi

2006-06-03, 22:58:22

Gratis ist das natürlich nicht, MSAA kostet immer noch ein paar Transistoren. Allerdings kostet es bei einem TBDR keine Speicherbandbreite mehr.

Der Pixelshader (bzw. das Fixed Function Setup) wird ja nur einmal pro Pixel ausgeführt bei MSAA, deshalb müssen natürlich die Texturen für mehrere Samples nich mehrfach gesampelt werden. Soweit ist alles beim alten. Während "herkömmliche" Renderer jetzt die Samples einzeln prüfen (innerhalb des Dreiecks, Z-Test, ...) und bei bestandener Prüfung mit dem einmal ermittelten Farbwert im Framebuffer vermerken, brauchen sie natürlich für jeden Sample ein wenig Speicherbandbreite. Die Samples müssen weiter vorgehalten werden, da das Endergebnis pro Sample erst zum Schluß (beim Downsampling) feststeht.

Ein TBDR berechnet ein Tile nach dem anderen, sobald sämtliche Zeichenanweisungen gesammelt wurden. Die einzelnen Samples werden in der GPU vorgehalten und am Ende der Berechnung des Tiles zu einem Pixelwert verschmolzen. Da keine einzelnen Samples in den Grafikspeicher wandern, wird nur Speicherbandbreite für einzelne Pixel benötigt. Da ein Pixel immer gleich groß ist (Speicherbedarf), egal wie viele Samples in ihm verschmolzen wurden, benötigt MSAA bei einem TBDR keine zusätzliche Speicherbandbreite.

Zusätzlich kann man auf die gleiche Art mit einem TBDR extrem hohe FSAA-Modi anbieten, die bei einem Immediate Renderer nicht mehr in den Speicher passen würden.

san.salvador

2006-06-03, 22:58:28

€dit: hat sich erledigt. :redface:

Gast

2006-06-04, 08:15:22

Danke schön.

ollix

2006-06-04, 10:38:44

Wieso boten die Kyros denn nur SuperSampling? :frown:

Wobei ja auch das ja IIRC auch (etwas) weniger Leistung gekostet hat, als auf anderen Architekturen.

mapel110

2006-06-04, 10:43:28

ollix[/POST]']Wieso boten die Kyros denn nur SuperSampling? :frown:

Wobei ja auch das ja IIRC auch (etwas) weniger Leistung gekostet hat, als auf anderen Architekturen.
Beim Kyro schlug das vielleicht nicht auf die Speicherbandbreite, aber enorm auf die Füllrate und die war bei dem Chip ohnehin immer sehr niedrig.
MSAA geht halt hauptsächlich auf die Speicherbandbreite und braucht wesentlich weniger Füllrate als SSAA.

The_Invisible

2006-06-04, 11:07:19

warum kommen eigentlich keine TBDR mehr raus bzw warum bieten nv und ati das nicht an? müsste man da die ganze chiparchitektur über den haufen werfen oder wie?

ein TBDR auf heutigen füllraten bzw speicherbandbreiten würde dann ja sicher doppelt so schnell sein bzw bei FSAA noch schneller. mich habe benchmarks wie diese ja immer beeindruckt (http://www.3dconcept.ch/reviews/3dprophet4500/15.htm) , vor allem bei hohen auflösungen.

mfg

mapel110

2006-06-04, 11:10:29

The_Invisible[/POST]']warum kommen eigentlich keine TBDR mehr raus bzw warum bieten nv und ati das nicht an? müsste man da die ganze chiparchitektur über den haufen werfen oder wie?

ein TBDR auf heutigen füllraten bzw speicherbandbreiten würde dann ja sicher doppelt so schnell sein bzw bei FSAA noch schneller. mich habe benchmarks wie diese ja immer beeindruckt (http://www.3dconcept.ch/reviews/3dprophet4500/15.htm) , vor allem bei hohen auflösungen.

mfg
Na Serious Sam war damals wohl auch das Spiel mit dem meisten Overdraw. Da rockt ein TBDR. Obendrein waren die bandbreitenschonenden Maßnahmen von ATI und nvidia damals nicht so dolle. Das ist heute ja auch anders.

Ailuros

2006-06-04, 11:19:38

ollix[/POST]']Wieso boten die Kyros denn nur SuperSampling? :frown:

Wobei ja auch das ja IIRC auch (etwas) weniger Leistung gekostet hat, als auf anderen Architekturen.

Weil es ein budget Design war der in 1999 zuerst vorgestellt wurde?

Ailuros

2006-06-04, 11:29:33

The_Invisible[/POST]']warum kommen eigentlich keine TBDR mehr raus bzw warum bieten nv und ati das nicht an? müsste man da die ganze chiparchitektur über den haufen werfen oder wie?

Frage: wieso was aendern wenn es auch anders geht und dazu mit einer Architektur wo ziemlich viel Erfahrung und Vorgeschichte drinsteckt? (siehe GeForce/Radeon).

IMG konzentriert sich in den letzten Jahren fast ausschliesslich auf den PDA/mobile Markt und dazu ziemlich erfolgreich.

ein TBDR auf heutigen füllraten bzw speicherbandbreiten würde dann ja sicher doppelt so schnell sein bzw bei FSAA noch schneller. mich habe benchmarks wie diese ja immer beeindruckt (http://www.3dconcept.ch/reviews/3dprophet4500/15.htm) , vor allem bei hohen auflösungen.

mfg

TBDRs sind keine Zauberkuenstler; es gibt natuerlich sowohl Vor- als auch Nachteile was die Architektur betrifft.

Damals war der Vergleich KYRO und GF MX als Beispiel; die wichtige Kleinigkeit ist hier aber dass seither IMRs einen Haufen an Bandbreiten-sparenden Optimierungen hinzugefuegt haben.

Natuerlich hat theoretisch ein TBDR sehr merkenswerte Vorteile mit alles was mit FSAA zu tun (und noch mehr kombiniert mit float HDR), was die Bandbreite und den Speicherverbrauch betrifft, aber fuer den PC und von ATI/NVIDIA erwarte ich da nichts dergleichen.

Mit einem Auge zugedrueckt koennte man Xenos irgendwie schon als einen quasi hybriden Tiler betrachten, aber es handelt sich nichtdestominder um einen Consolen-Design und von eDRAM sehe ich im desktop fuer die naechsten Jahre zumindest nichts.

Ailuros

2006-06-04, 11:38:49

mapel110[/POST]']Na Serious Sam war damals wohl auch das Spiel mit dem meisten Overdraw. Da rockt ein TBDR. Obendrein waren die bandbreitenschonenden Maßnahmen von ATI und nvidia damals nicht so dolle. Das ist heute ja auch anders.

Die Kyros zeigten aber auch nur Muskel in Serious Sam wenn Textur-Komprimierung aktiviert war.

Bandbreitenschonende Massnahmen auf heutigen GPUs erwaehnte ich ja schon, aber es gibt immer noch Vorteile die man TBDRs zuschneiden koennte ausserhalb early-Z und/oder hierarchical Z als Beispiel.

Da es um MSAA geht sollte mal jemand ausrechnen was nur 4x MSAA + 64bpp HDR in Bandbreite und Speicher in einer hohen Aufloesung rein theoretisch auf einem IMR und einem TBDR kosten wuerde. Hat jetzt der hypothetische Testfall noch MRTs im Paket kann es noch bunter werden.

haifisch1896

2006-06-04, 20:50:00

Aber bitte in Verbindung mit aktuelleren Taktraten á la 400/400 (sofern das nicht unwichtig ist).

loewe

2006-06-04, 20:54:01

The_Invisible[/POST]']warum kommen eigentlich keine TBDR mehr raus bzw warum bieten nv und ati das nicht an? müsste man da die ganze chiparchitektur über den haufen werfen oder wie?
Es wäre sicher ein nahezu vollkommener Wechsel der Chiparchitektur notwendig.
Bedenke, es wird einer der letzten Schritte der Grafikpipeline weit vorgezogen, "alle" Daten der Szene müssen zwischen gespeichert werden, usw.
Erschwerend kommt sicher noch hinzu, hier nicht mit Patenten von ImgTec zu kollidieren dürfte auch recht schwer werden.
Oder wie viele verschiedene Verfahren zum Speichern einer kompletten Szene fallen Dir so ein bzw. wie sieht es mit Verfahren für das HSR aus? :)

The_Invisible[/POST]']ein TBDR auf heutigen füllraten bzw speicherbandbreiten würde dann ja sicher doppelt so schnell sein bzw bei FSAA noch schneller. mich habe benchmarks wie diese ja immer beeindruckt (http://www.3dconcept.ch/reviews/3dprophet4500/15.htm) , vor allem bei hohen auflösungen.
mfg
Das wäre sicher etwa richtig, aber ob es jemanden gibt, der bereit ist einen TBDR mit solcher Leistung zu bauen, weiß ich nicht.
Ich rechne persönlich starkt mit intel, was den nächsten TBDR anbelangt, hier wird sicher ??? Bearlake (http://dailytech.com/article.aspx?newsid=2551) eine gewisse Rolle spielen.
Aber eine Grafik die die gleiche Leistung bei etwa der hälfte an Transistoren, Abwärme usw. bringt, wäre doch sicher auch schon nicht schlecht.

BTW, wenn Du "MSAA for free" suchst, kauf Dir ein Nokia N93. *g*

haifisch1896

2006-06-07, 20:42:04

loewe[/POST]']
Aber eine Grafik die die gleiche Leistung bei etwa der hälfte an Transistoren, Abwärme usw. bringt, wäre doch sicher auch schon nicht schlecht.

Da frage ich mich sowieso schon lange, warum sich da noch keiner der bekannten Hersteller drangewagt hat.
Dadurch hätten die doch auch eine wesentlich höhere Marge und bei gleichzeitig weniger Abwärme wären meines Erachtens nach auch viele Foren-User und halbwegs interessierte Leute nicht abgeneigt, sich eine solche Karte zuzulegen.

loewe

2006-06-08, 19:42:03

hendrikhey[/POST]']Da frage ich mich sowieso schon lange, warum sich da noch keiner der bekannten Hersteller drangewagt hat.
Dadurch hätten die doch auch eine wesentlich höhere Marge und bei gleichzeitig weniger Abwärme wären meines Erachtens nach auch viele Foren-User und halbwegs interessierte Leute nicht abgeneigt, sich eine solche Karte zuzulegen.
Einerseits gibt es zu den Grafikmonstern von ATI und NV (noch) keine Konkurrenz und warum sollten diese dann ihre gewohnten Pfade verlassen? Ihr habt sicher von den Aussagen zum Stromverbrauch von R600 und G80 gelesen, es geht scheinbar so weiter und die User werden es bezahlen, wenn sie eine highend Grafik wollen.

Andererseits gilt nach wie vor, die Effizienz der IMRs ist nicht besonders hoch, trotz aller Maßnahmen zum HSR und zur Bandbreitenschonung.

Die Effiziens von Serie 5 Hardware ist sicher etwa doppelt so hoch, ein PowerVR Chip bringt nach wie vor mehr als 95% der Füllrate auch auf den Schirm und das nahezu in jeder Situation. MBX ist hier nicht der Maßstab, das ist ein absolutes lowlevel Design, aber auch er kommt sehr dicht an diese Werte.

Um mal einen alten Slogan auf zu greifen: something wicked this way comes ;)

haifisch1896

2006-06-08, 20:43:05

Da wäre es dann ja XGI eigentlich klüger gewesen, wenn sie die IP von IMG Tec. gekauft hätten anstatt selbst teuer zu entwickeln. Aber so ist das Leben. Jeder muss seine eigenen Entscheidungen treffen, auch wenn man damit auf die Nase fällt.

ollix

2006-06-12, 15:19:40

Dazu die Leute, die immer gerne was nehmen, was nicht bloß von ATi und nVidia kommt (auch wenn Intel nicht unbedingt Außenseitersympathien hätte). Habe auch noch eine Kyro1 & Kyro2 und würde mir gerne ein aktuell Modell kaufen :)

Iwan

2006-06-12, 15:41:28

loewe[/POST]']
Erschwerend kommt sicher noch hinzu, hier nicht mit Patenten von ImgTec zu kollidieren dürfte auch recht schwer werden.

notfalls kann man imgtec einfach aufkaufen... so groß sind die ja nicht oder?

Ailuros

2006-06-13, 06:34:20

Iwan[/POST]']notfalls kann man imgtec einfach aufkaufen... so groß sind die ja nicht oder?

So "klein" nun auch wieder nicht:

http://www.imgtec.com/Investors/Presentations/Prelim06/index.asp?Slide=41

Fuer ATI/NVIDIA wuerde es ziemlich teuer werden; fuer Intel als Beispiel waere so ein Kauf um einiges leichter.

haifisch1896

2006-06-14, 00:33:25

Intel als größten Halbleiterchipfertiger der Welt mit ATI und nVidia zu vergleichen finde ich eigentlich sehr gewagt. Auch wenn es hier angemessen erscheint.
Gerade heute habe ich in der c´t die Umsatzzahlen des letzten Jahres gesehen. 5,8 Mrd. US-Dollar. Da kommt wohl so leicht keiner mit.

Xmas

2006-06-14, 01:06:00

5,8 Mrd. USD ist Intels Umsatz in acht Wochen. Ich glaube da hast du dich vertan.

Ailuros

2006-06-14, 06:48:33

hendrikhey[/POST]']Intel als größten Halbleiterchipfertiger der Welt mit ATI und nVidia zu vergleichen finde ich eigentlich sehr gewagt. Auch wenn es hier angemessen erscheint.
Gerade heute habe ich in der c´t die Umsatzzahlen des letzten Jahres gesehen. 5,8 Mrd. US-Dollar. Da kommt wohl so leicht keiner mit.

Es ging nicht um einen Vergleich sondern welcher Art von Firmen einen hypothetischen Aufkauf leicher erleiden koennten und da sind eben die grossen Semi Hersteller besser dran, wegen der gigantischen Umsaetze und Bargeld-Reserven.

ATI hat sich erst vor kurzem Bitboys OY gekauft. ~45 Angestellte fuer $50 Millionen wenn ich mich nicht irre und keine besonders nennenswerte IP Verkaeufe in den letzen Jahren.

Wenn Du schon vergleichen willst, dann versuch mal ~330 Angestellte, ca. 40 Partner (von denen 7 aus der Top 10 Liste der Semis), den bisherigen technologischen Vorsprung im PDA/mobile Markt, 70% des weltweiten DAB Markts, Aktien-Anteil in Frontier-Silicon (http://www.frontier-silicon.com/news/releases/060606/1mmtvics.htm ) usw usw. und versuch dann erst eine spekulative Rechnung auszurechnen.

Solch ein Batzen waere fuer ATI/NVIDIA IMHO zu gross; fuer einen grossen Semi wie Intel, Texas Instruments oder wen auch immer eben nicht.

***edit: ganz nebenbei (wie Xmas schon andeutete) der Umsatz von Intel fuer 2005 war ~$35.5 Milliarden; Samsung bei $17.2 Milliarden.

haifisch1896

2006-06-14, 19:03:25

Mist, ich hab mich echt vertippt. Sorry. Sollte 35,8 Mrd sein.

€: Den Umsatz hätte ich auch gern mal privat :-)

aths

2006-06-14, 19:49:29

loewe[/POST]']Einerseits gibt es zu den Grafikmonstern von ATI und NV (noch) keine Konkurrenz und warum sollten diese dann ihre gewohnten Pfade verlassen? Ihr habt sicher von den Aussagen zum Stromverbrauch von R600 und G80 gelesen, es geht scheinbar so weiter und die User werden es bezahlen, wenn sie eine highend Grafik wollen.

Andererseits gilt nach wie vor, die Effizienz der IMRs ist nicht besonders hoch, trotz aller Maßnahmen zum HSR und zur Bandbreitenschonung.

Die Effiziens von Serie 5 Hardware ist sicher etwa doppelt so hoch, ein PowerVR Chip bringt nach wie vor mehr als 95% der Füllrate auch auf den Schirm und das nahezu in jeder Situation. MBX ist hier nicht der Maßstab, das ist ein absolutes lowlevel Design, aber auch er kommt sehr dicht an diese Werte.

Um mal einen alten Slogan auf zu greifen: something wicked this way comes ;)Loewe, ich halte deine Darstellung für etwas zu optimistisch. ram hatte mal die Effizienz von einigen Architekturen ausgemessen und kam auf 11% für GeForce 2 Ultra, 25% für Voodoo und 40% für Kyro.

95% Füllrateneffizienz halte ich aus diversen Gründen für illusorisch, auch wenn die TBDR-Architektur inzwischen weiterentwickelt wurde. Zudem wird mir an der wichtigeren Frage vorbeidiskutiert: Es kommt imo darauf "was hinten rauskommt" – natürlich im Vergleich zum Stromverbrauch, der Abwärme, der Chipkosten, der Boardkosten etc. Wäre der TBDR tatsächlich so vorteilhaft, würden ATI und/oder Nvidia längst darauf setzen. Auch ohne TBDR-Effizienz kann man vergleichsweise günstig hohe Leistungswerte erzielen. Die Monster-Chips sind grundsätzlich ineffizient (schon durch die laufende CPU-Limitierung), kleinere Chips à la NV17 oder NV43 oder G73, oder, auf ATI-Seite z. B. RV350, bringen eine Menge sichtbare Leistung. Die Effizienz ist trotz Early-Z und diversen Optimierung am Speichercontroller noch immer weit unter dem eines TBDR – dafür bekommt man mehr Rohleistung pro Transistor.

Ohne dass du es direkt sagst, deine Postings wirken auf mich ob so als hätte PowerVR den Stein des Weisen gefunden.

Ailuros

2006-06-14, 22:38:05

aths[/POST]']
Ohne dass du es direkt sagst, deine Postings wirken auf mich ob so als hätte PowerVR den Stein des Weisen gefunden.

Nicht unbedingt IMHO. Zwischen meinen ueblichen Vereinfachungen hab ich schon oefters erwaehnt dass sich die Linien zwischen TBDRs und IMRs doch etwas verwischt haben durch die Jahre. IMRs verzoegern stets mehr wo immer es einfach nicht anders geht und TBDRs verzoegern auch nicht mehr immer alles.

IMG hat schon seit Jahren auf TBDR gesetzt und sie haben auch die dementsprechende Erfahrung angesammelt durch die Jahre. Fuer ATI/NVIDIA und ueberhaupt alle grossen IHVs ist es - alles andere beiseite - stets schwerer ein groesseres Risiko einzugehen und ein solches erwarte ich von diesen auch nicht so bald wenn ueberhaupt.

IMG konnte sich aus verstaendlichen Gruenden nie beweisen weil eben IP fuer den PC Markt nicht optimal ist; im Gegenteil im PDA/mobile Markt wo IP optimal ist, haben sie es bis jetzt geschafft jegliche kleine oder grosse Konkurrenz zu ueberwaeltigen. Wenn PowerVR 1M Polys/s angibt bei Taktrate X dann kann man diese auch erreichen, waehrend man auf anderen Loesungen immer noch nach einem Bruchteil der angegebenen Polys suchen muss.

Ein Wunderkind ist TBDR mit Sicherheit trotz allem nicht; ich bin immer noch neugierig wie sie einige negative Aspekte ab D3D10+1 bewaeltigen werden. Es gibt selbstverstaendlich auch hier Vor- und Nachteile. Mein "Glauben" was TBDR generell betrifft, haengt davon ab dass TBDRs eben gerade da Vorteile haben wo meine eigenen Bevorzugungen liegen.

StefanV

2006-06-14, 22:51:04

aths[/POST]'] Wäre der TBDR tatsächlich so vorteilhaft, würden ATI und/oder Nvidia längst darauf setzen.
Und warum sitzen wir dann hier an x86 Kompatiblen Rechnern und nicht Motorola 68k kompatiblen? :|

Letztere dürften wohl um einiges besser sein als so a x86 Dings....

Sorry, aber diese Aussage ist ziemlicher Mist, denn ob was besser ist oder nicht, ist so ziemlich egal, in einer Martwirtschaft...

Xmas

2006-06-14, 23:21:49

StefanV[/POST]']Letztere dürften wohl um einiges besser sein als so a x86 Dings....
Solche Aussagen sollte man auch ausführlich begründen können wenn sie nicht als Flame aufgefasst werden sollen.

haifisch1896

2006-06-15, 20:20:27

Und genau deswegen will ich wissen, was an denen so viel besser sein soll.

Ailuros

2006-06-16, 07:13:35

hendrikhey[/POST]']Und genau deswegen will ich wissen, was an denen so viel besser sein soll.

Es gibt mehrere threads in diesen (und anderen) Foren die sich mit den Vor- und Nachteilen von TBDRs beschaeftigt haben.

Hier nur ein Beispiel:

http://www.beyond3d.com/forum/showpost.php?p=49013&postcount=42

Mit floating point framebuffer haben die Dinger nennenswerte Vorteile. Ein Beispiel waere eben ganz einfach der Bandbreiten- und Speicher-Verbrauch bei MSAA+ float HDR Kombinationen.

loewe

2006-06-16, 16:53:13

aths[/POST]']Loewe, ich halte deine Darstellung für etwas zu optimistisch. ram hatte mal die Effizienz von einigen Architekturen ausgemessen und kam auf 11% für GeForce 2 Ultra, 25% für Voodoo und 40% für Kyro..
95% Füllrateneffizienz halte ich aus diversen Gründen für illusorisch, auch wenn die TBDR-Architektur inzwischen weiterentwickelt wurde.
Bisher hat jeder Chip oder Core von PowerVR diese 95% der theoretischen Füllrate auch praktisch gebracht. Natürlich geht das nur in Füllratentests, also unter Bedingungen wo auch wirklich nur die Füllrate entscheidend ist.
Jedes Pixel und auch jeder Texel werden in schlußendlich sichtbare Pixel umgesetzt. Sowohl der Tile Accelerator (TA) als auch der ISP (die HSR Einheit) limitieren eigentlich nie und sollte der Fall eintreten, dann mag die Szene sicher ein IMR auch nicht mehr. :) Wenn natürlich im TSP dann mehrere Pixel und Texel miteinander verrechnet werden müssen, geht die Leistung natürlich unter 100%, es werden aber eben nur die dort verarbeitet, die auch sichtbar sind, andere kommen dort nicht an.
Aber wie auch immer, ich weiß nicht was ram getestet hat, es bleibt nach wie vor die Aussage bestehen, die IMRs brauchen etwa die doppelte Leistung um das gleiche Ergebnis wie ein TBDR zu erreichen.
aths[/POST]']Zudem wird mir an der wichtigeren Frage vorbeidiskutiert: Es kommt imo darauf "was hinten rauskommt" – natürlich im Vergleich zum Stromverbrauch, der Abwärme, der Chipkosten, der Boardkosten etc. Wäre der TBDR tatsächlich so vorteilhaft, würden ATI und/oder Nvidia längst darauf setzen. Auch ohne TBDR-Effizienz kann man vergleichsweise günstig hohe Leistungswerte erzielen. Die Monster-Chips sind grundsätzlich ineffizient (schon durch die laufende CPU-Limitierung), kleinere Chips à la NV17 oder NV43 oder G73, oder, auf ATI-Seite z. B. RV350, bringen eine Menge sichtbare Leistung. Die Effizienz ist trotz Early-Z und diversen Optimierung am Speichercontroller noch immer weit unter dem eines TBDR – dafür bekommt man mehr Rohleistung pro Transistor.
Genau daran zweifle ich!
Ich bin sicher, ein TBDR bringt immer mehr Rohleistung pro Transistor.
Gegenwärtig beherrscht PowerVR mit ihren Grafik-Cores gerade den Bereich der Handheld Geräte. Warum verwenden wohl alle dort die Cores von PowerVR? Doch nur weil sie bei geringsten Stromverbrauch, Abwärme, Kosten usw. die größte Leistung bringen. Bisher haben sowohl ATI als auch NV dort nichts vergleichbares liefern können. Ein MBX mit 50 MHz liefert durchaus die gleiche Leistung wie ein Goforce 550 mit 200 MHz, über die Verhältnisse von Stromverbrauch und Abwärme brauchen wir hier gar nicht zu reden.

Ob nun ähnlich krasse Verhältnisse bei einem PC Design möglich sind, möchte ich eher bezweifeln, aber ein TBDR wird nicht mehr Transistoren brauchen als ein IMR und geringe Verlustleistungen die bei Handheld Cores möglich sind, sind sicher in angepasster Form auch bei PC Designs möglich.
Wir haben bisher noch keinen Highend TBDR gesehen, bisher ist noch keiner vorgestellt worden, möglich ist er sicher und ich denke mit Athena werden wir auch einen zu sehen bekommen.

aths[/POST]']Ohne dass du es direkt sagst, deine Postings wirken auf mich ob so als hätte PowerVR den Stein des Weisen gefunden.
Stein der Weisen, nein, aber das inteligenteste Design schon, davon bin ich überzeugt. :)

Gast

2006-06-16, 16:56:51

loewe[/POST]']Bisher hat jeder Chip oder Core von PowerVR diese 95% der theoretischen Füllrate auch praktisch gebracht. Natürlich geht das nur in Füllratentests, also unter Bedingungen wo auch wirklich nur die Füllrate entscheidend ist.

in theoretischen füllratentests schaffst du das aber mit einem aktuellen IMR auch locker ;)

loewe

2006-06-16, 16:57:30

Ailuros[/POST]']IMRs verzoegern stets mehr wo immer es einfach nicht anders geht und TBDRs verzoegern auch nicht mehr immer alles.
Wo oder was verzögern TBDRs nicht? :)

Ein PowerVR Chip ohne Displayliste ist nicht denkbar. Sicher ist der Aufbau heute etwas anders und die Speicherverwaltung komplizierter geworden, aber es geht immer alles über die Liste und damit "verzögert".

loewe

2006-06-16, 17:08:08

Gast[/POST]']in theoretischen füllratentests schaffst du das aber mit einem aktuellen IMR auch locker ;)

So locker sieht das gar nicht aus:

http://www.beyond3d.com/reviews/ati/r580/index.php?p=09

http://www.beyond3d.com/previews/nvidia/78512/index.php?p=04

Das läßt sich fortführen.

Gast

2006-06-16, 17:46:43

loewe[/POST]']So locker sieht das gar nicht aus:

http://www.beyond3d.com/reviews/ati/r580/index.php?p=09

http://www.beyond3d.com/previews/nvidia/78512/index.php?p=04

Das läßt sich fortführen.

in den theoretischen tests in denen nur die füllrate entscheidend ist (zitat von dir) liegen die karten ~5% unter ihrem theoretischen maximum, mehr schafft hier ein TBDR auch nicht.

überhaupt sehen DRs in typischen theoretischen tests nicht wirklich besser aus als IMRs mit gleicher rohleistung (es sei denn natürlich irgendein theoretischer test der extra darauf optimiert wurde die vorteile eines DR zu zeigen). erst in real-world-anwendungen können diese ihren vorteil ausspielen.

der große vorteil von TBDR ist ja der geringe bandbreitenverbrauch. heutzutage fehlt es aber in kritischen szenen meistens in erster linie an rohleistung, im gegensatz zur kyro2-zeit wo bandbreite das ein und alles war.

der trend geht auch weiter in diese richtung: mehr rechnen, viele rechentakte/pixel -> der output (framebuffer, z-buffer-writes) steigt kaum, während die anforderungen an die rechenleistung stark steigen.

ein TBDR kann aber die bandbreite auch nur auf output-seite einsparen, die benötigte bandbreite für den input (texturen etc.) bleibt gleich.

daraus kann man schließen dass ein hypotetischer TBDR immer weniger vorteile gegenüber einem gleichstarken IMR bringen wird, weshalb sich der aufwand wahrscheinlich bald nicht mehr lohnt.

dass es nicht so einfach ist einen TB-renderer zu bauen sieht man ja an der xbox360, welcher ja im prinzip ein tiler mit extrem viel lokalem cache ist. allerdings funktioniert das ja offenbar nicht ganz so gut.

Nerothos

2006-06-16, 18:12:03

Gast[/POST]']dass es nicht so einfach ist einen TB-renderer zu bauen sieht man ja an der xbox360, welcher ja im prinzip ein tiler mit extrem viel lokalem cache ist. allerdings funktioniert das ja offenbar nicht ganz so gut.
War der Xenos/C1 als TBDR geplant? Oder ist am Ende nur zufällig sowas ähnliches rausgekommen, was man einen Tiler schimpfen kann? Mir fehlt da das Fachwissen das zu beurteilen...

haifisch1896

2006-06-16, 21:49:05

Ailuros[/POST]']Es gibt mehrere threads in diesen (und anderen) Foren die sich mit den Vor- und Nachteilen von TBDRs beschaeftigt haben.

Hier nur ein Beispiel:

http://www.beyond3d.com/forum/showpost.php?p=49013&postcount=42

Mit floating point framebuffer haben die Dinger nennenswerte Vorteile. Ein Beispiel waere eben ganz einfach der Bandbreiten- und Speicher-Verbrauch bei MSAA+ float HDR Kombinationen.

Es ging mir dabei um den Motorola 68k. Die Vorzüge der TBDRs sind mir bekannt.

robbitop

2006-06-16, 21:59:53

hendrikhey[/POST]']Da wäre es dann ja XGI eigentlich klüger gewesen, wenn sie die IP von IMG Tec. gekauft hätten anstatt selbst teuer zu entwickeln.
Hat XGI denn selbst etwas entwickelt? Der XG40 war der SiS340, der V3 war der Trident XP5, der XG45 ist das SiS345 Design. Ok das hat man noch zuende entwickelt, war aber anscheinend so schlecht, dass es über den Prototypenstatus nie hinauskam.

robbitop

2006-06-16, 22:25:55

Nerothos[/POST]']War der Xenos/C1 als TBDR geplant? Oder ist am Ende nur zufällig sowas ähnliches rausgekommen, was man einen Tiler schimpfen kann? Mir fehlt da das Fachwissen das zu beurteilen...
Iwo, das Teil ist ein IMR. Lediglich die Nutzung eines Z-Firstpasses und die Nutzung des eDRAMs als einen Teil-Framebuffer machen es im weitesten Sinne "ähnlich". Aber m.E. ist das im engeren Sinne überhaupt nicht ähnlich.

Gast

2006-06-16, 22:33:46

hendrikhey[/POST]']Mist, ich hab mich echt vertippt. Sorry. Sollte 35,8 Mrd sein.

€: Den Umsatz hätte ich auch gern mal privat :-)

Kein Problem: Brauchst nur ~25k ansparen, dir zwei Konten mit Gratis-Online-Banking einrichten, einen Container voll TANs besorgen und 24/7 das Geld hin- und herüberweisen (bei ca. 20 Sek. für eine Überweisung).

Ich glaube, du hättest lieber ein Promille von Intels Gewinn als diesen Aufwand. ;)

On-Topic: For free ist MSAA auf auf TBDR nicht. Du musst den Chip entsprechend auslegen und die Tile-Size anpassen - du kannst quasi entweder 32*32-Tiles ohne AA rendern oder eben 8*8-Tiles mit AA - zumindest, wenn der Chip sinnvoll ausgelegt ist und nicht seine maximale Pixelleistung zugunsten von AA beschneidet.

robbitop

2006-06-16, 22:46:01

Gast[/POST]']On-Topic: For free ist MSAA auf auf TBDR nicht. Du musst den Chip entsprechend auslegen und die Tile-Size anpassen - du kannst quasi entweder 32*32-Tiles ohne AA rendern oder eben 8*8-Tiles mit AA - zumindest, wenn der Chip sinnvoll ausgelegt ist und nicht seine maximale Pixelleistung zugunsten von AA beschneidet.
Den Zusammenhang hätte ich gerne erklärt bekommen, wenn es dir nichts ausmacht. :)

Nerothos

2006-06-16, 23:04:14

robbitop[/POST]']Iwo, das Teil ist ein IMR. Lediglich die Nutzung eines Z-Firstpasses und die Nutzung des eDRAMs als einen Teil-Framebuffer machen es im weitesten Sinne "ähnlich". Aber m.E. ist das im engeren Sinne überhaupt nicht ähnlich.
Danke für die Erklärung :)

Hätte sich auch irgendwie gebissen, wenn hier gesagt wurde, dass weder ATI noch NVidia TBDRs entwickeln, aber Xenos ein solcher sein soll (wenn auch nur im weiteren Sinne).

Gast

2006-06-16, 23:05:25

loewe[/POST]'][...]Handheld Geräte. Warum verwenden wohl alle dort die Cores von PowerVR? Doch nur weil sie bei geringsten Stromverbrauch, Abwärme, Kosten usw. die größte Leistung bringen. Bisher haben sowohl ATI als auch NV dort nichts vergleichbares liefern können. Ein MBX mit 50 MHz liefert durchaus die gleiche Leistung wie ein Goforce 550 mit 200 MHz, über die Verhältnisse von Stromverbrauch und Abwärme brauchen wir hier gar nicht zu reden.
Warum nicht? Wie schauen die Verhältnisse denn aus? Wie groß sind die jeweiligen Chips, welche Features bieten sie und wie schaut's mit deren Integration in Entwicklungsumgebungen aus?

Das sollten doch wohl interessantere Kenngrößen sein, als diese veraltete MHz-Angabe.

Gast

2006-06-16, 23:07:59

Gast

2006-06-16, 23:11:50

robbitop[/POST]']Den Zusammenhang hätte ich gerne erklärt bekommen, wenn es dir nichts ausmacht. :)
Nun, wenn du AA machen willst, brauchst du extra-Schaltkreise. Wenn du's nicht machen willst, kannst du darauf verzichten und den Chip entweder günstiger und/oder schneller machen (taktmäßig). "For Free" ist eine urbane Legende.

Gast

2006-06-16, 23:12:15

robbitop[/POST]']Den Zusammenhang hätte ich gerne erklärt bekommen, wenn es dir nichts ausmacht. :)

naja, in einem TB-renderer braucht man auf jeden fall einen internen cache der das tile speichert.

wenn man FSAA verwendet brauch man logischerweise mehr tiles, und pro tile fällt ein gewisser verwaltungsaufwand an, wenn polygone von einem tile abgeschnitten werden müssen diese erneut transformiert und durch das tri-setup etc.

Gast

2006-06-16, 23:13:11

Gast[/POST]']klar ist es ein IMR, aber (zumindest mit FSAA) ein TBIMR
So ist's. Da die Tiles zeitversetzt gerendert werden (müssen), sogar ein TBDIMR - auch wenn das schon beinahe ein begriffliches Paradoxon ist.

robbitop

2006-06-16, 23:42:20

Gast[/POST]']naja, in einem TB-renderer braucht man auf jeden fall einen internen cache der das tile speichert.
Das ist mir klar.

Gast[/POST]']
wenn man FSAA verwendet brauch man logischerweise mehr tiles
Wie sicher bist du dir da? Ich ging immer davon aus, dass die Tile Size so wie die Quadbatch size fest ist. Der Cache aber groß genug für ein Worst-Case Fall ist. Letztendlich müssen ja eh nur 32^2 * 4 Samples *24 bit an Z-Werten dort hinein. Aber ich bin mir dahingehend sehr unsicher

Gast[/POST]']
, und pro tile fällt ein gewisser verwaltungsaufwand an, wenn polygone von einem tile abgeschnitten werden müssen diese erneut transformiert und durch das tri-setup etc.
Das klingt ineffizient. Die sollten transformiert in den Vertexbuffern vorliegen. Gerade ohne TnL Unit wäre das beim Kyro verheerend gewesen, da dann die CPU ständig hätte neu rechnen müssen und es ständig readbacks (was beim AGP nicht sonderlich toll wäre) gegeben hätte. Bist du dir sicher?

Gast

2006-06-16, 23:49:57

Gast

2006-06-17, 00:13:27

robbitop[/POST]']
Wie sicher bist du dir da? Ich ging immer davon aus, dass die Tile Size so wie die Quadbatch size fest ist. Der Cache aber groß genug für ein Worst-Case Fall ist. Letztendlich müssen ja eh nur 32^2 * 4 Samples *24 bit an Z-Werten dort hinein. Aber ich bin mir dahingehend sehr unsicher

dann verschwendest du aber ohne FSAA cache-speicher (ok du könntest einen unified-cache haben und den dann für texturen etc. verwenden, dann sinkt aber die hitrate mit FSAA und es ist dementsprechend nicht mehr for free)

je mehr tiles du für eine szene brauchst, desto ineffizienter wird das ganze, idealerweise wäre die ganze szene "1 tile" das komplett in einen ausreichend schnellen, gpu-nahen speicher passt. der "umweg" über tiles ist ja nur eine hilfsmaßnahme weil man nicht ausreichend große caches bauen kann (bzw. dann wieder sehr ineffizient, was die leistung/transistor angeht wäre)

die möglichkeit ausreichend große caches für das ganze teil mit MSAA zu verbauen, diese aber ohne MSAA nicht auszunutzen besteht zwar, wäre aber doch eher blöd.

mit diesem ansatz wäre sogar eine GPU die SSAA "for free" anbietet möglich.
man baue einfach eine GPU mit 16 pipelines und 256bit speicherinterface, die aber erst mit 4xSSAA genutzt werden. ohne SSAA kommen nur 4 pipelines und 64bit des speicherinterfaces zum einsatz, und schon hat man 4xSSAA "for free" ;)

das ist natürlich ein extremes beispiel, aber man kann immer sagen ein feature ist "for free" wenn man ohne dieses große teile der transistoren garnicht nutzt.

robbitop

2006-06-17, 02:16:02

For free ist MSAA damit sicher auch nicht, aber bedeutend günstiger sicherlich.
Ich denke, es wäre trotz "Verschwendung" kein Problem einen 32^2 Tilecache zu bauen, der sagen wir 8xMultisampling pro Tile zulässt. Das wären nämlich nur läppische 24kiB (bei 24 bit pro Z-Wert). Das ist nicht so viel, wenn man heutige Cachegrößen in GPUs betrachtet. Da MSAA ja heutzutage beim Benchmarking sowieso exzessiv genutzt wird, wäre diese Designentscheidung sogar sinnvoll. Und außerdem ließe sich 1-t SRAM auch ziemlich gut packen. Im Bereich von ~400 Mio Transitor GPUs (Tendenz steigend) wäre das nicht wirklich schlimm.

Wie steht es eigentlich nun mit der Transformation? Das wäre doch hoffentlich vor dem Tiling, so dass die relevanten Vertices schon transformiert in den Vertexbuffern vorliegen, so dass man nicht jedes Tile neue Transformation bräuchte.

Ailuros

2006-06-17, 06:28:10

Wenn es um Speicherverbrauch mit MSAA geht, dann duerfte tatsaechlich die Anzahl der Tiles mit benutztem MSAA wachsen; der Speicherverbrauch ist trotzdem alles zusammengerechnet immer noch um einiges kleiner als auf einem IMR.

Ich hab das Gefuehl dass wenn man sogar einen extremen Fall von Speicherverbrauch fuer Parameter-Speicherungen mitberechnet die Dinger immer noch einen Vorteil haben.

8x MSAA duerfte theoretisch auch auf Serie5 moeglich sein, aber "for free" wuerde ich es nicht erwarten. AFAIK kann das Ding auch nicht mehr als 2xAA samples pro Takt.

Die Anzahl der Z/stencil Einheiten duerfte auch hier schon ziemlich hoch sein. Ich wuerde schaetzen dass man theoretisch mehr davon brauchen wuerde fuer hoehere Sample-anzahlen, was dann aber auch wieder in Transistoren kostet.

Ailuros

2006-06-17, 06:33:46

loewe[/POST]']Wo oder was verzögern TBDRs nicht? :)

Ein PowerVR Chip ohne Displayliste ist nicht denkbar. Sicher ist der Aufbau heute etwas anders und die Speicherverwaltung komplizierter geworden, aber es geht immer alles über die Liste und damit "verzögert".

Ausnahmen und "Notfaelle" gab es schon auf der KYRO.

robbitop

2006-06-17, 08:55:58

Du klingst oftmals so, als würden ROPs schnell dazu neigen, zum Flaschenhals zu werden.
Eine ROP kann pro Takt einen Pixel raushauen (Farbe + Z oder Stencil), Z-Only sogar oftmals 2. Das ist ja klar. Aber einen Pixel zu Filtern und zu Shaden dauert eher >10 Takte. Bei Spielen mit aufwändigen Shadern vermutlich sogar eine Größenordnung mehr. Hier sieht man schon, dass das idR nicht limitieren kann.
NV43 mit "nur" 4 ROPs:
Das Ding kann 2.000 MPix/sek rendern. Das bedeutet bei sagen wir 1280x1024 (1,3 MPix). Das sind grob 1.500fps, wenn die ROP zum Flaschenhals würde. Mit 4xAA (2xAA können die meisten ROPs ja pro Takt) wären es "nur" noch 750fps. Da bleibt mehr als genug für First-Z und Stencilling und sogar höhere Auflösung. Der aritmetische und der texturierungsteil limitieren hier deutlich eher als die ROPs. Im Worst Case Szenario Doom 3 schlug sich NV43 trotz nur 4 ROPs nicht schlechter als eine NV41 mit IIRC mit 12-16 ROPs.

Vieleicht liege ich ja auch daneben, dann korrigiere mich bitte. :)

Gast

2006-06-17, 09:18:09

robbitop[/POST]'] Im Worst Case Szenario Doom 3 schlug sich NV43 trotz nur 4 ROPs nicht schlechter als eine NV41 mit IIRC mit 12-16 ROPs.

Im Wesentlichen stimmt das schon - aber die meisten Doom3-Tests waren kein Worst-Case Szenario. einfach aus dem Grunde, dass dort fast immer auch ein AF-Anteil mit im Spiel war, der die Last zu Teilen wieder in die TMU schob.

Aber auch sonst lag die 6600GT am ehesten auf dem Niveau der deutlich schwächeren 6800 LE.

robbitop

2006-06-17, 09:43:15

Rein rechnerisch limitieren die Dinge IMO so gut wie nie. Selbst mit exzessivem Blending, Z-First und Stenciling (exzessiv ist gut, maximal ist das Bild dann dunkel ^^). Sicherlich ließe sich ein Szenario mit geringer Pixellast entwerfen/programmieren und dazu mit 4xAA und NoAF (wie sinnvoll) ablaufen.

Gast

2006-06-17, 11:47:41

robbitop[/POST]']
Ich denke, es wäre trotz "Verschwendung" kein Problem einen 32^2 Tilecache zu bauen, der sagen wir 8xMultisampling pro Tile zulässt. Das wären nämlich nur läppische 24kiB (bei 24 bit pro Z-Wert). Das ist nicht so viel, wenn man heutige Cachegrößen in GPUs betrachtet.

klar wäre es möglich, aber man wäre blöd wenn man z.b. cache für 32x32@9xFSAA hätte ohne FSAA nicht 96x96 große tiles zu verwenden.

was hohe AA-levels angeht sind tiler natürlich immer noch in großem vorteil, vor allem da man auch extern deutlich weniger speicher braucht.

btw: wenn wir von 32x32@9xFSAA mit FP16-HDR ausgehen ist der benötigte cache garnicht mal mehr so klein: macht immerhin 72kiB für den framebuffer und 36kiB für den Z-buffer.
wenn man in betracht zieht dass heutige GPUs angeblich nur "a few kiB" an cache besitzen ist die steigerung nicht mal so gering.

wenn wir von üblichen 6 transistoren/bit bei SRAM ausgehen, sind es allerdings nur ~5,3Mio. für den tile-cache, ich denke bei 300+Mio. transistoren ist das zu verschmerzen ;)

robbitop

2006-06-17, 12:29:30

Äh der Colorbuffer wird natürlich nicht im Cache gespeichert.
Heutige GPUs haben deutlich mehr an Cache als 24kiB (ich glaube das geht in Richtung Faktor >10).
Soweit ich den TBDR verstanden habe, wird das "nächste Bild" (ein Bild verzögerung) pro Tile in den Cache gerendert. Allerdings das ganze "only-Z". Das kann so ein TBDR ziemlich flott, da ein Zixel nur einen Takt kostet und IIRC der Kyro schon 32x Zixel pro Takt in den Z Cache schreiben konnte. Ist der Z Buffer fertig gerendert, ist natürlich nur das im Z - Buffer, was auch zu sehen ist (dank Early Z spart man sogar hier noch ein wenig). Nun müssen nur noch die Farbwerte vom Pixelteil im nächsten Bild berechnet werden. Es gibt also im Lokalen VRAM nur den Colorbuffer und keinen Z-Buffer mehr, weil es nicht nötig ist. Das spart nebenbei auch Bandbreite.
Und FP16 Blending und HDR-R bedeutet für den Z Buffer IIRC keine Erhöhung der Genauigkeit, das gilt nur für den Colorbuffer.

6 Transistoren pro SRAM Zelle? Die Semis nutzen doch inzwischen schon 1-T SRAM. Oder nicht?

loewe

2006-06-17, 20:25:34

Gast[/POST]']Warum nicht? Wie schauen die Verhältnisse denn aus? Wie groß sind die jeweiligen Chips, welche Features bieten sie und wie schaut's mit deren Integration in Entwicklungsumgebungen aus?

Der GoForce 5500 ist ein seperater Chip, GoForce 5500 (http://www.nvidia.com/page/pg_20060207466624.html).

MBX ist ein Grafikkern von PowerVR, der z.B. unter anderen im OMAP2 von TI verwendet wird,
MBX von PowerVR (http://www.imgtec.com/powervr/products/Graphics/MBX/index.asp?Page=1).

Also der MBX inklusive VGP besteht aus 870K Gates, genaue Transistoranzahl ist nicht bekannt (1 Gate = 4-6 Transistoren ???) und enthält dabei 22k embedded RAM und den VGP.
Üblich verbraucht der MBX bei 50 MHz etwa 75 mW, maximal ist er bei 180 mW angegeben.

Der GoForce enthält neben der Lokig noch 640K embedded RAM und ich habe gehört, er verbraucht etwa 300 mW.

Sowohl NV als auch PowerVR haben entsprechende SDKs, sollte also kein Problem sein.

Gast

2006-06-17, 20:36:30

robbitop[/POST]']
Soweit ich den TBDR verstanden habe, wird das "nächste Bild" (ein Bild verzögerung) pro Tile in den Cache gerendert. Allerdings das ganze "only-Z". Das kann so ein TBDR ziemlich flott, da ein Zixel nur einen Takt kostet und IIRC der Kyro schon 32x Zixel pro Takt in den Z Cache schreiben konnte. Ist der Z Buffer fertig gerendert, ist natürlich nur das im Z - Buffer, was auch zu sehen ist (dank Early Z spart man sogar hier noch ein wenig). Nun müssen nur noch die Farbwerte vom Pixelteil im nächsten Bild berechnet werden. Es gibt also im Lokalen VRAM nur den Colorbuffer und keinen Z-Buffer mehr, weil es nicht nötig ist. Das spart nebenbei auch Bandbreite.
Und FP16 Blending und HDR-R bedeutet für den Z Buffer IIRC keine Erhöhung der Genauigkeit, das gilt nur für den Colorbuffer.

gerade wenn du hohe MSAA-stufen verwendest solltest du aber tunlichst auch den color-buffer in den cache rendern, sonst würdest du ja einen großen vorteil des TB-renderers einfach über board werfen (es braucht nur jeder pixel in den VRAM geschrieben werden, nicht jeder subpixel, spart lokalen VRAM und bandbreite)

haifisch1896

2006-06-17, 20:56:49

Gab es eigentlich außer von PowerVR auch noch andere TBDR´s? Denn dann sollte man auch deren Architektur vielleicht etwas näher beleuchten. Fände ich zumindest interessant.
Meinetwegen auch in einem seperaten Thread.

loewe

2006-06-17, 21:16:20

Gast[/POST]']der große vorteil von TBDR ist ja der geringe bandbreitenverbrauch. heutzutage fehlt es aber in kritischen szenen meistens in erster linie an rohleistung, im gegensatz zur kyro2-zeit wo bandbreite das ein und alles war.

der trend geht auch weiter in diese richtung: mehr rechnen, viele rechentakte/pixel -> der output (framebuffer, z-buffer-writes) steigt kaum, während die anforderungen an die rechenleistung stark steigen.

ein TBDR kann aber die bandbreite auch nur auf output-seite einsparen, die benötigte bandbreite für den input (texturen etc.) bleibt gleich.

daraus kann man schließen dass ein hypotetischer TBDR immer weniger vorteile gegenüber einem gleichstarken IMR bringen wird, weshalb sich der aufwand wahrscheinlich bald nicht mehr lohnt.
Man kann einen TBDR und hier erst einmal nur die von PowerVR, andere sind mir nicht bekannt, nicht nur auf den Bandbreitenvorteil reduzieren.
Sicher werden durch den TA alle Dreiecke und für das Rendern der Szene notwendigen Informationen in Displaylisten gesammelt. Der TA nimmt hier aber nur die Daten der Obejekte auf, die wirklich in der Szene zur Darstellung kommen, sprich alle Dreiecke die geclippt werden, alle Dreiecke die die Rückseite zeigen und alle Dreiecke, die kleiner als ein Pixel sind, sind überhaupt nicht in der Liste enthalten. Die Liste enthält damit typisch nicht einmal 50% aller Dreiecke. Weiter werden auch in den neueren Implementationen ganze Objekte durch ein z-Range Verfahren gleich verworfen, wenn klar ist, dass sie durch andere schon vorhandene Dreiecke vollständig für das entsprechende Tile verdeckt werden.
Diese Dreiecke gehen dan zum ISP, wo das HSR erfolgt und eindeutig festgelegt wird, welches Pixel durch welches Dreiecke oder welche Dreiecke, sollte es denn durchsichtige geben, dargestellt wird. Hier fällt noch einmal ein gerüttelt Maß an Informationen weg, so dass der TSP für das Auflegen der Texturen wirklich nur die Dreiecke erhält, die dann wirklich dargestellt werden. Die Textureinheit des TBDR hat somit sehr viel weniger Arbeit.

Sicher geht der Trend in Richtung mehr Rechnen, es wird also immer mehr davon abhängen wie gut die Shader-Einheiten sind.
Bei einem unified Shader Modell wie wir es ja von PowerVR mit Serie 5 sehen werden, sollte das dann recht interessant werden. Ich denke es müßte doch zu etwas stabileren Frameraten kommen bei einem TBDR, da VS und PS jeweils an verschiedenen Frames arbeiten.

Gast[/POST]']
dass es nicht so einfach ist einen TB-renderer zu bauen sieht man ja an der xbox360, welcher ja im prinzip ein tiler mit extrem viel lokalem cache ist. allerdings funktioniert das ja offenbar nicht ganz so gut.
Der xbox Chip ist kein TBDR.

Gast

2006-06-17, 21:44:48

loewe[/POST]']

Der xbox Chip ist kein TBDR.

nö, aber ein TBIMR (zumindest mit FSAA)

Ailuros

2006-06-18, 02:31:15

Gast[/POST]']Warum nicht? Wie schauen die Verhältnisse denn aus? Wie groß sind die jeweiligen Chips, welche Features bieten sie und wie schaut's mit deren Integration in Entwicklungsumgebungen aus?

Das sollten doch wohl interessantere Kenngrößen sein, als diese veraltete MHz-Angabe.

300mW@200MHz ohne den Speicher fuer den GoForce5500. Kein Schimmer von FSAA, keine Geometrie-Einheit und man nennt register combiners "pixel shader" was der Geier weiss zu was das Ganze gut sein soll. Eigentlich ein 4800 mit hoeherer Frequenz der sich aber in Echtzeit verdammt Fuellraten-limitiert anzeigt. Wenn Stromverbrauch und Taktrate so unabhaengig waeren wuerden heutige high end GPUs mit weit hoeheren Taktraten veroeffentlicht werden.

Ailuros

2006-06-18, 02:34:06

Gast[/POST]']nö, aber ein TBIMR (zumindest mit FSAA)

Welche Radeon ist denn heutzutage nicht tile based in diesem Sinn? Die viewports/macro tiles die man theoretisch auf Xenos benutzen kann um 4xMSAA in die 10MB eDRAM reinquetschen zu koennen, sind zwar eine Loesung aber ein TBDR behandelt beim tiling Geometrie doch effizienter am Ende.

Die Frage ist dann eher ob und wie oft (und eventuell warum) Entwickler in der Zukunft MSAA gebrauchen werden auf Xenos.

Xmas

2006-06-18, 05:12:17

Gast[/POST]']wenn polygone von einem tile abgeschnitten werden müssen diese erneut transformiert und durch das tri-setup etc.
Erneut transformiert werden müssen sie sicher nicht, sonst hätte es wohl nie TBDR ohne Hardware T&L gegeben.

robbitop[/POST]']Äh der Colorbuffer wird natürlich nicht im Cache gespeichert.
Selbstverständlich wird er das (allerdings ist es nicht derselbe "Cache").

loewe[/POST]']Bei einem unified Shader Modell wie wir es ja von PowerVR mit Serie 5 sehen werden, sollte das dann recht interessant werden. Ich denke es müßte doch zu etwas stabileren Frameraten kommen bei einem TBDR, da VS und PS jeweils an verschiedenen Frames arbeiten.
Ich glaube nicht dass es eine große Rolle spielt von welchen Frames die PS- und VS-Threads kommen.

robbitop

2006-06-18, 10:54:52

Xmas[/POST]']Selbstverständlich wird er das (allerdings ist es nicht derselbe "Cache").

Natürlich nicht im Selben, weil der Colorbuffer ja erst im aktuellen Frame entsteht. Beim IMR wird der Colorbuffer ja auch in tiles gerender IIRC und das muss in einen Cache, damit die bursts groß genug sind. Sollte doch hier genauso sein, oder irre ich mich?

Ailuros

2006-06-18, 11:40:42

http://v3.espacenet.com/textdoc?DB=EPODOC&IDX=US2006114261&F=0

robbitop

2006-06-18, 12:17:11

Hm das beantwortet meine Frage leider kein bisschen X-D

Ailuros

2006-06-18, 12:45:26

robbitop[/POST]']Hm das beantwortet meine Frage leider kein bisschen X-D

Falls Du das obere Patent meinst, war es nur ein weitere (Patent-komplizierte) Erlaeuterung wie Parameter in etwa auf einem heutigen TBDR behandelt werden koennen.

Small object culling (ergo Verwerfung aller Dreiecke die kleiner als ein Pixel sind die Loewe oben erwaehnte) gab es z.B. afaik in Serie3 erstmal nicht.

robbitop

2006-06-18, 13:39:21

Interessant, dass sich die TBDRs auch weiterentwickeln.

Xmas

2006-06-18, 15:05:46

robbitop[/POST]']Natürlich nicht im Selben, weil der Colorbuffer ja erst im aktuellen Frame entsteht. Beim IMR wird der Colorbuffer ja auch in tiles gerender IIRC und das muss in einen Cache, damit die bursts groß genug sind. Sollte doch hier genauso sein, oder irre ich mich?
Die Tiles bei einem IMR sind allerdings ungleich kleiner und werden hauptsächlich zur Framebufferkompression benötigt. Und es ging ja um die Größe des "Cache" (welcher im Falle des Z-Buffers in den allermeisten Fällen gar kein Cache ist) und dass es nicht so einfach ist die Tilegröße zu erhohen.

Gast

2006-06-18, 16:50:30

Ailuros[/POST]']Welche Radeon ist denn heutzutage nicht tile based in diesem Sinn? Die viewports/macro tiles die man theoretisch auf Xenos benutzen kann um 4xMSAA in die 10MB eDRAM reinquetschen zu koennen, sind zwar eine Loesung aber ein TBDR behandelt beim tiling Geometrie doch effizienter am Ende.

Die Frage ist dann eher ob und wie oft (und eventuell warum) Entwickler in der Zukunft MSAA gebrauchen werden auf Xenos.

man sollte mal das TB und das DR trennen, denn ein tile-based renderer muss nicht deffered rendern, genauso wie ein IMR unter umständen tile-based rendern kann.

loewe

2006-06-18, 17:48:59

robbitop[/POST]']Interessant, dass sich die TBDRs auch weiterentwickeln.

Das war jetzt nicht wirklich ernst gemeint, oder???

PowerVR und nicht die TBDRs, gegenwärtig ist mir nichts anderes auf dem gebiet bekannt, hat die Entwicklung im highend Bereich niemals eingestellt.

@AiL
Das Patent ist nur ein Neuauflage eines alten Patentes aus 2003.

Ich denke das Small object culling bei PowerVR gibt es schon immer, wurde früher nur nicht drüber gesprochen.

haifisch1896

2006-06-18, 20:17:55

Dann wäre es klasse wenn sie auch einen Partner finden würden, der High-End-TBDR für Desktop-PC fertigt.

Ailuros

2006-06-19, 06:30:14

Gast[/POST]']man sollte mal das TB und das DR trennen, denn ein tile-based renderer muss nicht deffered rendern, genauso wie ein IMR unter umständen tile-based rendern kann.

TBDRs gibt es sowieso nur von IMG, der Rest sind alle IMRs und in der Mehrzahl (zumindest teilweise) tile-based.

Ein IMR uebrigens bearbeitet auch nicht streng alles sofort so wie es reinfliesst. Noch mehr wenn early-Z ins Spiel kommt.

@AiL
Das Patent ist nur ein Neuauflage eines alten Patentes aus 2003.

Das ist mir schon klar; nur die Z-range Optimierung scheint neu zu sein.

Ich denke das Small object culling bei PowerVR gibt es schon immer, wurde früher nur nicht drüber gesprochen.

So sicher bin ich mir nicht; ausser man hat damals meine Frage falsch verstanden.