NVIDIA’s RTX 3000-serie GPU’s: dit is wat er nieuw is

RTX 3080 GPU
NVIDIA

Op 1 september 2020 onthulde NVIDIA zijn nieuwe line-up van gaming-GPU’s: de RTX 3000-serie, gebaseerd op hun Ampere-architectuur. We zullen bespreken wat er nieuw is, de AI-aangedreven software die erbij wordt geleverd en alle details die deze generatie echt geweldig maken.

Maak kennis met de GPU’s uit de RTX 3000-serie

RTX 3000 GPU-opstelling
NVIDIA

De belangrijkste aankondiging van NVIDIA was de glimmende nieuwe GPU’s, allemaal gebouwd op een aangepast 8 nm-productieproces, en die allemaal grote versnellingen opleveren in zowel rasterisatie als ray-tracing-prestaties.

Aan de onderkant van de line-up is er de RTX 3070, die $ 499 kost. Het is een beetje duur voor de goedkoopste kaart die door NVIDIA bij de eerste aankondiging werd onthuld, maar het is een absoluut koopje als je eenmaal ontdekt dat het de bestaande RTX 2080 Ti verslaat, een topkaart die regelmatig verkocht werd voor meer dan $ 1400. Na de aankondiging van NVIDIA daalde de prijs van de verkoop door derden, waarbij een groot aantal van hen in paniek werd verkocht op eBay voor minder dan $ 600.

Vanaf de aankondiging zijn er geen solide benchmarks, dus het is onduidelijk of de kaart dat wel is werkelijk objectief ‘beter’ dan een 2080 Ti, of als NVIDIA de marketing een beetje verdraait. De benchmarks die werden uitgevoerd waren op 4K en hadden waarschijnlijk RTX ingeschakeld, waardoor de kloof groter kan lijken dan in puur gerasterde games, aangezien de op Ampere gebaseerde 3000-serie meer dan twee keer zo goed presteert bij ray tracing dan Turing. Maar nu ray tracing iets is dat de prestaties niet veel schaadt en wordt ondersteund in de nieuwste generatie consoles, is het een belangrijk verkoopargument om het voor bijna een derde van de prijs zo snel te laten werken als het vlaggenschip van de vorige generatie.

Het is ook onduidelijk of de prijs zo blijft. Ontwerpen van derden voegen regelmatig ten minste $ 50 toe aan het prijskaartje, en met hoe groot de vraag waarschijnlijk zal zijn, zal het niet verrassend zijn dat het in oktober 2020 voor $ 600 wordt verkocht.

Net daarboven is de RTX 3080 voor $ 699, wat twee keer zo snel zou moeten zijn als de RTX 2080, en ongeveer 25-30% sneller zou zijn dan de 3080.

Aan de bovenkant is het nieuwe vlaggenschip de RTX 3090, die komisch enorm is. NVIDIA is zich terdege bewust en noemde het een ‘BFGPU’, waarvan het bedrijf zegt dat het staat voor ‘Big Ferocious GPU’.

RTX 3090 GPU
NVIDIA

NVIDIA liet geen directe prestatiestatistieken zien, maar het bedrijf liet zien dat het 8K-games met 60 FPS draaide, wat serieus indrukwekkend is. Toegegeven, NVIDIA gebruikt vrijwel zeker DLSS om dat doel te bereiken, maar 8K-gaming is 8K-gaming.

Natuurlijk zullen er uiteindelijk een 3060 zijn en andere varianten van meer budgetgerichte kaarten, maar die komen meestal later binnen.

Om de dingen echt af te koelen, had NVIDIA een vernieuwd koeler ontwerp nodig. De 3080 heeft een vermogen van 320 watt, wat behoorlijk hoog is, dus NVIDIA heeft gekozen voor een ontwerp met dubbele ventilator, maar in plaats van beide ventilatoren vwinf op de bodem te plaatsen, heeft NVIDIA een ventilator aan de bovenkant geplaatst waar de achterplaat meestal gaat. De ventilator leidt lucht omhoog naar de CPU-koeler en de bovenkant van de behuizing.

opwaartse ventilator op GPU leidt tot een betere luchtstroom van de behuizing
NVIDIA

Te oordelen naar hoeveel prestaties kunnen worden beïnvloed door een slechte luchtstroom in een koffer, is dit volkomen logisch. De printplaat is hierdoor echter erg krap, wat waarschijnlijk van invloed zal zijn op de verkoopprijzen van derden.

DLSS: een softwarevoordeel

Ray tracing is niet het enige voordeel van deze nieuwe kaarten. Echt, het is allemaal een beetje een hack – de RTX 2000-serie en 3000-serie zijn dat niet dat veel beter in het doen van daadwerkelijke ray tracing, vergeleken met oudere generaties kaarten. Het traceren van een volledige scène in 3D-software zoals Blender duurt meestal een paar seconden of zelfs minuten per frame, dus brute-forceren in minder dan 10 milliseconden is uitgesloten.

Natuurlijk is er speciale hardware voor het uitvoeren van straalberekeningen, de zogenaamde RT-cores, maar grotendeels koos NVIDIA voor een andere aanpak. NVIDIA heeft de ruisonderdrukkingsalgoritmen verbeterd, waardoor de GPU’s een zeer goedkope enkele pass kunnen weergeven die er vreselijk uitziet, en op de een of andere manier – door middel van AI-magie – iets veranderen in iets waar een gamer naar wil kijken. In combinatie met traditionele op rastering gebaseerde technieken, zorgt het voor een aangename ervaring, versterkt door raytracing-effecten.

beeld met ruis wordt gladgestreken met NVIDIA-ruisonderdrukking
NVIDIA

Om dit snel te doen, heeft NVIDIA echter AI-specifieke verwerkingskernen toegevoegd, genaamd Tensor-kernen. Deze verwerken alle wiskunde die nodig is om machine learning-modellen uit te voeren, en doen dit zeer snel. Ze zijn een totale game-wisselaar voor AI in de cloud-serverruimte, aangezien AI door veel bedrijven op grote schaal wordt gebruikt.

Naast ruisonderdrukking, wordt het belangrijkste gebruik van de Tensor-kernen voor gamers DLSS genoemd, of deep learning supersampling. Het neemt een frame van lage kwaliteit op en schaalt het op naar volledige native kwaliteit. Dit betekent in wezen dat je kunt gamen met framerates van 1080p, terwijl je naar een 4K-beeld kijkt.

Dit helpt ook behoorlijk wat bij de ray-tracing-prestaties – benchmarks van PCMag laten zien dat een RTX 2080 Super draait Controle in ultrakwaliteit, met alle ray-tracing-instellingen maximaal. Bij 4K worstelt het met slechts 19 FPS, maar met DLSS aan, krijgt het een veel betere 54 FPS. DLSS is gratis prestatie voor NVIDIA, mogelijk gemaakt door de Tensor-kernen op Turing en Ampere. Elke game die dit ondersteunt en GPU-beperkt is, kan serieuze versnellingen zien, alleen al door de software.

DLSS is niet nieuw en werd aangekondigd als een functie toen de RTX 2000-serie twee jaar geleden werd gelanceerd. Destijds werd het door zeer weinig games ondersteund, omdat NVIDIA voor elke afzonderlijke game een machine-leermodel moest trainen en afstemmen.

In die tijd heeft NVIDIA het echter volledig herschreven en de nieuwe versie DLSS 2.0 genoemd. Het is een API voor algemeen gebruik, wat betekent dat elke ontwikkelaar het kan implementeren, en het wordt al opgepikt door de meeste grote releases. In plaats van aan één frame te werken, neemt het bewegingsvectorgegevens van het vorige frame op, vergelijkbaar met TAA. Het resultaat is veel scherper dan DLSS 1.0, en ziet er in sommige gevallen ook echt uit beter en zelfs scherper dan native resolutie, dus er is niet veel reden om het niet in te schakelen.

Er is één probleem: bij het volledig wisselen van scènes, zoals in tussenfilmpjes, moet DLSS 2.0 het allereerste frame weergeven met een kwaliteit van 50% in afwachting van de bewegingsvectorgegevens. Dit kan gedurende enkele milliseconden resulteren in een kleine kwaliteitsafname. Maar 99% van alles waar je naar kijkt, wordt correct weergegeven en de meeste mensen merken het in de praktijk niet.

VERWANT: Wat is NVIDIA DLSS en hoe maakt het raytracing sneller?

Ampere-architectuur: gebouwd voor AI

Ampère is snel. Serieus snel, vooral bij AI-berekeningen. De RT-kern is 1,7x sneller dan Turing en de nieuwe Tensor-kern is 2,7x sneller dan Turing. De combinatie van beide is een ware generatiesprong in de prestaties van raytracing.

RT en Tensor kernverbeteringen
NVIDIA

Eerder in mei bracht NVIDIA de Ampere A100 GPU uit, een datacenter GPU die is ontworpen om AI uit te voeren. Hiermee hebben ze veel gedetailleerd beschreven wat Ampere zo veel sneller maakt. Voor datacenter- en high-performance computing-workloads is Ampere over het algemeen ongeveer 1,7x sneller dan Turing. Voor AI-training is het tot 6 keer sneller.

HPC prestatieverbeteringen
NVIDIA

Met Ampere gebruikt NVIDIA een nieuw getalformaat dat is ontworpen om de industriestandaard “Floating-Point 32” of FP32 te vervangen in sommige workloads. Onder de motorkap neemt elk nummer dat uw computer verwerkt een vooraf gedefinieerd aantal bits in het geheugen in beslag, of dat nu 8 bits, 16 bits, 32, 64 of zelfs groter is. Nummers die groter zijn, zijn moeilijker te verwerken, dus als je een kleiner formaat kunt gebruiken, heb je minder te kraken.

FP32 slaat een 32-bits decimaal getal op en gebruikt 8 bits voor het bereik van het getal (hoe groot of klein het kan zijn) en 23 bits voor de precisie. De claim van NVIDIA is dat deze 23 precisiebits niet helemaal nodig zijn voor veel AI-workloads, en je kunt vergelijkbare resultaten en veel betere prestaties krijgen met slechts 10 ervan. Het verkleinen van de grootte tot slechts 19 bits in plaats van 32, maakt een groot verschil tussen veel berekeningen.

Dit nieuwe formaat heet Tensor Float 32, en de Tensor Cores in de A100 zijn geoptimaliseerd om het formaat met een vreemd formaat aan te kunnen. Dit is, bovenop die krimp en toename van het aantal kernen, hoe ze de enorme 6x versnelling krijgen in AI-training.

Nieuwe getalnotaties
NVIDIA

Naast het nieuwe getalformaat ziet Ampere de prestaties aanzienlijk versnellen bij specifieke berekeningen, zoals FP32 en FP64. Deze vertalen zich niet direct naar meer FPS voor de leek, maar ze maken deel uit van wat het in het algemeen bijna drie keer sneller maakt bij Tensor-operaties.

verbetering van de prestaties van de tensor-kern
NVIDIA

Om berekeningen nog meer te versnellen, hebben ze vervolgens het concept van fijnmazige gestructureerde schaarsheid geïntroduceerd, wat een heel mooi woord is voor een vrij eenvoudig concept. Neurale netwerken werken met grote lijsten met getallen, gewichten genaamd, die de uiteindelijke uitvoer beïnvloeden. Hoe meer getallen er moeten worden gekraakt, hoe langzamer het zal zijn.

Niet al deze cijfers zijn echter echt bruikbaar. Sommigen van hen zijn letterlijk gewoon nul en kunnen in feite worden weggegooid, wat tot enorme versnellingen leidt als je meer nummers tegelijkertijd kunt crunchen. Sparsity comprimeert in wezen de getallen, wat minder moeite kost om mee te rekenen. De nieuwe “Sparse Tensor Core” is gebouwd om te werken met gecomprimeerde gegevens.

Ondanks de wijzigingen zegt NVIDIA dat dit de nauwkeurigheid van getrainde modellen helemaal niet merkbaar zou moeten beïnvloeden.

schaarse gegevens die worden gecomprimeerd
NVIDIA

Voor Sparse INT8-berekeningen, een van de kleinste getalformaten, zijn de topprestaties van een enkele A100 GPU meer dan 1,25 PetaFLOP’s, een verbluffend hoog aantal. Dat is natuurlijk alleen bij het crunchen van een specifiek soort nummer, maar het is niettemin indrukwekkend.

Nieuwste artikelen

Gerelateerde artikelen