Porównanie NVIDIA GPU w architekturze Ampere i Volta.

Architektura Współczynnik Amper/Volta Uwagi
Amper Volta
GPU A100 GV100
Rdzenie CUDA FP32 6912 5120 1,35 Więcej rdzeni skutkuje większą mocą obliczeniową GPU
Przepustowość pamięci 1555GB/s 900GB/s 1,73 Większa przepustowość pamięci skutkuje szybszą wymianą danych
Wielkość pamięci 40GB 32GB 1,25 Większa pamięć GPU pozwala na pracę na większym zbiorze danych
Wydajność FP32 19.5 TFLOPS 15.7 TFLOPS 1,24 Pojedyncza precyzja wykorzystywana jest do głębokiego uczenia
Wydajność FP64 9.7 TFLOPS 7.8 TFLOPS 1,24 Podwójna precyzja wykorzystywana jest do bardzo dokładnych obliczeń
Wydajność INT8 624 TOPS
1248 TOPS*
brak bez porównania Format INT8 wykorzystywany jest we wnioskowaniu
Wydajność INT4 1248 TOPS
2496 TOPS*
brak bez porównania Format INT4 wykorzystywany jest we wnioskowaniu
Wydajność FP16 na tensorach 312 TFLOPS
624 TFLOPS*
125 TFLOPS 2,5 Obliczenia z połową precyzji na tensorach pozwalają utrzymać dokładność wyniku porównywalną do obliczeń pojedynczej precyzji
Wydajność TF32 na tensorach 156 TFLOPS brak bez porównania Format TF32 pozwala wykonywać obliczenia z zachowaniem dokładności liczb pojedynczej precyzji
Przepustowość NVLink pomiędzy GPU 600GB/s 300GB/s 2 Większa przepustowość pomiędzy GPU przyczynia się szybszego wytrenowania sieci

* z technologią SPARCE

Udostępnij na Facebook
WordPress Appliance - Powered by TurnKey Linux