Architektura | Współczynnik Amper/Volta | Uwagi | ||
Amper | Volta | |||
GPU | A100 | GV100 | ||
Rdzenie CUDA FP32 | 6912 | 5120 | 1,35 | Więcej rdzeni skutkuje większą mocą obliczeniową GPU |
Przepustowość pamięci | 1555GB/s | 900GB/s | 1,73 | Większa przepustowość pamięci skutkuje szybszą wymianą danych |
Wielkość pamięci | 40GB | 32GB | 1,25 | Większa pamięć GPU pozwala na pracę na większym zbiorze danych |
Wydajność FP32 | 19.5 TFLOPS | 15.7 TFLOPS | 1,24 | Pojedyncza precyzja wykorzystywana jest do głębokiego uczenia |
Wydajność FP64 | 9.7 TFLOPS | 7.8 TFLOPS | 1,24 | Podwójna precyzja wykorzystywana jest do bardzo dokładnych obliczeń |
Wydajność INT8 | 624 TOPS 1248 TOPS* |
brak | bez porównania | Format INT8 wykorzystywany jest we wnioskowaniu |
Wydajność INT4 | 1248 TOPS 2496 TOPS* |
brak | bez porównania | Format INT4 wykorzystywany jest we wnioskowaniu |
Wydajność FP16 na tensorach | 312 TFLOPS 624 TFLOPS* |
125 TFLOPS | 2,5 | Obliczenia z połową precyzji na tensorach pozwalają utrzymać dokładność wyniku porównywalną do obliczeń pojedynczej precyzji |
Wydajność TF32 na tensorach | 156 TFLOPS | brak | bez porównania | Format TF32 pozwala wykonywać obliczenia z zachowaniem dokładności liczb pojedynczej precyzji |
Przepustowość NVLink pomiędzy GPU | 600GB/s | 300GB/s | 2 | Większa przepustowość pomiędzy GPU przyczynia się szybszego wytrenowania sieci |
* z technologią SPARCE