Architektura NVIDIA Grace Hopper™ łączy przełomową wydajność procesora graficznego NVIDIA Hopper™ z wszechstronnością procesora NVIDIA Grace™ w jednym superprocesorze. Oba układy połączone są koherentną z pamięcią szyną NVIDIA NVLink Chip-2-Chip (C2C) o wysokiej przepustowości.
NVIDIA NVLink-C2C to spójne z pamięcią łącze o dużej przepustowości i niskim opóźnieniu, to serce superprocesora GH200 Grace Hopper. Zapewnia całkowitą przepustowość do 900 GB/s, czyli 7 razy większą niż linie PCIe Gen5, powszechnie stosowane w systemach z akceleracją. NVLink-C2C umożliwia aplikacjom bezpośrednie wykorzystanie pamięci CPU Grace o dużej przepustowości w przypadku zwiększonego zapotrzebowania na pamięć GPU.
GH200 można łatwo wdrożyć na standardowych serwerach w celu wykonywania różnorodnych obliczeń, analizy danych i innych zadań wymagających dużej mocy obliczeniowej i pamięci.
Procesor NVIDIA Grace zapewnia 2X większą wydajność na wat w porównaniu z konwencjonalnymi platformami x86-64 i jest najszybszym na świecie procesorem Arm dla centrów danych. Procesor Grace został zaprojektowany z myślą o wysokiej wydajności jednowątkowej, dużej przepustowości pamięci i wyjątkowych możliwościach przesyłania danych. Procesor NVIDIA Grace łączy 72 rdzenie Neoverse V2 Armv9 z maksymalnie 480 GB pamięci LPDDR5X klasy serwerowej z funkcją ECC. Konstrukcja ta zapewnia optymalną równowagę przepustowości, efektywności energetycznej, pojemności i kosztów. W porównaniu z ośmiokanałową konstrukcją DDR5, podsystem pamięci Grace CPU LPDDR5X zapewnia do 53 procent większą przepustowość przy jednej ósmej mocy na gigabajt na sekundę.
GPU H100 to procesor graficzny NVIDIA dziewiątej generacji dla centrów danych, który w porównaniu z procesorem graficznym NVIDIA A100 poprzedniej generacji zapewnia skok wydajności o rząd wielkości dla wielkoskalowej AI i HPC. Karta NVIDIA H100 oparta na nowej architekturze procesora graficznego Hopper oferuje wiele innowacji:
CPU NVIDIA Grace™ |
GPU NVIDIA Hopper™ H100 | ||
CPU | Arm v9-A Neoverse | Architektura GPU | Hopper SM 9.0 |
Liczba rdzeni CPU | 72 V2 | Liczba rdzeni CUDA | |
Cache CPU | L1d: 324 MB
L1i: 324 MB L2: 72 MB L3: 114 MB |
Liczba procesorów strumieniowych | 132 |
Technologia pamięci CPU | LPDDR5X z ECC | Technologia pamięci GPU | HBM3
HBM3e |
Wielkość obsługiwanej pamięci | do 480 GB | Wielkość obsługiwanej pamięci GPU | 96 GB HBM3
144 GB HBM3e |
Przepustowość pamięci | do 512 GB/s | Przepustowość pamięci GPU | do 4 TB/s |
Zakres taktowania CPU | 3,591 GHz – 0,081 GHz | Wydajność FP64 | 34 TFLOPS |
Przepustowość NVLink-C2C | 900 GB/s (dwukierunkowo) | Przepustowość NVLink-C2C | 900 GB/s (dwukierunkowo) |
Złącza PCIe | do 4x PCIe x16 (5 generacji) | Wydajność TF64 (na tensorach) | 67 TFLOPS |
Wydajność FP32 | 67 TFLOPS | ||
Wydajność TF32 (na tensorach) | 989 TFLOPS* | 494 TFLOPS | ||
Wydajność BFLOAT16 (na tensorach) | 1979 TFLOPS* | 990 TFLOPS | ||
Wydajność TF16 (na tensorach) | 1979 TFLOPS* | 990 TFLOPS | ||
Wydajność TF8 (na tensorach) | 3958 TFLOPS* | 1979 TFLOPS | ||
Wydajność INT8 (na tensorach) |
3958 TOPS* | 1979 TOPS |
* – z wykorzystaniem funkcji sparsity (kompresji rzadkich macierzy)