NVIDIA MGX™

Modułowa konstrukcja ułatwiająca konfigurację technologii w centrach danych

Światowe centra danych o wartości 1 biliona dolarów wypełnione są głównie systemami z CPU bez akceleracji z podstawową infrastrukturą sieciową. Ponieważ tradycyjne architektury obliczeniowe zwiększają swą wydajność tylko o około 10% każdego roku, a centra danych są z natury ograniczone pod względem mocy, akceleracja obliczeń jest jedyną drogą szybkiego rozwoju. W nadchodzących latach światowe centra danych będą musiały zostać przeprojektowane, aby umożliwić akcelerację obliczeń i generatywną sztuczną inteligencję. Same CPU nie są już wystarczające, aby sprostać wymaganiom dzisiejszych centrów danych, ze względu na ogólny wzrost zapotrzebowania na tradycyjne obliczenia, a także nowe aplikacje, takie jak sztuczna inteligencja i cyfrowe bliźniaki, które mają jeszcze bardziej zwiększyć popyt na moc obliczeniową.
Te przypadki użycia, aby były wydajne, wymagają akceleracji sprzętowej za pośrednictwem procesorów graficznych, a ilość danych, które muszą być przesyłane dla tych aplikacji, wymaga szybkich urządzeń sieciowych, takich jak DPU, oraz ściśle zoptymalizowanych proporcji łączności, zasobów procesora, we/wy i napędów pamięci masowej, a także innych, aby zapewnić najlepszą wydajność obciążenia i zmniejszyć całkowite koszty eksploatacji.
Wiele dzisiejszych systemów ogranicza rozmiary obudów i procesorów graficznych oraz innych technologii, szczególnie w kontekście przyszłych wymagań dotyczących rozmiaru procesora graficznego, rozmiaru karty sieciowej (NIC) i przepływu powietrza.
Optymalna infrastruktura obliczeniowa dla każdego obciążenia stawia różne wymagania w zakresie projektowania serwerów. Przykładowo, platformy zapewniające najlepszą wydajność dla wizualizacji w czasie rzeczywistym lub gier w chmurze mogą wyglądać zupełnie inaczej niż te przeznaczone do wnioskowania lub szkolenia dużych modeli językowych. Standardowe serwery CPU nie są zaprojektowane z myślą o unikalnych wymaganiach termicznych, zasilania i mechanicznych związanych z przyspieszonymi obliczeniami. Poza wyborem akceleratora GPU, CPU, pamięci masowej i sieci w ramach węzła, hiperskalowe, brzegowe, wysokowydajne centra obliczeniowe (HPC) i tradycyjne centra danych mają szybko ewoluujące i rozbieżne potrzeby, nawet między różnymi regionami i dostawcami technologii.

NVIDIA MGX – najszybsza i najbardziej elastyczna ścieżka do akceleracji obliczeń

NVIDIA MGX: Nowoczesna architektura systemowa

NVIDIA MGX to modułowa i elastyczna platforma dla nowej generacji klastrów superkomputerowych HPC i fabryk sztucznej inteligencji, która odpowiada na potrzeby współczesnych centrów danych i eliminuje ograniczenia dotychczasowych rozwiązań. Oto kilka przykładów:

Charakterystyka termiczna
NVIDIA MGX mogą obsługiwać wyższe temperatury GPU dzięki zestawowi rozwiązań niedostępnych w standardowych serwerach CPU, w tym:
> wsparcie dla obecnych i przyszłych GPU/ DPU/CPU,
> obsługę chłodzenia powietrzem i cieczą w ramach jednej architektury,
> specjalną konstrukcja do obsługi GPU o wyższym TDP (np. 400W+ GPU TDP).

Charakterystyka mechaniczna
NVIDIA MGX rozwiązuje problem mechaniczny, który obecne konstrukcje CPU często uważają za problematyczne, ponieważ są one mniej elastyczne dla układów PCIe i mogą nie obsługiwać 12,3-calowych procesorów graficznych.
Platforma NVIDIA MGX jest na tyle elastyczna, że może obsłużyć oba te elementy dzięki szerokiej gamie rozwiązań, w tym:
> poprzez realokację zatok modułów, architektura NVIDIA MGX może obsługiwać ponad 100 konfiguracji,
> zmniejszenie nakładów na rozwój produktu i czasu potrzebnego partnerom na wprowadzenie nowych produktów na rynek,
> obsługę przyszłych formatów GPU, takich jak 12,3″ GPU,
> obsługę okablowania zarówno w zimnych, jak i gorących korytarzach w celu dostosowania do projektów centrów danych klasy korporacyjnej (gorące korytarze) i CSP (zimne korytarze).

Charakterystyka zasilania
W związku z tym, że w celu spełnienia różnych wymagań systemowych, wymagane są różne projekty zasilania, NVIDIA MGX zapewnia:
> pojedynczą architekturę do obsługi różnych sposobów dostarczania zasilania, aby umożliwić zarówno rozwiązania klasy korporacyjnej (EIA), jak i CSP (OCP)
> obsługę zarówno szyny zasilającej, jak i zasilaczy.

Jedną z pierwszych konstrukcji wykonanych według założeń platformy NVIDIA MGX jest ARS-111GL-NHR firmy Supermicro oparta na superprocesorze NVIDIA GH200.