banner
홈페이지 / 블로그 / DGX 제작
블로그

DGX 제작

Jun 27, 2023Jun 27, 2023

모든 사람이 최신 "Hopper" H100 GPU 가속기가 탑재된 Nvidia DGX AI 서버나 전 세계 OEM 및 ODM에서 제공하는 수많은 복제품 중 하나를 구입할 여유가 있는 것은 아닙니다. 그리고 그들이 이러한 AI 처리의 에스컬레이드를 감당할 수 있다고 하더라도, 이는 이러한 컴퓨팅에 대한 높은 수요를 고려할 때 이 시스템의 일부이자 소포인 H100 또는 심지어 "Ampere" A100 GPU를 손에 넣을 수 있다는 의미는 아닙니다. 엔진.

늘 그렇듯이 사람들은 경제적, 기술적 대체물을 찾습니다. 이는 건전한 경제가 작동하는 방식으로, 대안의 수를 늘리고 경쟁 덕분에 모든 대안의 비용을 낮추는 것입니다.

따라서 구성 가능 패브릭 공급업체인 GigaIO가 서버 제조업체인 Supermicro 및 Dell의 도움을 받아 SuperNode 구성을 구성했습니다. Nvidia GPU를 사용하는 대신 GigaIO SuperNode는 PCI-Express 슬롯에 연결되며 Nvidia, AMD 또는 Intel의 고급 GPU(SXM4)에 필요한 특수 소켓이 없는 저렴한 AMD "Arcturus" Instinct MI210 GPU 가속기를 기반으로 합니다. Nvidia의 A100 및 H100 GPU용 SXM5 소켓과 AMD 및 Intel의 OAM 소켓이 있습니다. 그리고 NVLink 인터커넥트를 사용하여 Nvidia A100 및 H100 GPU 메모리를 공유 메모리 시스템에 연결하거나 AMD의 Infinity Fabric 인터커넥트를 사용하여 고급 Instinct MI250X GPU의 메모리를 연결하는 대신 SuperNode 설정에서는 PCI-Express를 사용합니다. 4.0 스위치는 GPU 메모리를 서로 연결하고 서버 호스트 노드에 연결합니다.

물론 이 설정은 NVLink 또는 Infinity Fabric 상호 연결보다 대역폭이 적으며 PCI-Express 5.0 스위치를 사용할 수 있는 경우에도 여전히 캐스트가 될 것입니다. 이는 최근 GigaIO와 같은 회사 및 해당 고객을 대신하여 한탄한 것입니다. 우리는 여전히 서버 포트, 어댑터 카드 및 스위치에 대한 PCI-Express 릴리스 레벨이 서버, 어댑터 및 스위치 사이에 엄청난 지연을 두는 대신 하드웨어에서 잠금 단계로 제공되어야 한다고 주장합니다. 컴포저블 인프라가 보편화되고 PCI-Express 상호 연결이 포드 수준(상호 연결된 몇 개의 시스템 랙을 의미)에서 이를 달성하는 가장 좋은 방법이라면 이는 분명해 보입니다.

GigaIO나 고객 모두 이 모든 것이 준비될 때까지 기다릴 시간이 없습니다. 오늘 클러스터를 구축하고 오늘날 고객에게 구성 가능성의 이점을 제공해야 합니다. 이는 과거에 사례 연구를 통해 보여줬고 해당 링크가 참조하는 것처럼 수행할 수 있습니다. 가장 중요한 점은 구성 가능성을 통해 클러스터에서 실행되는 여러 워크로드가 시간이 지남에 따라 변경됨에 따라 GPU와 같은 값비싼 컴퓨팅 엔진의 활용도를 높일 수 있다는 것입니다. 믿기 ​​어렵겠지만, 샌디에고 슈퍼컴퓨팅 센터의 벤치마크 결과에 따르면 성능이 떨어지거나 더 적은 수의 GPU를 사용하고 활용도를 높이는 동시에 컴포저블 인프라를 사용하면 더 빠른 결과를 얻을 수 있습니다. 크고 튼튼한 GPU 아이언을 사용하면 가능합니다.

GigaIO가 결합한 GigaPod, SuperNode 및 GigaCluster 구성은 이 아이디어의 상용화이며 AMD MI210 GPU에만 국한되지 않습니다. PCI-Express 4.0 또는 5.0 슬롯에 연결되는 모든 GPU, FPGA 또는 개별 가속기를 이러한 구성에 넣을 수 있습니다.

GigaPod에는 AMD의 "Milan" Epyc 7003 프로세서를 사용하는 2소켓 서버를 기반으로 하는 1~3개의 컴퓨팅 노드가 있지만 GigaIO 또는 고객이 Dell 또는 Supermicro가 아닌 다른 CPU 또는 서버를 사용하는 데 방해가 되는 것은 없습니다. 이는 고객에게 단일 단위로 판매되도록 인증받은 올-AMD 구성일 뿐입니다.

GigaPod에는 Microchip Technology의 Switchtec Gen 4.0 PCI-Express 스위치 ASIC을 기반으로 하는 24포트 PCI-Express 스위치가 있습니다. (여기서 Microchip Gen 5.0 Switchtec ASIC에 대한 프로파일을 작성했으며 곧 대량 출시가 시작되기를 바랍니다.) GigaIO는 Broadcom의 PCI-Express 어댑터 ASIC을 사용하여 FabreX 소프트웨어인 이 스위칭 백본에 서버, 스토리지 인클로저 및 가속기 인클로저를 연결합니다. 스택은 즉석에서 분해되고 구성될 수 있습니다. GigaPod에는 16개의 가속기가 있으며, CPU와 GPU는 2022년 1월 Nvidia에 인수된 Bright Computing의 Bright Cluster Manager를 사용하여 프로비저닝됩니다.

문의 보내기
보내다