**번역본뉴스입니다 오역이 있을수 있습니다.
페가트론은 컴퓨텍스에서 고성능 AI 추론 및 훈련 애플리케이션을 위해 설계된 128개의 AMD 차세대 인스팅트(Instinct) MI350X 가속기를 기반으로 하는 독자적인 랙 스케일 솔루션을 선보였습니다. 이 시스템은 AMD의 자체 설계 랙 스케일 솔루션보다 한 세대 앞선 것으로, 페가트론에게는 약 1년 후에 출시될 랙 스케일 AMD 인스팅트 MI450X 기반 IF64 및 IF128 솔루션을 구축하기 위한 훈련용 장비(training vehicle) 역할을 할 것입니다.
페가트론 AS501-4A1/AS500-4A1 랙 스케일 시스템은 각각 1개의 AMD EPYC 9005 시리즈 프로세서와 4개의 AI 및 HPC용 AMD 인스팅트 MI350X AI 및 HPC 가속기를 탑재한 8개의 5U 컴퓨트 트레이로 구성됩니다. CPU와 가속기는 액체 냉각 방식을 사용하여 높은 부하에서도 최대의 예측 가능한 성능을 보장합니다. 이 장비는 51OU ORV3 폼팩터로 제공되어 OCP 표준(예: Meta)을 사용하는 클라우드 데이터센터에 적합합니다.
AMD는 인피니티 패브릭(Infinity Fabric) 연결을 위한 독점 스위치가 없기 때문에 (어쨌든 현재 AMD 인스팅트의 최대 확장 가능 규모는 8개 프로세서입니다), 이 장비는 400 GbE를 사용하여 다른 섀시에 있는 GPU를 연결합니다. 이는 72개의 GPU가 초고속 NVLink 연결로 상호 연결된 엔비디아의 GB200/GB300 NVL72 플랫폼과 대조됩니다. 그런 점에서 인스팅트 MI350X 시스템은 확장성 측면에서 GB200/GB300 NVL72에 간신히 필적할 것입니다.
이 새로운 장비는 OCP 채택 기업들이 당면한 워크로드를 처리하고, 하드웨어 및 소프트웨어 관점에서 다수의 GPU를 탑재한 AMD 인스팅트 기반 시스템을 더 잘 구축하는 방법을 배우는 데 사용될 것입니다. 페가트론의 장비는 여러 가지 이유로 그 중요성을 아무리 강조해도 지나치지 않으며, 그중 주된 이유는 랙 스케일 AI 솔루션에서 엔비디아의 지배력에 도전하는 발판을 마련한다는 점입니다.
AMD의 인스팅트 MI350X에 대해 알려진 바에 따르면, 이 장치들을 기반으로 한 페가트론의 128-GPU 랙 스케일 시스템은 거의 선형적인 확장성을 가정할 때 추론용 FP4 연산에서 최대 1,177 PFLOPS의 이론적 최고 성능을 제공합니다. 각 MI350X가 최대 288GB의 HBM3E를 지원하므로, 이 시스템은 36.8TB의 고속 메모리를 제공하여 엔비디아의 현재 블랙웰(Blackwell) 기반 GPU의 용량을 초과하는 대규모 AI 모델을 지원할 수 있습니다.
그러나 GPU 간 통신을 이더넷에 의존하기 때문에 시스템의 확장성이 제한됩니다. 최대 8개 GPU의 확장 도메인을 갖는 이 시스템은 엔비디아의 NVL72 시스템이 뛰어난 성능을 보이는 긴밀하게 동기화된 LLM 훈련보다는 추론 워크로드나 다중 인스턴스 훈련을 위해 구축되었을 가능성이 높습니다. 그럼에도 불구하고, 이 시스템은 현재 고성능, 풍부한 메모리 솔루션으로 기능하며 AMD의 차세대 인스팅트 MI400 시리즈 솔루션을 향한 선구자 역할을 합니다.
--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------