AMD Instinct MI355X GPU, MLPerf 6.0에서 초당 100만 토큰 돌파

Extra Form
출처/참고/홈페이지	https://www.techpowerup.com/347936/amd-i...mlperf-6-0

**번역본뉴스입니다. 오역이 있을수 있습니다.

AMD는 이번 MLPerf Inference 6.0 제출에서 단순히 더 빠른 GPU로 익숙한 벤치마크를 재방문하는 데 그치지 않았습니다. AMD는 신규 워크로드로 영역을 확장하고, 다중 노드 규모에서 초당 100만 토큰(1M Tokens/Sec)이라는 문턱을 넘어섰으며, 파트너들이 더 넓은 생태계 전반에서 이러한 결과를 재현할 수 있음을 입증했습니다. 이러한 조합이 중요한 이유는 고객들이 더 이상 단일 지표만으로 추론 플랫폼을 평가하지 않기 때문입니다. 고객은 경쟁력 있는 단일 노드 성능, 효율적인 스케일아웃(Scale-out), 새로운 모델에 대한 빠른 도입, 파트너 시스템 간의 재현 가능한 결과, 그리고 소프트웨어 스택이 속도를 맞출 수 있다는 확신을 원합니다. MLPerf Inference 6.0은 단 한 번의 제출로 이 모든 것을 보여줄 수 있게 해주었습니다.

마찬가지로 중요한 점은 이러한 결과가 고립된 사례가 아니라는 점을 보여주었다는 것입니다. 광범위한 파트너 생태계가 4가지 유형의 AMD Instinct GPU에 대해 결과를 제출했으며, 이는 AMD가 제출한 수치를 밀접하게 재현해 냈습니다. 또한 최초의 3중 GPU 이기종(Heterogeneous) MLPerf 제출은 AMD 하드웨어와 AMD ROCm 소프트웨어가 서로 다른 지역에 위치한 시스템들 사이에서도 의미 있는 추론 처리량을 조율할 수 있음을 입증했습니다.

AMD Instinct MI355X GPU: 처음부터 추론을 위해 설계되다

AMD Instinct MI355X GPU는 3nm 공정의 AMD CDNA 4 아키텍처를 기반으로 구축되었으며, 1,850억 개의 트랜지스터를 탑재하고 FP4 및 FP6 지원을 추가했습니다. 이 모든 기능은 최대 288GB의 HBM3E 메모리와 결합됩니다.

최대 10 페타플롭스(Petaflops)의 FP4 및 FP6 성능, 단일 GPU에서 최대 5,200억 개의 매개변수를 가진 모델 지원, 공랭식 및 직접 액체 냉각 구성이 모두 가능한 산업 표준 UBB8 노드를 통해 AMD Instinct MI355X GPU는 단순한 속도 그 이상을 제공하도록 제작되었습니다. 또한 대규모 모델 수용 능력과 배포 준비성을 하나의 플랫폼에서 제공하도록 설계되었습니다.

AMD MLPerf Inference 6.0 제출의 결정적 순간들

AMD의 MLPerf Inference 6.0 결과는 단일한 증거 지점을 훨씬 넘어 성능, 모델 커버리지, 규모 및 재현성 전반에 걸친 유의미한 진전을 보여줍니다. 몇 가지 획기적인 성과는 다음과 같습니다.

1. AMD, MLPerf 추론에서 초당 100만 토큰 장벽 돌파 이번 라운드에서 가장 큰 이정표 중 하나는 AMD가 MLPerf 추론 벤치마크에서 처음으로 초당 100만 토큰을 돌파했다는 것입니다. AMD는 AMD Instinct MI355X GPU를 사용한 다중 노드 규모에서 Llama 2 70B(Server 및 Offline 벤치마크 모두)와 GPT-OSS-120B(Offline)를 통해 이 임계값을 넘어섰습니다.

업계는 점점 더 클러스터 규모에서 추론을 평가하고 있습니다. 여기서는 총 처리량과 서비스 시간이 인프라의 배포 준비 여부를 결정합니다. 초당 100만 토큰 돌파는 생산 등급(Production-class)의 추론 처리량을 입증하는 것입니다. 고객에게 이 이정표는 다음과 같은 분명한 이점을 제공합니다.

방대한 사용자 층과 더 큰 모델을 서비스하기 위한 더 높은 총 처리량.
배포 규모가 단일 박스를 넘어설 때도 AMD Instinct MI355X GPU가 성능을 유지할 수 있다는 명확한 증거.
GPT-OSS와 같은 신규 워크로드를 신속하게 활성화하면서도 의미 있는 생산 출력까지 확장할 수 있다는 검증.
차세대 다중 노드 및 랙 스케일 추론 배포를 위한 더욱 강력한 기반.

2. AMD Instinct MI355X GPU, 이전 세대 대비 뚜렷한 세대 간 도약 실현 AMD는 Llama 2 70B Server에서도 상당한 세대 간 향상을 입증했습니다. AMD Instinct MI355X GPU는 초당 100,282 토큰을 기록하며, 이전에 제출된 AMD Instinct MI325X GPU 결과보다 3.1배 더 높은 처리량을 보여주었습니다.

이는 6개월 만에 이루어진 의미 있는 도약이며, AMD CDNA 4 아키텍처, 높은 연산 밀도, FP4 및 FP6 지원, 대용량 HBM3E, 그리고 최신 대규모 언어 모델 추론에 최적화된 AMD ROCm 소프트웨어 등 전체 스택의 힘을 반영합니다.

3. Llama 2 70B, 광범위한 단일 노드 경쟁력 입증 MLPerf에서 가장 널리 인정받는 대규모 언어 모델 벤치마크인 Llama 2 70B에서 AMD Instinct MI355X 플랫폼은 NVIDIA B200 및 B300 GPU 모두에 대해 매우 경쟁력 있는 단일 노드 결과를 기록했습니다. B200 대비 AMD Instinct MI355X 플랫폼은 Offline에서 동등한 성적을 냈고, Server 성능의 97%를 달성했으며, Interactive 벤치마크에서는 119%에 도달했습니다. B300 단일 노드 대비로는 Server에서 93%, Offline에서 92%, Interactive에서 104%를 기록했습니다. 특히 결과의 폭이 넓다는 점이 중요합니다. 이는 특정 시나리오에만 국한된 이야기가 아닙니다. AMD는 Offline의 배치 처리량, Server의 지속 처리량, Interactive의 응답성 전반에 걸쳐 경쟁력을 보여주었습니다.

4. GPT-OSS-120B, 빠른 신규 모델 도입 능력 증명 GPT-OSS-120B는 이번 Inference 6.0 제출에서 가장 흥미로운 부분 중 하나입니다. 이 워크로드는 MLPerf에서 처음으로 실행되었기 때문입니다. 신규 모델 활성화는 어렵습니다. MLPerf 일정 내에 모델을 구동하고, 최적화하고, 정확도를 검증하며, 경쟁력 있는 성능까지 끌어올려야 하기 때문입니다. 이러한 복잡성에도 불구하고 AMD Instinct MI355X 플랫폼은 NVIDIA B200 대비 Offline 성능의 111%, Server 단일 노드 성능의 115%를 달성했습니다. NVIDIA B300 단일 노드 대비로는 Offline에서 91%, Server에서 82%라는 경쟁력 있는 수치에 도달했습니다.

5. Wan-2.2-t2v를 통한 완전히 새로운 텍스트-비디오 추론으로의 확장 MLPerf Inference 6.0을 통해 AMD는 대규모 언어 모델(LLM)을 넘어 Wan-2.2-t2v를 처음으로 제출하며 텍스트-비디오 생성 분야로 확장했습니다. 이 벤치마크에는 Offline과 Single Stream 두 가지 테스트가 있습니다. 이번 제출에서 당사는 Single Stream 시나리오에 집중했으며, 그 결과 폐쇄형(Closed) 카테고리(두 테스트 모두 필요)가 아닌 개방형(Open) 카테고리에 제출되었습니다. 그러나 당사의 Single Stream 실행은 폐쇄형 제출 규칙을 충족했으므로 폐쇄형 부문의 점수와 직접 비교할 수 있습니다.

그럼에도 불구하고 새로운 워크로드 카테고리에 대한 AMD의 첫 시도로서 결과는 인상적입니다. AMD Instinct MI355X 플랫폼은 Single Stream에서 NVIDIA B200 단일 노드 성능의 93%, B300의 87%를 달성했습니다. 마감 기한 이후의 추가 튜닝을 통해 Single Stream 성능은 B200의 108% 및 B300과 동등한 수준으로 향상되었으며, 비공식 Offline 결과는 B200의 111%, B300의 88%에 도달했습니다. 마감 이후 수치는 공식 MLPerf 제출물에 포함되지 않았으며 MLCommons의 검증을 거치지 않았지만, 튜닝 시간이 더 주어졌을 때 성능이 얼마나 빠르게 개선되었는지를 명확히 보여줍니다.

고객에게 이 결과의 중요성은 수치 그 자체를 넘어섭니다. 이는 AMD가 모델 커버리지를 LLM에서 최신 멀티모달 및 생성형 비디오 워크로드로 확장하고 있으며, 출시 첫날부터 경쟁력 있는 성능을 보여주고 있음을 입증합니다.

6. 다중 노드 추론을 통한 효율적인 스케일아웃 입증 모델이 커지고 배포 요구 사항이 까다로워짐에 따라, 그리고 업계가 AMD Helios 솔루션과 같은 랙 스케일 시스템을 위한 토대를 마련함에 따라 다중 노드 추론에 대한 관심이 높아지고 있습니다. 당사의 MLPerf Inference 6.0 제출은 AMD Instinct MI355X가 이러한 전환에 준비되어 있음을 보여줍니다.

Llama 2 70B에서 당사는 1개 노드에서 11개 노드로 확장했으며, 이상적인 선형 확장에 매우 근접한 수치를 유지했습니다. 11개 노드와 87개의 AMD Instinct MI355X GPU를 사용하여 Offline에서 초당 1,042,110 토큰, Server에서 초당 1,016,380 토큰, Interactive에서 초당 785,522 토큰을 기록했습니다. 스케일아웃 효율성은 Offline 93%, Server 93%, Interactive 98%에 달했습니다. Offline 스케일아웃이 더 표준적인 경로이지만, Server와 Interactive는 클러스터가 커짐에 따라 지연 시간 요구 사항을 유지해야 하므로 더 어렵습니다. 따라서 이 결과는 특히나 강력한 설득력을 가집니다.

이는 추론이 AMD Helios 및 미래의 랙 스케일 배포로 이동함에 따라 필요한 정확한 디딤돌입니다.

다중 노드 결과는 GPT-OSS-120B에서도 이어집니다. 이 결과는 당사의 첫 GPT-OSS 다중 노드 제출이었기에 더욱 흥미롭습니다. 과제는 단순히 모델을 활성화할 수 있느냐가 아니라, 실제 클러스터에서 효율적으로 확장할 수 있느냐였습니다. 12개 노드와 94개의 AMD Instinct MI355X GPU를 사용하여 Offline에서 초당 1,031,070 토큰, Server에서 초당 900,054 토큰을 기록했습니다. 마찬가지로 12배 확장에 매우 근접하여 Offline 효율 92%, Server 효율 93%를 기록했습니다. 이로써 GPT-OSS는 다중 노드 규모에서 초당 100만 토큰 마크를 넘긴 두 번째 모델이 되었습니다.

파트너 제출을 통한 생태계 규모 및 재현성

AMD의 MLPerf Inference 6.0 제출에서 또 다른 주요 하이라이트는 생태계의 모멘텀입니다. 이번 라운드에서는 Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro, Red Hat 등 총 9개의 파트너가 AMD Instinct 하드웨어를 기반으로 제출하며 역대 최다 파트너 공동 참여 기록을 세웠습니다.

이러한 제출물은 MI300X, MI325X, MI350X, MI355X의 4가지 AMD Instinct GPU 유형에 걸쳐 있습니다. 이는 생태계가 단일 플래그십 구성에 국한되지 않고 OEM, ODM 및 클라우드 스타일 플랫폼 전반에 걸쳐 여러 세대와 여러 배포 모델을 포괄하고 있음을 보여줍니다. 이러한 재현성은 특히 강력한 힘을 가집니다. AMD Instinct MI355X GPU에서 파트너 결과는 AMD가 제출한 수치의 4% 이내로 나타났으며, 일부는 처음 실행하는 워크로드에서도 1% 이내의 오차를 보였습니다. 이는 이 수치들이 깨지기 쉬운 실험실의 결과물이 아니며, 예측 가능한 AMD 하드웨어와 AMD ROCm 소프트웨어 덕분에 실제 파트너 시스템에서도 재현 가능하다는 매우 강력한 신호입니다.

최초의 3중 GPU 이기종 제출로 지역 간 유연한 추론 입증

가장 미래지향적인 결과 중 하나는 MI300X, MI325X, MI355X의 세 가지 AMD Instinct GPU 유형으로 구성된 최초의 MLPerf 이기종 제출입니다. Dell과 MangoBoost가 제출한 이 구성은 Llama 2 70B Server에서 초당 141,521 토큰, Offline에서 초당 151,843 토큰에 도달했습니다. 특히 중요한 세부 사항은 지리적 위치입니다. AMD Instinct MI355X 플랫폼은 미국에 있는 Dell의 연구소에 위치했고, Instinct MI300X 및 MI325X 플랫폼은 한국에 있었습니다. 이로 인해 이번 성과는 단순한 혼합 세대 추론 이야기를 넘어, 서로 다른 지역에 있는 시스템 간의 조율(Orchestration)에 대한 증거 지점이 되었습니다.

AMD ROCm 소프트웨어가 성능, 규모 및 모델 활성화를 이끄는 방법

AMD MLPerf Inference 6.0 제출의 모든 주요 결과는 하나의 공통된 끈인 AMD ROCm 소프트웨어로 연결됩니다. 이는 AMD Instinct MI355X 하드웨어를 경쟁력 있는 단일 GPU 추론, 클러스터 규모의 처리량, 이기종 조율 및 신규 모델의 빠른 도입을 위한 배포 가능한 플랫폼으로 변화시켰습니다.

제출 과정에서 AMD ROCm 소프트웨어는 효율적인 FP4 실행을 가능하게 하고, 다중 노드 확장을 위한 GPU 간 통신을 최적화했으며, 이기종 추론을 위한 동적 워크로드 분산과 Llama, Wan, GPT-OSS와 같은 모델에 대한 즉각적인 모델 준비성을 지원했습니다.

AMD Instinct MI400 시리즈 및 Helios 랙 스케일 솔루션을 향한 연례 주기

이러한 결과 뒤에 숨겨진 더 큰 맥락은 '모멘텀'입니다. AMD는 Instinct GPU에 대해 연례 주기를 실행하고 있으며, 이러한 일관성은 매우 중요합니다. 2023년 AMD Instinct MI300X GPU는 생성형 AI의 강력한 거점을 마련했습니다. 2024년 AMD Instinct MI325X GPU는 더 높은 연산 능력과 HBM3E로 그 기반을 확장했습니다. 2025년 MI355X GPU를 포함한 AMD Instinct MI350 시리즈는 새로운 AI 데이터 유형, 더 큰 모델 수용 능력 및 이번 제출 전반에 걸쳐 보여준 추론 이득을 통해 플랫폼을 다시 한번 발전시켰습니다.

그리고 2026년, AMD는 차세대 AMD CDNA 5 아키텍처를 기반으로 한 AMD Instinct MI400 시리즈 GPU로 나아갈 계획이며, 이러한 연례 주기를 차세대 랙 스케일 AI 시대로 확장하고 AMD Helios 랙 스케일 솔루션의 토대를 마련할 것입니다.

최종 결론

AMD MLPerf Inference 6.0 제출은 AMD와 생성형 AI 여정에 있어 큰 진전을 의미합니다. 완전히 새로운 워크로드 전반에서 AMD Instinct MI355X GPU는 매우 경쟁력 있는 단일 노드 결과, 믿을 수 없을 정도로 효율적인 다중 노드 스케일아웃 성능, GPT-OSS-120B 및 Wan-2.2-t2v의 신속한 도입, 그리고 클러스터 규모에서 초당 100만 토큰 이상을 달성하는 이정표를 보여주었습니다.

이 모든 것의 중심에는 AMD ROCm 소프트웨어와 철저한 연간 로드맵 주기가 있습니다. AMD는 빠르게 움직이며 모델 지원을 확장하고, 미래의 랙 스케일 AI 배포에 필요한 소프트웨어 및 시스템 기반을 구축하고 있습니다. AMD Instinct MI400 시리즈가 구동하는 AMD Helios 랙 스케일 솔루션과 미래의 AMD Instinct 세대가 다가옴에 따라, MLPerf Inference 6.0은 분명한 메시지를 강화합니다. AMD는 단순히 생성형 AI 추론 전환에 참여하는 것이 아니라, 생산 준비가 된 생성형 AI 인프라가 어떤 모습이어야 하는지를 정의하는 데 일조하고 있습니다.

amd blog - https://www.amd.com/en/blogs/2026/amd-delivers-breakthrough-mlperf-inference-6-0-results.html

--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------

단축키