macsplex.com - 아이언우드: 추론의 시대를 위한 최초의 구글 TPU

Extra Form
출처/참고/홈페이지	https://blog.google/products/google-clou...inference/

** 번역본뉴스입니다. 오역이 있을수 있습니다.

오늘 Google Cloud Next 25에서는 지금까지 가장 성능이 뛰어나고 확장 가능한 맞춤형 AI 가속기이자 추론을 위해 특별히 설계된 최초의 7세대 텐서 프로세싱 유닛(TPU)인 아이언우드를 소개합니다. 10년 이상 TPU는 Google에서 가장 까다로운 AI 교육 및 서비스 워크로드에 전력을 공급해 왔으며, 클라우드 고객도 이를 수행할 수 있도록 지원해 왔습니다. 아이언우드는 지금까지 가장 강력하고 유능하며 에너지 효율적인 TPU입니다. 또한 대규모 추론 AI 모델에 대한 사고력을 강화하기 위해 특별히 설계되었습니다.

아이언우드는 AI의 발전과 발전을 촉진하는 인프라의 중요한 변화를 의미합니다. 사람들이 실시간으로 해석할 수 있는 정보를 제공하는 반응형 AI 모델에서 인사이트와 해석을 주도적으로 생성하는 모델로의 전환입니다. 이를 '추론의 시대'라고 부르며, AI 에이전트는 데이터뿐만 아니라 협업을 통해 인사이트와 답변을 제공하기 위해 데이터를 적극적으로 검색하고 생성합니다.

아이언우드는 차세대 AI의 다음 단계와 엄청난 계산 및 통신 요구 사항을 지원하기 위해 제작되었습니다. 이 칩은 거의 10MW에 달하는 획기적인 칩 간 인터커넥트(ICI) 네트워킹과 연결된 최대 9,216개의 냉각 칩까지 확장할 수 있습니다. 이 칩은 가장 까다로운 AI 워크로드를 위해 하드웨어와 소프트웨어를 함께 최적화하는 Google Cloud AI Hypercomputer 아키텍처의 여러 새로운 구성 요소 중 하나입니다. 아이언우드를 통해 개발자는 Google의 자체 Pathways 소프트웨어 스택을 활용하여 수만 개의 아이언우드 TPU의 결합 컴퓨팅 성능을 안정적이고 쉽게 활용할 수 있습니다.

다음은 이러한 혁신들이 어떻게 협력하여 비할 데 없는 성능, 비용 및 전력 효율성을 갖춘 가장 까다로운 교육 및 서비스 워크로드를 처리하는지 자세히 살펴봅니다.

아이언우드로 추론의 시대를 선도하기

아이언우드는 대규모 언어 모델(LLM), 전문가 혼합(MoE) 및 고급 추론 작업을 포괄하는 "생각하는 모델"의 복잡한 계산 및 통신 요구를 우아하게 관리하도록 설계되었습니다. 이러한 모델은 대규모 병렬 처리와 효율적인 메모리 액세스를 필요로 합니다. 특히, 아이언우드는 대규모 텐서 조작을 수행하면서 칩 내 데이터 이동과 지연 시간을 최소화하도록 설계되었습니다. 최전선에서 생각하는 모델의 계산 요구는 단일 칩의 용량을 훨씬 초과합니다. 우리는 전체 TPU 포드 규모에서 조정된 동기식 통신을 지원하기 위해 저지연, 고대역폭 ICI 네트워크를 갖춘 아이언우드 TPU를 설계했습니다.

Google 클라우드 고객의 경우 Ironwood는 AI 워크로드 요구 사항에 따라 256개의 칩 구성과 9,216개의 칩 구성이라는 두 가지 크기로 제공됩니다.

포드당 9,216개의 칩으로 확장하여 총 42.5개의 Exaflops를 제공하는 Ironwood는 세계 최대 슈퍼컴퓨터인 El Capitan의 24배 이상의 컴퓨팅 성능을 지원하며, 이는 포드당 1.7개의 Exaflops에 불과합니다. Ironwood는 학습 및 추론을 위한 사고 기능을 갖춘 초대형 고밀도 LLM 또는 MoE 모델과 같이 가장 까다로운 AI 워크로드에 필요한 대규모 병렬 처리 능력을 제공합니다. 각 개별 칩은 4,614개의 TFLOPs의 최고 연산량을 자랑합니다. 이는 AI 기능의 획기적인 도약을 의미합니다. Ironwood의 메모리 및 네트워크 아키텍처는 이 대규모 규모에서 최고 성능을 지원하기 위해 항상 올바른 데이터를 사용할 수 있도록 보장합니다.

아이언우드는 고급 순위 및 추천 워크로드에서 흔히 사용되는 초대형 임베딩 처리를 위한 특수 가속기인 향상된 SparseCore도 갖추고 있습니다. 아이언우드에서 확장된 SparseCore 지원을 통해 기존 AI 도메인을 넘어 금융 및 과학 도메인으로 전환하는 등 더 넓은 범위의 워크로드를 가속화할 수 있습니다.

Pathways는 구글 딥마인드가 개발한 구글의 자체 ML 런타임으로, 여러 TPU 칩에 걸쳐 효율적인 분산 컴퓨팅을 가능하게 합니다. Google 클라우드의 경로를 통해 단일 아이언우드 포드를 넘어 수십만 개의 아이언우드 칩을 함께 구성하여 세대 AI 컴퓨팅의 최전선을 빠르게 발전시킬 수 있습니다.

TPUv7_Inline_PeakPerformanceGrap.width-1000.format-webp.webp.jpg

TPUv7_Inline_TPUComparison_v3.width-1000.format-webp.webp.jpg

아이언우드의 주요 기능

Google Cloud는 최첨단 연구를 지원하는 AI 컴퓨팅을 제공하는 데 10년 이상의 경험을 보유한 유일한 하이퍼스케일러로, Gmail, Search 등을 통해 매일 수십억 명의 사용자를 위한 행성 규모의 서비스에 원활하게 통합됩니다. 이 모든 전문 지식은 아이언우드의 역량의 핵심입니다. 주요 기능은 다음과 같습니다:

전력 효율성에도 중점을 두는 동시에 성능이 크게 향상되어 AI 워크로드를 더 비용 효율적으로 실행할 수 있습니다. 아이언우드의 성능/와트는 작년에 발표한 6세대 TPU인 트릴륨에 비해 2배나 높습니다. 가용 전력이 AI 기능을 제공하는 데 제약 조건 중 하나인 상황에서, 우리는 고객 워크로드를 위해 와트당 훨씬 더 많은 용량을 제공합니다. 우리의 고급 액체 냉각 솔루션과 최적화된 칩 설계는 지속적이고 무거운 AI 워크로드에서도 표준 공기 냉각 성능의 최대 두 배까지 안정적으로 유지할 수 있습니다. 실제로 아이언우드는 2018년 첫 번째 클라우드 TPU보다 전력 효율이 거의 30배 더 높습니다.

고대역폭 메모리(HBM) 용량이 크게 증가했습니다. 아이언우드는 칩당 192GB로 트릴륨의 6배에 달합니다. 이를 통해 더 큰 모델과 데이터셋을 처리할 수 있어 빈번한 데이터 전송의 필요성을 줄이고 성능을 향상시킬 수 있습니다.

HBM 대역폭이 획기적으로 향상되어 칩당 7.37TB/s에 도달했으며, 이는 트릴륨의 4.5배에 달합니다. 이 높은 대역폭은 빠른 데이터 액세스를 보장하며, 현대 AI에서 흔히 사용되는 메모리 집약적인 워크로드에 매우 중요합니다.

칩 간 인터커넥트(ICI) 대역폭이 향상되었습니다. 이는 양방향으로 1.2TBps, 트릴륨의 1.5배로 증가하여 칩 간의 더 빠른 통신을 가능하게 하여 대규모의 효율적인 분산 학습 및 추론을 가능하게 합니다.

TPUv7_Inline_PeakFlopsGraph.width-1000.format-webp.webp.jpg

아이언우드, 미래의 AI 수요 해결

아이언우드는 컴퓨팅 성능, 메모리 용량, ICI 네트워킹 발전 및 신뢰성이 향상된 추론 시대의 독특한 돌파구입니다. 이러한 돌파구와 전력 효율성이 거의 2배 향상됨에 따라 가장 까다로운 고객은 컴퓨팅 수요의 기하급수적인 증가를 충족하면서도 최고 성능과 최저 지연 시간으로 워크로드를 교육하고 서비스할 수 있게 되었습니다. Gemini 2.5와 노벨상 수상작인 AlphaFold와 같은 선도적인 사고 모델은 모두 오늘날 TPU에서 실행되며, 아이언우드를 통해 올해 말 출시되면 자체 개발자와 Google Cloud 고객이 어떤 AI 돌파구를 마련할 수 있을지 기대됩니다.

--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------

아이언우드: 추론의 시대를 위한 최초의 구글 TPU

단축키

** 번역본뉴스입니다. 오역이 있을수 있습니다.

아이언우드로 추론의 시대를 선도하기

아이언우드의 주요 기능

아이언우드, 미래의 AI 수요 해결

Who's DNAVI

Articles