
**번역본뉴스입니다. 오역이 있을수 있습니다.
엔비디아(NVIDIA)의 데이터 센터용 CPU인 '베라(Vera)'는 올해 하반기가 되어야 본격적으로 공급될 예정이지만, 저는 최근 에이전트 기반 AI(Agentic AI) 워크로드를 위해 설계된 이 새로운 ARM 기반 CPU를 직접 테스트해 볼 기회를 얻었습니다. 엔비디아가 자체 설계한 '올림푸스(Olympus)' CPU 코어를 탑재한 베라 CPU는, 그동안 그 어떤 ARM이나 비-x86_64 프로세서에서도 보지 못했던 수준으로 인텔 및 AMD의 x86_64 CPU와 대등하게 경쟁할 수 있는 강력한 한 방을 보여주었습니다. 리눅스 환경에서 진행된 엔비디아 베라 CPU의 초기 벤치마크 결과를 확인해 보시기 바랍니다.
베라는 에이전트 기반 AI 및 이와 유사한 현대적 데이터 센터 워크로드를 위해 설계된 엔비디아의 차세대 데이터 센터 CPU입니다. 베라는 향후 AI 구동을 위한 강력한 랙 시스템인 '엔비디아 NVL72 베라 루빈(Vera Rubin)'의 호스트 CPU로 주로 탑재될 예정이며, 독립형 CPU 랙으로도 공급될 예정입니다. 암 네오버스-V2(Arm Neoverse-V2) 코어를 사용했던 기존 엔비디아 그레이스(Grace)와 달리, 베라는 엔비디아가 자체 설계한 '올림푸스' 코어 아키텍처를 채택했습니다.
베라는 88개의 올림푸스 코어를 탑재하여 전작 대비 2배의 성능을 제공하는 동시에 동급 최고 수준의 에너지 효율성까지 갖추었다고 명시되어 있습니다. 올림푸스 코어는 Armv9.2 ISA와 호환되며 FP8 정밀도 연산, 공간 멀티스레드(Spatial multi-threading)를 통한 총 176스레드를 지원합니다. 여기에 LPDDR5X 메모리와 결합되어 최대 1.2TB/s의 압도적인 메모리 대역폭을 구현합니다. 또한 그레이스에 비해 코어당 L2 캐시가 2MB로 두 배 늘어났고, 통합 L3 캐시는 164MB로 확장되었으며, PCIe Gen 6 및 CXL 3.1 연결성을 지원합니다.
이번 초기 벤치마크 테스트에 사용된 베라 CPU는 소켓 기준 피크 TDP가 450W였으며, LPDDR5X 메모리 자체의 소비 전력은 약 50W 이하 준입니다.

엔비디아 베라 데이터 센터 CPU는 올해 하반기 출시를 목표로 순항 중입니다. 본격적인 양산에 앞서 엔비디아는 저를 산타클라라 본사로 초청하여 올림푸스 코어가 탑재된 이 새로운 CPU의 첫 공개 벤치마크를 진행할 수 있도록 해주었습니다. 본 기사에 담긴 내용이 바로 그 초기 결과물입니다. 성능을 논하기 전에, 먼저 리눅스 지원 수준을 짚고 넘어갈 필요가 있습니다. 베라가 아직 공식 출시 전이기 때문에 메인라인 리눅스 커널 지원이나 주요 ARM64 리눅스 배포판에서의 지원 계획이 어떨지 전혀 예상할 수 없었으나, 다행히 엔비디아 베라는 이미 업스트림 리눅스 커널 지원 측면에서 훌륭한 상태를 갖추고 있었습니다. 리눅스 7.1 이상 버전에는 핵심 드라이버 지원이 이미 포함되어 있으며 우분투(Ubuntu), 페도라(Fedora) 등 ARM64 서버용 리눅스 배포판에서 원활하게 작동할 것으로 보입니다. 엔비디아는 모든 베라 관련 패치가 적용된 우분투 변형 버전인 '베이스 OS(Base OS)'도 지속적으로 제공할 예정입니다. 또한 ACPI를 기반으로 작동하므로, 리눅스 환경에서 개발자를 괴롭히던 디바이스 트리(Device Tree) 설정 등의 번거로운 문제 없이 깔끔하게 구동됩니다.

베라는 Armv9.2와 호환되고 암(Arm)의 서버 베이스 시스템 아키텍처(SBSA)를 준수하기 때문에, 기존의 공통 ARM 리눅스 드라이버를 상당 부분 그대로 활용합니다. 하드웨어가 출시되기 전에 업스트림 커널 지원 상태를 미리 추적하기 어려웠던 것도 바로 이 때문입니다. 베라가 지원하는 공통 ARM 리눅스 코드 중에는 가상머신(VM)을 통한 기밀 컴퓨팅을 지원하기 위해 현재 활발히 개발 중인 '암 기밀 컴퓨팅 아키텍처(Arm CCA)' 관련 작업도 포함되어 있습니다.
지난해 GCC와 LLVM Clang은 올림푸스 코어에 대한 지원을 추가했습니다. 즉, GCC 16.1 이상 또는 LLVM Clang 21 이상 버전을 사용하면 베라에 최적화된 바이너리를 빌드할 수 있습니다. 엔비디아가 이처럼 이른 시점에 올림푸스 컴파일러 지원을 도입한 것은 매우 훌륭하고 도전적인 시도였으며, 이러한 주도적인 노력은 칭찬받아 마땅합니다. 비교를 하자면, 엔비디아가 2025년 3월에 올림푸스 지원 코드를 업스트림한 반면, AMD 젠 6(znver6) 지원 코드는 지난해 12월이 되어서야 GCC에 추가되었고 LLVM/Clang에는 올해 2월에야 등장했습니다. 엔비디아의 이번 올림푸스 컴파일러 업스트림 행보는 그동안 인텔이 수년 전부터 보여주었던 '출시 전 선제적 지원' 방식과 닮아 있습니다. 엔비디아가 베라 컴파일러 및 전반적인 업스트림 작업에서 이와 같은 이니셔티브를 쥐고 가는 모습은 매우 보기 좋으며, 향후 차세대 엔비디아 CPU에서도 이러한 기조가 이어지기를 기대합니다.

엔비디아 본사에서 직접 다른 리눅스 배포판을 설치해 가며 테스트해 볼 수는 없었지만, 엔비디아 측의 설명에 따르면 오픈소스 리눅스 업스트림 지원은 이미 완벽한 궤도에 올라와 있다고 합니다. 제가 진행한 테스트는 패치된 리눅스 6.18 LTS 커널과 GCC 16.1이 결합된 엔비디아 베이스 OS 기반의 우분투 24.04 LTS 환경에서 수행되었습니다.
올림푸스 코어가 탑재된 엔비디아 베라는 리눅스에서 매끄럽게 작동했습니다. 다만 한 가지 유의할 점은 일부 전력 관리 튜닝 코드가 아직 업스트림 진행 과정에 있다는 것입니다. 최근 제가 기사로 다루었던 엔비디아의 리눅스용 ACPI CPPC v4 지원 작업이 바로 이와 관련된 부분으로 보입니다. 이 전력 관리 튜닝이 아직 완료되지 않은 관계로, 아쉽게도 엔비디아 측은 이번 초기 벤치마크 단계에서 CPU 소비 전력 모니터링을 비활성화해 줄 것을 요청했습니다. 마찬가지로 CPU 클럭(주파수) 모니터링 역시 허용되지 않았습니다. 아울러 이번 벤치마크는 양산 전 단계의 오픈 플랫폼 시스템에서 진행되었기 때문에, 실제 전력 소모나 클럭 변화는 2026년 말에 출시될 밀폐형 서버 섀시 디자인의 실제 양산형 제품에서 확인하는 것이 더 정확할 것입니다.
또한 엔비디아는 베라가 데이터 센터 시장에서 타겟으로 삼고 있는 주요 용도 및 영역에 부합하는 특정 워크로드 위주로만 테스트를 진행해 달라고 요청했습니다. 따라서 이번 첫 베라 벤치마크는 다양한 워크로드를 포괄적으로 다루지 못하고 엔비디아가 가장 유연하고 적합하다고 판단한 벤치마크 범위로 제한되었습니다. 여기에 제가 엔비디아 본사에 단 하루만 체류할 수 있었다는 시간적 제약도 작용했습니다. 비록 이번 기사가 스폰서를 받은 유료 리뷰는 아니지만, 이 초기 베라 CPU 벤치마크를 진행하기 위해 저는 엔비디아의 요청 수용 범위를 받아들였습니다. 향후 몇 달간 진행될 다음 단계의 테스트에서는 올림푸스 CPU 코어 자체의 전반적인 성능을 궁금해하는 유저들을 위해 더욱 광범위한 워크로드 테스트가 이루어지기를 기대합니다. 아울러 전력 관리 코드가 완전히 다듬어진 후, 진정한 전력 효율성과 와트당 성능에 대한 결과도 함께 전해드릴 수 있기를 바랍니다.
--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------