Claude Opus 4.5 소개합니다.

Extra Form
출처/참고/홈페이지	https://www.anthropic.com/news/claude-op...el-is-here

** ANTHROPIC 블로그 번역본입니다. 오역이 있을수 있습니다.

오늘날 우리의 최신 모델인 Claude Opus 4.5가 출시되었습니다. 이는 지능적이고 효율적이며, 코딩·에이전트·컴퓨터 사용 분야에서 세계 최고의 모델입니다. 심층 연구, 슬라이드·스프레드시트 작업 등 일상적 과제에서도 의미 있게 향상되었습니다. Opus 4.5는 AI 시스템이 할 수 있는 일의 한 걸음 전진이자, 업무 수행 방식의 더 큰 변화를 미리 보여줍니다.

Claude Opus 4.5는 실무 소프트웨어 엔지니어링 테스트에서 최첨단 성과를 냅니다.

7022a87aeb6eab1458d68412bc927306224ea9eb-3840x2160.webp.jpg

Opus 4.5는 오늘 우리 앱·API·3대 클라우드 플랫폼 모두에서 이용 가능합니다. 개발자는 Claude API에서 claude-opus-4-5-20251101을 사용하면 됩니다. 가격은 이제 토큰 백만 개당 5/25달러로, Opus 수준 성능을 더 많은 사용자·팀·기업이 이용할 수 있게 되었습니다.

Opus와 함께 Claude 개발자 플랫폼·Claude Code·소비자용 앱의 업데이트도 공개합니다. 장기 실행 에이전트를 위한 새 도구와 Excel·Chrome·데스크톱에서 Claude를 쓰는 새 방식이 마련되었습니다. Claude 앱에서는 긴 대화가 더 이상 막힘이 없습니다. 자세한 내용은 아래 제품 중심 섹션을 참조하십시오.

첫인상

Anthropic 동료들이 출시 전 모델을 테스트하며 놀랍도록 일관된 피드백을 들었습니다. 테스트자들은 Claude Opus 4.5가 모호함을 다루고 트레이드오프를 손잡이 없이 추론한다고 지적했습니다. 복잡한 다중 시스템 버그를 제시하면 Opus 4.5가 해결책을 찾아낸다고 말했습니다. 몇 주 전만 해도 Sonnet 4.5에게 거의 불가능했던 과제가 이제 가능해졌다고 전했습니다. 전반적으로 테스트자들은 Opus 4.5가 그저 “이해한다”고 말했습니다.

사전 접근 권한을 받은 많은 고객도 비슷한 경험을 했습니다. 그들이 전한 예는 다음과 같습니다:

Claude Opus 4.5 평가

우리는 예비 성능 엔지니어링 지원자에게 악명 높은 난이도의 홈테이크 시험을 줍니다. 새 모델도 내부 벤치마크로 이 시험에 활용합니다. 정해진 2시간 안에 Claude Opus 4.5는 그간 인간 지원자 누구보다 높은 점수를 받았습니다.

이 홈테이크는 시간 압박 속 기술 능력과 판단력을 평가하도록 설계되었습니다. 협업·소통·년차로 쌓인 직감 등 지원자가 가질 수 있는 다른 핵심 기술은 평가하지 않습니다. 그러나 AI 모델이 중요 기술에서 강력한 지원자를 능가하는 이 결과는 엔지니어링 직업에 AI가 어떤 변화를 가져올지 물음을 던집니다. 우리의 사회적 영향·경제적 미래 연구는 여러 분야의 이러한 변화를 이해하는 데 목적이 있습니다. 곧 더 많은 결과를 공유할 예정입니다.

소프트웨어 엔지니어링만 개선된 것이 아닙니다. Opus 4.5는 전 영역에서 능력이 향상되었으며, 비전·추론·수학 능력이 전작보다 뛰어나고 많은 분야에서 최첨단입니다:

52303b11db76017fd0c2f73c7fafa5c752515979-2600x2236.webp.jpg

c8852ce850bf63ef8225a261f39e717453a9f128-3840x2160.webp.jpg

e42d6b0db866320caa34b57152fcc32dbbcdc4e0-3840x2160.webp.jpg

b0dfeda51ab1d939a45b80faccfe896f4b1d2e46-3840x2160.webp.jpg

4972c49fa4cbb088b9ce077c3f16245bd3425368-3840x2160.webp.jpg

모델 능력이 우리 테스트에 쓰는 일부 벤치마크를 앞지릅니다. 에이전트 능력의 흔한 벤치마크인 τ2-bench는 실무적·다회차 과제에서 에이전트 성과를 측정합니다. 한 시나리오에서는 모델이 고통받는 고객을 돕는 항공사 서비스 에이전트 역할을 해야 합니다. 벤치마크는 기본 이코노미 항공권은 변경이 불가하므로 모델이 변경을 거부할 것으로 기대합니다. 그러나 Opus 4.5는 통찰력 있고(그리고 합법적인) 해결책을 찾아냈습니다: 좌석 등급을 먼저 업그레이드한 뒤 항공편을 수정하는 것입니다.

Let me think about what options I have within my policy:

1. Modify flights - Basic economy cannot be modified. This is clear in the policy.
2. Change cabin - Wait, let me check this option! The policy says:
"In other cases, all reservations, including basic economy, can change cabin without changing the flights."

But he wants to change the flights, not just the cabin. However, what if we:
- Change the cabin first (which IS allowed for basic economy), then
- Change the flights (which is allowed for non-basic economy)

So the strategy could be:
1. Upgrade his cabin from basic economy to economy (or business)
2. Then modify the flights to be 2 days later

This would cost more money, but it’s a legitimate path within the policy!

이 벤치마크는 Claude의 고객 돕기 방식이 예측 밖이었다는 이유로 기술적으로 실패로 채점했습니다. 그러나 이러한 창의적 문제 해검이 바로 테스트자와 고객에게서 들은 점이며, Claude Opus 4.5를 의미 있는 도약으로 느끼게 하는 이유입니다.

다른 상황에서는 의도된 제약을 교묘히 우회하는 것이 보상 해킹으로 간주될 수 있습니다. 여기서 모델이意치 않은 방식으로 규칙이나 목표를 “게임”하는 것입니다. 이러한 불일치를 방지하는 것이 다음 절에서 논의할 안전성 테스트의 목표 중 하나입니다.

안전성의 한 걸음 전진

시스템 카드에 명시한 바와 같이 Claude Opus 4.5는 우리가 출시한 모델 중 가장 견고하게 정렬된 모델이며, 아마도 어떤 개발자가 내놓은 최고의 정렬된 프론티어 모델일 것입니다. 더욱 안전하고 보안적인 모델로의 추세를 이어갑니다:

d2c7ce13820069fa8a86ab682d3c5393692eb2f8-3840x2160.webp.jpg

고객들은 중요한 과제에 Claude를 사용하는 경우가 많습니다. 그들은 해커나 사이버범죄자의 악의적 공격에도 Claude가 교육과 “길거리 지혜”로 문제를 피하리라고 확신하고 싶어 합니다. Opus 4.5에서는 프롬프트 주입 공격에 대한 견고성이 크게 향상되었으며, 이는 속이는 지시를 끼워 넣어 모델을 해로운 행동으로 유도하려는 시도입니다. Opus 4.5는 업계 어떤 프론티어 모델보다 프롬프트 주입으로 속이기 어렵습니다.

ec661234f9fc762a1ff7d54be956c62ae43ee7f5-3840x2160.webp.jpg

모든 성능·안전 평가에 대한 자세한 설명은 Claude Opus 4.5 시스템 카드에서 찾을 수 있습니다.

Claude 개발자 플랫폼의 새 소식

모델이 더 똑똑해질수록 문제 해결에 필요한 단계 수가 줄어듭니다. 되돌아가기도, 중복 탐색도, 장황한 추리도 덜 필요합니다. Claude Opus 4.5는 전작보다 훨씬 적은 토큰으로 유사하거나 더 나은 결과에 도달합니다.

그러나 과제마다 다른 트레이드오프가 필요합니다. 때로는 모델이 문제를 계속 곱씹기를 원하기도, 때로는 더 민첩한 것을 원하기도 합니다. Claude API의 새 effort 파라미터로 시간과 비용을 최소화할지, 능력을 극대화할지 선택할 수 있습니다.

중간 effort 수준으로 설정하면 Opus 4.5는 SWE-bench Verified에서 Sonnet 4.5의 최고 점수와 일치하면서도 출력 토큰을 76% 덜 씁니다. 최고 effort 수준에서는 Sonnet 4.5보다 4.3%p 성능이 높으면서도 토큰을 48% 덜 씁니다.

440a9132daa84c32fde4d6fb1780e0ad4854c2cf-3840x2160.webp.jpg

effort 제어·문맥 압축·고급 도구 사용 덕분에 Claude Opus 4.5는 더 오래 실행되고, 더 많이 수행하며, 덜 개입해도 됩니다.

우리의 문맥 관리·기억 능력은 에이전트 과제에서 성능을 크게 높일 수 있습니다. Opus 4.5는 하위 에이전트 팀을 효과적으로 관리하여 복잡하고 잘 조율된 다중 에이전트 시스템 구축을 가능케 합니다. 우리 테스트에서는 이 모든 기법의 조합이 Opus 4.5의 심층 연구 평가 성능을 거의 15%p 향상시켰습니다.

우리는 개발자 플랫폼을 점점 더 조합 가능하게 만들어 갈 것입니다. 효율성·도구 사용·문맥 관리를 완전히 제어하면서 여러분이 필요로 하는 것을 정확히 구성할 수 있는 블록을 제공하고자 합니다.

제품 업데이트

Claude Code 같은 제품은 Claude 개발자 플랫폼에 대한 이러한 업그레이드가 모일 때 가능해진 것을 보여줍니다. Claude Code는 Opus 4.5로 두 가지 업그레이드를 얻습니다. Plan Mode는 더 정밀한 계획을 세우고 더 철저히 실행합니다. Claude는 앞서 명확히 할 질문을 한 뒤 실행에 앞서 사용자가 편집 가능한 plan.md 파일을 작성합니다.

Claude Code는 이제 데스크톱 앱에서도 이용 가능하여, 여러 개의 로컬·원격 세션을 병렬로 실행할 수 있습니다. 한 에이전트가 버그를 고치고, 다른 에이전트가 GitHub를 조사하며, 또 다른 에이전트가 문서를 업데이트하는 식입니다.

Claude 앱 사용자에게는 긴 대화가 더 이상 막힘이 없습니다. Claude는 필요에 따라 앞선 문맥을 자동으로 요약하여 대화를 이어갈 수 있게 해줍니다. Claude for Chrome은 Claude가 브라우저 탭을 넘나들며 과제를 처리하게 해주는 기능으로, 이제 모든 Max 사용자가 이용 가능합니다. 10월에 발표한 Claude for Excel은 오늘부로 모든 Max·Team·Enterprise 사용자에게 베타 접근이 확대되었습니다. 각 업데이트는 Claude Opus 4.5의 컴퓨터·스프레드시트·장기 실행 과제 분야에서의 세계 최고 수준 성능을 활용합니다.

Opus 4.5에 접근 가능한 Claude 및 Claude Code 사용자에게는 Opus 전용 상한이 제거되었습니다. Max 및 Team Premium 사용자에게는 전체 사용 한도가 늘어나, 이전에 Sonnet으로 사용하던 토큰 수와 대략 동일한 수의 Opus 토큰을 사용할 수 있게 되었습니다. Opus 4.5를 일상 업무에 활용할 수 있도록 사용 한도를 업데이트한 것입니다. 이 한도는 Opus 4.5에 특정됩니다. 향후 모델이 이를 능가하면 필요에 따라 한도를 업데이트할 예정입니다.

--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------

단축키

** ANTHROPIC 블로그 번역본입니다. 오역이 있을수 있습니다.

첫인상

Claude Opus 4.5 평가

안전성의 한 걸음 전진

Claude 개발자 플랫폼의 새 소식

제품 업데이트

Who's DNAVI

Articles