새로운 연구는 추론 모델이 문제를 통해 실제로 "생각"할 수 있다는 생각에 도전합니다. 출처: ChatGPT로 만들어졌습니다.
**번역본뉴스입니다. 오역이 있을수 있습니다.
작년에는 전통적인 LLM이 마침내 성능의 벽에 부딪히는 것처럼 보였던 짧은 순간이 있었습니다. 그러다 OpenAI의 o1과 딥시크의 R1과 같은 추론 모델이 등장했습니다. 문제를 작은 단계로 세분화하여 더 복잡한 프롬프트에 대처할 수 있었습니다.
추론 모델은 더 많은 컴퓨팅을 투입할수록 점점 더 나아질 것이라는 생각이 들었습니다. 결국 그들은 한 번도 훈련된 적이 없는 것에 대한 질문에 답하고 새로운 발견을 할 수 있게 될 것입니다. 하지만 한 그룹의 Apple 연구진이 이 이론을 시험해 보았습니다.
연구: 연구자들은 추론 모델과 비이성적 모델 모두 일련의 퍼즐을 풀 수 있는 기회를 제공했습니다. 가장 간단한 퍼즐을 사용하면 과도한 생각을 덜 할 수 있기 때문에 비이성적 모델이 가장 잘 작동했습니다. 한편, 예상대로 추론 모델은 더 복잡하고 중간 단계의 퍼즐에서 더 나은 성능을 보였습니다.
하지만 중요한 점은 다음과 같습니다: 가장 어려운 최상위 퍼즐을 사용하면 추론 모델의 '생각' 능력이 완전히 떨어졌습니다. 사실 그들은 평소보다 일찍 포기했고, 정답을 생각해내려고 하지도 않았습니다. 더 많은 계산 능력을 제공하는 것도 도움이 되지 않는 것 같았습니다.
그 의미: 이 연구는 추론 모델이 근본적으로 고유한 것이 아니라 이미 학습된 데이터에서 패턴을 찾아 비이성적 모델과 동일하게 작동한다고 제안합니다. 단일 연구에서 너무 많은 것을 읽어서는 안 되지만, AGI가 생각보다 멀리 떨어져 있을 수 있으며 AI를 진정으로 한 단계 더 발전시키기 위해 다양한 접근 방식과 아키텍처를 마련해야 할 것임을 시사합니다.
--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------
**애플의 논문 Gemini2.5 pro preview로 요약한 내용입니다.
논문다운로드 : the-illusion-of-thinking.pdf
다음은 "사고의 환상: 문제 복잡성 렌즈를 통해 본 추론 모델의 강점과 한계 이해" 논문을 요약한 내용입니다.
핵심 요약
이 논문은 OpenAI의 o1, Claude 3.7 Sonnet Thinking, DeepSeek-R1과 같은 최신 **대규모 추론 모델(LRM)**의 실제 추론 능력에 대해 체계적으로 분석합니다. 연구진은 기존의 수학/코딩 벤치마크가 데이터 오염 문제 등으로 인해 모델의 진정한 능력을 평가하기 어렵다고 주장하며, 대신 **복잡도를 정밀하게 조절할 수 있는 퍼즐 환경(하노이의 탑, 블록 월드 등)**을 사용했습니다. 이를 통해 모델의 최종 답변뿐만 아니라, "생각"하는 과정(reasoning trace)까지 심층적으로 분석했습니다.
주요 연구 결과
성능 붕괴와 역설적인 스케일링 한계:
모든 LRM은 특정 복잡도 임계점을 넘어서면 정확도가 0%로 완전히 붕괴되는 현상을 보였습니다.
더 흥미로운 점은, 문제 복잡도가 증가함에 따라 모델의 추론 노력(생성하는 '생각' 토큰 수)도 증가하다가, 성능 붕괴 지점에 가까워지면 오히려 감소하는 역설적인 스케일링 한계를 보였습니다. 이는 충분한 토큰 예산이 있어도 더 복잡한 문제에 대해 생각하기를 포기하는 것으로, LRM의 근본적인 한계를 시사합니다.
세 가지 성능 구간 (일반 LLM vs. LRM):
저복잡도 구간: 놀랍게도 '생각' 기능이 없는 일반 LLM이 LRM보다 더 정확하고 효율적이었습니다. LRM은 간단한 문제에 대해 불필요하게 많이 생각하는("과잉사고", overthinking) 경향을 보였습니다.
중복잡도 구간: LRM의 '생각' 기능이 명확한 이점을 보이며 일반 LLM보다 높은 성능을 기록했습니다.
고복잡도 구간: LRM과 일반 LLM 모두 성능이 완전히 붕괴되었습니다. LRM이 붕괴를 약간 지연시킬 뿐, 근본적인 한계는 동일했습니다.
'생각' 과정 분석의 시사점:
간단한 문제에서는 정답을 초반에 찾아내고도 불필요한 탐색을 계속하며 비효율성을 보였습니다.
복잡한 문제에서는 정답에 도달하지 못하고 잘못된 경로만 탐색하다 실패했습니다.
이는 모델의 자기 교정(self-correction) 능력에 명확한 한계가 있음을 보여줍니다.
정확한 계산 능력의 한계:
가장 놀라운 발견 중 하나로, 모델에게 퍼즐을 푸는 명시적인 알고리즘(예: 하노이의 탑 재귀 알고리즘)을 프롬프트에 제공해도 성능이 전혀 개선되지 않았습니다.
이는 LRM이 단순히 문제 해결 전략을 짜는 것뿐만 아니라, 주어진 논리적 단계를 정확히 실행하는 능력 자체에 근본적인 약점이 있음을 의미합니다.
결론
이 논문은 현재의 LRM이 보여주는 '생각'이 진정한 의미의 일반화된 추론이라기보다는, 정교하지만 깨지기 쉬운 패턴 매칭의 한 형태일 수 있다는 **"사고의 환상"**을 제기합니다. LRM은 문제의 구성적 복잡도가 증가함에 따라 예측 가능하게 실패하며, 이는 단순히 계산 능력 부족이 아닌, 현재 접근법의 근본적인 장벽에 부딪히고 있음을 시사합니다.