**번역본뉴스입니다. 오역이 있을수 있습니다.
DeepSeek이 발표한 소형 AI 모델 DeepSeek-R1-0528-Qwen3-8B, 수학 문제 해결 능력에 주목받아
최근 AI 업계에서 가장 많은 관심을 받고 있는 DeepSeek의 새로운 추론 모델 R1에 이어,DeepSeek은 소위 ‘거주된’ 버전인 DeepSeek-R1-0528-Qwen3-8B을 함께 공개하였습니다. DeepSeek에 따르면, 이 소형 모델은 일부 벤치마크에서 비슷한 크기의 다른 모델들보다 우수한 성능을 드러냈다고 합니다.
알리바바가 5월에 공개한 Qwen3-8B 모델을 기반으로 구축된 이 소형 업데이트 버전은 어려운 수학 문제를 모아놓은 AIME 2025에서 긱글의 제미니 2.5 플래시보다 더 뛰어난 수행 능력을 보여주었다고 합니다.
이들 소형 모델은 크기가 큰 원본에 비해 일반적으로 성능이 다소 낮을 수는 있지만, 필요한 컴퓨팅 자원은 현저히 적게 듭니다. 클라우드 플랫폼 NodeShift에 따르면 Qwen3-8B는 GPU 메모리가 40GB~80GB인 연산 장비(예: 엔디비아 H100)가 필요하지만, 원본 R1 모델을 돌리려면 12배인 약 80GB GPU가 필요하다고 합니다.
DeepSeek은 원본 R1이 생성한 텍스트를 사용해 Qwen3-8B를 미세 조정(fine-tune)하여 DeepSeek-R1-0528-Qwen3-8B를 학습시켰으며,
AI 개발 플랫폼 Hugging Face에 올린 모델 소개 페이지에서, DeepSeek은 이 모델을 “추론 모델에 관한 학문적 연구와 소규모 산업 개발 모두를 위한 모델”로 설명하고 있습니다. 이들 모델은 허가형인 MIT 라이선스 하에 공개되어 있어 상업적으로 제약 없이 사용 가능하며, LM Studio 등의 여러 호스트를 통해 API로 이용할 수 있다고 합니다.
deepseek-r1-0528-qwen3-8b is here! 🔥
— LM Studio (@lmstudio) May 29, 2025
As a part of their new model release, @deepseek_ai shared a small (8B) version trained using CoT from the bigger model.
Available now on LM Studio. Requires at least 4GB RAM. pic.twitter.com/T7dOKdNaVN
--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------