본문 바로가기

t2-bench1

Claude Opus 4.5 벤치마크 정리 | 코딩·에이전트·툴-사용 우위 모델의 실력은? Claude Opus 4.5는 SWE-bench Verified 80.9%, OSWorld 66.3%를 기록하며 코딩·에이전트·컴퓨터 사용 벤치마크에서 최고 성능을 달성한 Anthropic의 최신 플래그십 모델입니다.Claude Opus 4.5란 무엇인가 2025년 11월 24일, Anthropic은 Claude 4.5 패밀리의 최상위 모델인 Claude Opus 4.5를 공식 발표했습니다.이 모델은 "코딩, 에이전트, 컴퓨터 사용 분야에서 세계 최고의 모델"이라는 타이틀과 함께 등장했으며,OpenAI의 GPT-5.1과 Google의 Gemini 3 Pro가 연이어 출시된 직후 발표되어 AI 업계의 치열한 경쟁을 보여주고 있습니다.특히 Claude Opus 4.5 성능은 실제 소프트웨어 엔지니어링 작업을.. 2025. 11. 25.

이전 1 다음

티스토리툴바