본문 바로가기

SWE-bench3

Claude Sonnet 4.5 해부 | 30시간 코딩 AI의 혁신 기능과 활용법 Claude Sonnet 4.5는 30시간 이상 자율적으로 작동하는 세계 최고의 코딩 AI 모델로, SWE-bench에서 77.2%의 업계 최고 점수를 달성하며 복잡한 에이전트 개발과 컴퓨터 사용에서 획기적인 성능 향상을 제공합니다.Claude Sonnet 4.5가 AI 코딩의 판도를 바꾼 이유 2025년 9월 29일, Anthropic은 Claude Sonnet 4.5를 공식 출시하며 AI 개발 도구 시장에 새로운 기준을 제시했습니다.이 모델은 복잡한 멀티스텝 작업에서 30시간 이상 집중력을 유지하며 자율적으로 작업을 수행할 수 있는 능력을 갖추고 있습니다.기존의 Claude Opus 4가 7시간의 자율 작업 시간을 제공했던 것과 비교하면 4배 이상의 비약적인 발전입니다.Claude AI 최신 모델인 .. 2025. 10. 1.
SWE-bench, Smart Bench, Workbench: 최신 벤치마크와 스마트 벤치 의미 완벽 가이드 SWE-bench 뜻부터 smart bench란 무엇인지, workbench 의미까지 2025년 최신 벤치마크 트렌드와 스마트 벤치 기술의 모든 것을 상세히 알아보겠습니다.SWE-bench 벤치마크란? AI 소프트웨어 개발 능력의 새로운 기준SWE-bench 뜻과 기본 개념SWE-bench는 "Software Engineering Benchmark"의 줄임말로,AI 모델의 실제 소프트웨어 엔지니어링 능력을 평가하는 최신 벤치마크입니다.Princeton University에서 개발한 이 벤치마크는 2,294개의 실제 GitHub 이슈와 해당 Pull Request 쌍으로 구성되어 있습니다. SWE-bench의 핵심 특징실제 오픈소스 프로젝트의 GitHub 이슈 활용12개의 인기 Python 저장소에서 수집.. 2025. 8. 7.
Claude Opus 4.1: 에이전트 작업, 실전 코딩, 추론 능력이 대폭 강화된 최신 AI 모델 출시 소식 및 주요 변화 Claude Opus 4.1이 출시되며 SWE-bench에서 74.5%의 성능을 달성하여 실전 코딩과 에이전트 작업 능력이 대폭 향상되었습니다.2025년 8월 5일, Anthropic에서 Claude Opus 4.1 업데이트를 발표했습니다.이번 업데이트는 Claude Opus 4의 후속 버전으로, 에이전트 작업과 실전 코딩, 그리고 추론 능력에서 상당한 성능 향상을 보여주고 있습니다.특히 Claude SWE-bench 성능에서 74.5%라는 기록적인 점수를 달성하며, AI 개발 분야에서 새로운 이정표를 세웠습니다.Claude Opus 4.1의 핵심 성능 향상 사항SWE-bench에서의 획기적 성과Claude Opus 4.1 성능의 가장 주목할 만한 부분은 SWE-bench Verified에서 달성한 74.. 2025. 8. 6.