Claude Fable 5가 SWE-Bench Pro에서 80.3%를 기록했다. Opus 4.8(69.2%)과의 격차가 11%포인트, GPT-5.5(58.6%)와는 22%포인트 차이다. 숫자만 보면 세대 교체가 맞다. 그런데 이 수치를 팀에 가져오는 순간, 전혀 다른 질문이 튀어나온다. "이 모델을 우리 코드베이스에 붙이면 우리 팀도 같은 결과가 나오나?" 대부분의 경우, 대답은 'No'다.
요즘IT 보도에 따르면, Stripe는 5천만 줄짜리 루비 코드베이스 마이그레이션을 사람 팀이라면 두 달 이상 걸릴 작업을 Fable 5로 하루 만에 끝냈다. 이게 가능했던 이유는 모델이 강해서만이 아니다. Stripe는 그 5천만 줄의 코드베이스가 어떻게 생겼는지, 어떤 패턴을 따르는지, 무엇을 건드리면 어디가 깨지는지를 모델이 이해할 수 있는 형태로 제공했을 것이다. 그 '이해할 수 있는 형태'가 바로 컨텍스트다. 벤치마크는 이상적인 컨텍스트가 주어졌을 때의 상한선이다. 팀 현장에서의 성능은 그 컨텍스트를 얼마나 잘 설계하느냐에 달려 있다.
Fable 5가 보여준 또 하나의 신호는 '오래 혼자 일하는' 능력이다. 사람 지시 없이 여러 단계를 스스로 처리하는 에이전트형 작업에서 이전 세대 모델과 격차가 벌어진다. 포켓몬 파이어레드를 비전만으로 클리어한 것도, CAD 에디터를 직접 만들고 그 안에서 3D 모델을 설계한 것도, 모두 같은 방향을 가리킨다—작업을 수행할 도구와 환경까지 스스로 세팅하는 단계. 이 능력이 팀에 실제로 발휘되려면, 에이전트가 루프를 돌리는 동안 '이 프로젝트에서 무엇이 정답인지'를 계속 참조할 수 있는 구조가 있어야 한다. 그 구조가 없으면, 강력한 에이전트는 강력한 속도로 엉뚱한 방향을 파고든다.
그래서 dev.to에서 TokenCap 같은 도구가 나오는 것은 우연이 아니다. TokenCap이 하는 일은 단순하다—코드베이스의 파일, 컴포넌트, 의존성 관계를 시각화하고, 아키텍처 결정과 개발 히스토리를 캡처하고, git diff를 임팩트 분석으로 변환해서, AI 어시스턴트가 소비할 수 있는 구조화된 컨텍스트 팩으로 압축한다. 이 도구가 풀려는 문제 자체가 현장의 병목을 정확히 짚는다. 개발자들이 AI 도구를 쓰기 전에 컨텍스트를 수동으로 모으는 데 시간을 낭비한다는 것. 모델이 강해질수록 이 수작업 병목은 더 선명하게 드러난다.
같은 맥락에서 '.md 파일 개발자가 되어가는 건가?'라는 dev.to의 글은 불편하지만 정확한 질문을 던진다. AI 에이전트가 제대로 작동하려면 프로젝트의 맥락, 제약, 결정 히스토리를 담은 지시문이 필요하다. 그 지시문을 .md 파일로 관리하는 일이 개발 스택의 일부가 되어가고 있다. 마크다운 문법을 배우는 게 문제가 아니다. 진짜 학습 곡선은 '모델이 이해할 수 있는 방식으로 프로젝트를 서술하는 능력'이다. 이건 문서 작성 능력이 아니라 컨텍스트 설계 역량이다.
팀 리빌딩 관점에서 이게 의미하는 바는 명확하다. Fable 5 수준의 모델을 팀에 통합한다고 해서 자동으로 Stripe 수준의 결과가 나오지 않는다. 모델 성능의 상한선을 팀이 실제로 활용하는 하한선으로 끌어올리는 작업이 따로 필요하다. 그 작업의 이름이 컨텍스트 엔지니어링이다. 구체적으로는 세 가지다. 첫째, 프로젝트의 아키텍처와 제약을 AI가 참조할 수 있는 구조로 문서화하는 것. 둘째, 코드베이스의 변경 이력과 결정 맥락을 유실하지 않고 누적하는 것. 셋째, 에이전트가 루프를 돌리는 동안 이 컨텍스트를 어떻게 주입할 것인지를 파이프라인 수준에서 설계하는 것.
모델 비용 문제도 같은 렌즈로 봐야 한다. Fable 5는 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러로 Opus 4.8의 두 배다. 이 비용이 합리적인지의 판단 기준은 '모델이 얼마나 강한가'가 아니라 '컨텍스트가 얼마나 잘 설계되어 있는가'에 달려 있다. 컨텍스트가 부실하면 강한 모델도 여러 번 왕복하며 토큰을 태운다. 반대로 컨텍스트가 정교하면 한 번의 요청으로 원하는 결과에 도달한다. 비용 효율과 품질은 모두 같은 곳에서 결정된다.
지금 당장 팀에서 시작할 수 있는 것은 거창하지 않다. 오늘 당장 Fable 5를 붙이기 전에 먼저 물어야 할 것은 이것이다. "우리 프로젝트의 아키텍처 결정과 제약 사항이 AI가 읽을 수 있는 형태로 어딘가에 존재하는가?" 대부분의 팀에서 대답은 'No'거나 '산재해 있다'일 것이다. 그 작업을 먼저 하는 팀이 Fable 5의 80.3%에 가장 가까워진다. 모델은 이미 충분히 강하다. 이제 병목은 모델 밖에 있다.