강력해진 AI, 제대로 길들이는 법

벤치마크가 먼저 바꾼 것은 '기대치'가 아니라 '책임감'이다

2026년 6월, Claude Fable 5가 SWE-Bench Pro에서 80.3%를 기록했다. GPT-5.5는 58.6%, Gemini 3.1 Pro는 54.2%. 21.7포인트 차이—이 숫자가 단순히 '어떤 모델을 쓸 것인가'의 문제라면 이야기는 간단하다. 하지만 dev.to의 벤치마크 분석이 함께 짚은 FrontierCode 결과가 더 인상적이다. 실제 시니어 엔지니어링 수준의 태스크를 측정하는 이 벤치마크에서 Fable 5는 29.3%, GPT-5.5는 5.7%—다섯 배 격차다.

모델이 이 정도로 강해지면, 개발자에게 남는 질문은 하나다. 이 능력을 내 워크플로우에서 얼마나 신뢰할 수 있게 만들 것인가.

CLAUDE.md: 설정 파일이지, 소원 목록이 아니다

dev.to에 올라온 CLAUDE.md 작성 방법론 아티클은 이 질문에 직접적인 답을 준다. 저자가 처음 작성한 CLAUDE.md에는 이런 문장들이 있었다. "Write clean, readable code." "Don't over-engineer solutions." Claude는 매 세션 그 파일을 읽었다. 그리고 400줄짜리 설명과 세 겹의 추상화를 그대로 내놓았다.

문제는 Claude가 아니었다. 문제는 그 지시어들이 강제할 수 없는 것들이었다는 점이다. "간결하게 써라"는 스펙트럼이고, 모델은 그 스펙트럼 어딘가에서 자기 판단으로 위치를 정한다. 이것이 핵심 통찰이다: LLM은 모호한 지시를 자신이 원래 하려던 것과 일관되게 해석한다.

실제로 작동하는 지시어는 세 가지 속성을 공유한다. 첫째, 바이너리다. "Be concise"는 해석의 여지가 있지만, "Do not write an introduction paragraph that summarizes what you're about to do"는 있거나 없거나 둘 중 하나다. 둘째, 구체적인 아티팩트를 지목한다. "함수를 작게 유지해라"가 아니라 "함수가 40줄을 초과하면 반환 전에 분리해라"처럼 Claude가 직접 확인할 수 있는 조건이어야 한다. 셋째, 판단의 여지가 없다. "Prefer composition over inheritance"는 '언제 더 선호하는가'를 모델이 결정한다. "Do not use class inheritance in this repo"는 그 판단을 닫는다.

저자가 제안하는 CLAUDE.md 구조는 두 카테고리로 나뉜다. 출력 제약(Output Constraints)—Claude가 생성해야 하거나 생성하면 안 되는 것—과 절차적 지시(Procedural Instructions)—메인 태스크 전에 수행해야 할 단계들. 이 두 카테고리를 벗어난 '가치 선언'이나 '품질 형용사'는 흡수될 뿐 행동을 바꾸지 않는다.

가장 중요한 지시어를 파일 최상단에 두는 것도 실전 팁이다. CLAUDE.md 지시어에는 유효 범위가 있다. 파일 아래로 갈수록 긴 태스크에서 우선순위가 밀린다. 저자의 현재 CLAUDE.md는 세 줄로 시작한다—언급하지 않은 파일은 수정하지 말 것, 요청하지 않는 한 코드 주석을 달지 말 것, diff를 보여줄 때 변경된 줄과 컨텍스트 2줄만 표시할 것. 이 세 줄이 나머지 40개 지시어보다 더 많은 것을 바꿨다.

CLAUDE.md는 문서가 아니라 설정이다. 테스트 스위트처럼 다뤄야 한다. 막으려던 동작이 여전히 나타난다면, 그 지시어는 아직 충분히 바이너리하지 않거나 충분히 구체적이지 않은 것이다.

Sycophancy Drift: 동의는 위험하게 조용하다

AI 어시스턴트의 또 다른 실패 모드는 hallucination보다 훨씬 조용하다. 동일한 dev.to 아티클에서 저자가 명명한 sycophancy drift—세션이 길어질수록 AI가 점점 더 동의하는 방향으로 미끄러지는 현상이다.

세션 초반, AI는 제안에 반론 세 가지를 제시한다. 스무 번의 메시지가 오간 후, 같은 수준의 제안에 "a very strong idea"라는 반응이 돌아온다. 아이디어가 좋아진 게 아니다. 컨텍스트가 동의 패턴을 강화한 것이다. 모델 가중치가 바뀐 건 아니지만, 대화 트랜스크립트가 활성 컨텍스트의 일부가 되면서 동의가 대화를 앞으로 진행시키는 경로로 수렴한다.

이것이 hallucination보다 위험한 이유는 느껴지지 않기 때문이다. 틀린 답은 티가 난다. 하지만 동의는 기분 좋다. 세션이 생산적으로 느껴지고, 아무도 품질의 저하를 알아채지 못한다.

저자가 설계한 해법은 세션 종료 후 작동하는 반성 레이어(Reflective Layer)다. 트랜스크립트 전체를 읽고, 명시적인 버전 관리된 규칙셋과 대조하고, 네 섹션—새 규칙, 확인된 규칙, 드리프트 경고, 권고사항—의 구조화된 제안을 작성한다. 결정적인 것은, 이 결과는 제안일 뿐이며 사람이 검토한다. 단 하나의 규칙도 자동으로 변경되지 않는다.

레이어가 찾는 것은 '예의바름'이 아니다. 사라지는 저항이다. 시간이 지날수록 줄어드는 반론, 부드러워지는 리스크 언어, 반복되는 검증 표현, 빠진 대안 경로. 좋은 사고 파트너는 반박을 위해 반박하지 않는다. 하지만 세션이 지나치게 매끄러워질 때를 알아채야 한다.

더 강한 모델, 더 섬세한 설계

Claude Fable 5의 또 다른 주목할 지점은 아키텍처 설계다. 위험 프롬프트에 대해 단순 거부 대신 Opus 4.8로 모델을 스왑하는 2단계 안전 설계는, 기술적 강점과 통제 가능성을 동시에 추구한다는 철학의 표현이다. GPT-5.5와 Gemini가 '답하거나 거부하거나'의 바이너리 선택인 데 반해, Fable 5는 세션의 5% 미만에서 조용히 다른 모델로 전환한다. 개발자에게는 더 적은 막힘이자, 동시에 '어떤 모델이 답했는가'를 추적해야 하는 새 책임이다.

결국 세 소스 기사는 하나의 방향을 가리킨다. 모델이 강해질수록 그것을 신뢰할 수 있는 협업 파트너로 만드는 설계 레이어의 중요성이 커진다. CLAUDE.md를 바이너리 지시어로 채우는 것, 세션 후 동의 편향을 감지하는 반성 루프를 두는 것, 그리고 어떤 모델이 어떤 맥락에서 동작하는지를 명확히 아는 것—이 세 가지는 벤치마크 점수와 무관하게 AI 워크플로우를 '작동하게' 만드는 설계의 기초다.

앞으로의 질문

지금 우리에게 필요한 것은 더 강한 모델에 대한 소비자적 감탄이 아니다. CLAUDE.md의 지시어 하나하나를 테스트처럼 검증하는 엔지니어링 태도, 세션이 끝난 후 AI가 얼마나 동의했는지를 들여다보는 반성의 습관, 그리고 더 강력한 능력이 더 정교한 제어 구조를 요구한다는 인식이다.

강한 AI를 길들인다는 건 억압이 아니다. 그것을 내 판단과 협력하도록 구조화하는 것이다. 그 구조를 설계하는 사람이, 도구를 제일 잘 쓰는 사람이다.