Cursor를 켜고 "로그인 버그 고쳐줘"라고 입력하면, AI는 무엇을 읽는가. 당신이 의도한 파일 세 개가 아니라, 프로젝트 전체를 훑는다. 50개 파일, 수천 개의 토큰—질문에 답하기도 전에 컨텍스트 절반이 날아가는 구조다. 이것은 AI 도구의 성능 문제가 아니라, 입력 구조를 설계하지 않은 결과다.
이 문제를 정면으로 다룬 프로젝트가 있다. 밀라노의 16세 개발자 Matteo Turri가 만든 오픈소스 표준 FolioDux다. 아이디어는 단순하다. 프로젝트 루트에 FOLIODUX.md 파일 하나를 두고, AI가 코드베이스 전체 대신 이 '인덱스'를 먼저 읽게 한다. 인덱스에는 파일별 역할, 기술 스택, 자주 요청되는 작업과 연관 파일 목록이 압축 키워드 형식으로 담긴다. 이후 AI는 요청과 관련된 파일만 선택적으로 읽는다. "로그인 버그 수정" 요청이라면 50개 파일 대신 AuthView.tsx, authService.ts, server.ts 세 파일만 읽는다. 토큰 소비는 4,000개에서 약 300개로 줄고, 응답 정확도는 오히려 올라간다.
핵심은 파일 형식보다 두 가지 규칙에 있다. 첫 번째는 'Navigate Before Responding'—AI가 매 응답 전 반드시 인덱스를 먼저 확인하게 강제하는 시스템 프롬프트 규칙이다. 두 번째는 'Update After Creating'—새 파일을 만들 때마다 AI가 인덱스를 스스로 업데이트하게 한다. 이 두 규칙이 없으면 인덱스는 순식간에 낡은 문서가 된다. 반대로 이 규칙이 작동하면, 인덱스는 프로젝트가 성장할수록 자동으로 정교해진다. Claude Projects, Cursor, ChatGPT, Gemini 등 시스템 프롬프트를 받는 모든 도구에 동일하게 적용된다.
그런데 컨텍스트 설계는 '토큰 절약'에서 끝나지 않는다. 더 깊은 질문은 이것이다—AI가 읽은 데이터를 얼마나 신뢰할 수 있는가. dev.to에 공개된 금융 시장 AI 파이프라인 'The First Tick' 구축 사례는 이 지점을 날카롭게 짚는다. 제작자는 매일 장 시작 전 Claude를 이용해 시장 브리핑을 자동 생성하는 시스템을 만들었다. 그런데 그가 가장 많은 시간을 쏟은 건 모델 선택이나 프롬프트 작성이 아니었다. 모델을 감싸는 검증 레이어였다.
그가 설계한 원칙은 단호하다. "틀린 브리핑을 내보내느니 아예 발송을 멈춘다." 브리핑이 나가기 전, 시스템은 두 종류의 검사를 거친다. 하나는 실제 데이터 소스와 수치를 대조하는 결정론적 검증—날짜, 실적 숫자, 섹터 등락폭이 원본과 맞아떨어지지 않으면 발송이 차단된다. 나머지 하나는 Human-in-the-loop 게이트—시스템이 의심스럽다고 판단하면 자동 발송 대신 제작자에게 알림이 간다. 제작자가 직접 승인·수정·폐기를 결정한다. "자동화"라고 부르지만 판단의 최종 책임은 사람에게 남아 있다.
두 사례가 함께 가리키는 지점이 있다. AI 도구의 성능은 무엇을 넣느냐와 무엇이 나왔을 때 멈출 것인가를 설계하는 사람의 역량에 수렴한다. FolioDux는 입력 단계의 설계 문제를 다루고, The First Tick은 출력 단계의 신뢰 문제를 다룬다. 둘 다 AI 모델 자체가 아닌 '모델 주변 구조'에 집중한다는 공통점이 있다. The First Tick 제작자의 말이 이를 잘 요약한다. "모델은 전체 작업의 20%다. 나머지 80%는 데이터 무결성, 검증, 그리고 실패를 처리하는 배관 공사다."
프론트엔드 개발 맥락으로 다시 가져오면, 이 구조는 더 직접적인 실무 언어로 번역된다. Cursor나 Claude로 컴포넌트를 짜게 할 때, AI가 읽어야 할 파일 범위를 명시적으로 좁히지 않으면 관련 없는 전역 상태나 설정 파일까지 끌어들여 엉뚱한 사이드 이펙트를 만들 수 있다. 반대로 너무 좁히면 필요한 타입 정의나 공통 유틸을 놓친다. FolioDux 방식처럼 의미 단위로 파일을 그룹화하고, 요청 유형별로 관련 파일을 미리 매핑해두는 것은 단순한 토큰 절약을 넘어서—AI가 잘못된 가정을 하지 않도록 컨텍스트를 사전에 프레이밍하는 행위다.
앞으로 컨텍스트 윈도우는 계속 커지겠지만, 그것이 '모든 파일을 다 넣어도 된다'는 의미는 아니다. 넓어진 창문에 더 많은 노이즈를 채울 것인가, 더 정밀하게 선별된 신호만 남길 것인가—이 선택이 AI 보조 개발의 품질을 가른다. 컨텍스트 설계는 더 이상 최적화 옵션이 아니라, AI 워크플로우의 첫 번째 설계 책임이다.