AI 에이전트가 산출물을 만들 때, 워크플로우 설계권은 사람이 쥐어야 한다

AI가 '잘' 만들수록 드러나는 진짜 문제

Claude Code로 PPT를 뚝딱 만드는 건 이제 낯설지 않다. 문제는 그 다음이다. "4번 슬라이드 오른쪽 아래 작은 박스 안 줄바꿈 고쳐줘"—이 문장을 자연어로 에이전트에 전달하면, 열 번 중 세 번은 엉뚱한 곳이 바뀐다. AI가 산출물을 '생성'하는 속도는 극적으로 빨라졌지만, 그 산출물을 '제어'하는 인터페이스는 여전히 원시적이다. 속도와 제어 사이의 간극—이것이 지금 AI 에이전트 워크플로우가 직면한 핵심 이슈다.

세 가지 실험이 같은 곳을 가리킨다

최근 GeekNews에 올라온 세 가지 프로젝트는 각기 다른 도메인을 다루지만, 놀랍도록 같은 문제 의식을 공유한다.

첫째, slides-grab. Claude Code로 PPT를 만들고 편집하는 과정에서 '위치 지정'의 불편함을 겪은 개발자가 직접 만든 오픈소스 편집기다. 핵심 아이디어는 단순하다. 수정하고 싶은 요소를 드래그하면, 해당 영역의 XPath와 강조 이미지가 자동으로 에이전트 컨텍스트에 주입된다. 사람이 '어디를'이라고 설명하는 대신, 도구가 에이전트에게 정확한 좌표를 건네주는 구조다. 슬라이드 생성부터 편집, PDF/PPTX 변환까지 하나의 워크플로우로 이어지는 것도 눈에 띈다.

둘째, 스펙 주도 개발(Spec-Driven Development)의 재해석. Drew Breunig의 글은 AI 코딩 에이전트 시대에 "스펙 → 코드"라는 직선 방정식이 왜 실패하는지를 날카롭게 짚는다. 실제로 코드 없이 Markdown 스펙과 750개 YAML 테스트만으로 운영한 라이브러리 whenwords는 Andrej Karpathy의 관심과 GitHub 1k+ 스타를 받았지만, 복잡도가 올라가자 한 부분을 고치면 다른 부분이 무너지는 패턴이 반복됐다. 그의 결론은 명확하다. 스펙 주도 개발은 정적인 방정식이 아니라 스펙·코드·테스트가 서로를 끊임없이 갱신하는 동적인 삼각형이다. 이를 보조하기 위해 만든 CLI 도구 Plumb은 Git 커밋마다 에이전트의 암묵적 결정을 추출해 사람이 승인하게 강제한다. 중요한 의사결정이 에이전트의 로그 속에 묻히지 않도록 하는 안전망이다.

셋째, PM Skills. Claude Code와 Cowork에 최적화된 이 오픈소스 플러그인은 Teresa Torres의 Continuous Discovery, Marty Cagan의 Empowered 등 검증된 PM 프레임워크를 에이전트 워크플로우에 직접 내장한다. 65개 스킬과 36개 체인 워크플로우로 구성되며, /discover 커맨드 하나로 아이디어 브레인스토밍 → 가정 도출 → 우선순위화 → 실험 설계까지 엔드투엔드 프로세스가 실행된다. 단순히 문서를 생성하는 게 아니라, 구조화된 제품 의사결정 흐름 자체를 에이전트에 이식하는 시도다.

맥락 해석: '자동화'가 아니라 '워크플로우 설계'가 핵심이다

세 프로젝트를 관통하는 공통 언어는 컨텍스트 주입과 인간 검토 강제화다. slides-grab은 XPath와 이미지를 자동 주입해 에이전트가 올바른 대상을 찾도록 돕는다. Plumb은 커밋 단계에서 에이전트의 결정을 사람이 반드시 확인하게 만든다. PM Skills는 검증된 프레임워크를 미리 내장함으로써 에이전트가 임의의 방식이 아닌 구조화된 경로로 추론하도록 유도한다.

이는 지금 업계 전반에서 반복되는 실패 패턴—에이전트에 모든 것을 맡기면 초반엔 빠르지만 복잡도가 올라갈수록 무너진다—에 대한 현장 차원의 응답이다. 그리고 그 응답의 공통분모는 놀랍도록 일관적이다. 에이전트가 무엇을 할지가 아니라, 어떤 경로로 할지를 사람이 설계해야 한다.

시사점: 개발자·PM의 새 역할은 '루프 설계자'

프론트엔드 개발자 입장에서 이 흐름은 꽤 구체적인 시사점을 준다. AI가 UI 컴포넌트를 생성하고 슬라이드를 뽑아내고 PRD 초안을 작성하는 속도가 빨라질수록, 개발자와 PM이 직접 손대야 하는 영역은 '생산'에서 '설계'로 이동한다. 어떤 컨텍스트를 주입할 것인가, 어느 지점에서 사람의 승인을 강제할 것인가, 스펙·코드·테스트의 동기화를 어떻게 유지할 것인가—이 세 질문이 앞으로의 생산성을 결정하는 변수가 된다.

slides-grab이 PPT 편집 워크플로우를 재설계한 것처럼, Plumb이 커밋 단계에 인간 검토를 삽입한 것처럼, PM Skills가 에이전트의 추론 경로를 프레임워크로 구조화한 것처럼—좋은 AI 워크플로우는 자동화의 범위를 넓히는 동시에, 사람의 판단이 개입해야 할 지점을 더 정밀하게 좁히는 방향으로 설계된다.

전망: '도구'보다 '루프'를 먼저 설계하는 팀이 이긴다

1960년대 소프트웨어 위기가 워터폴·애자일·CI/CD를 낳았듯, 지금의 에이전트 시대는 새로운 프로세스 언어를 요구하고 있다. Plumb의 '커밋 실패 모드', PM Skills의 '체인 워크플로우', slides-grab의 '컨텍스트 자동 주입'은 아직 파편화된 실험들이지만, 이 방향성은 분명하다.

앞으로 팀의 AI 성숙도는 어떤 모델을 쓰느냐가 아니라, 에이전트의 행동 경로를 얼마나 정밀하게 설계했느냐로 갈린다. 도구를 선택하기 전에 루프를 먼저 그려라. 그 루프 안에서 에이전트가 자율적으로 움직일 구간과, 사람이 반드시 개입해야 할 체크포인트를 구분하라. 그것이 지금 이 세 프로젝트가 공통으로 건네는 메시지다.