AI가 QA 문서를 쓰고, 코드를 짜고, 주니어를 대체한다는 주장이 동시에 나오고 있다
이번 주 내 피드에 세 개의 신호가 동시에 들어왔다. 스크린 레코딩을 테스트 케이스로 자동 변환하는 오픈소스 CLI 도구 ClipCase, Vibe Coding이 왜 프로덕션에서 폭발하는지를 분석한 글, 그리고 주니어 개발자의 죽음이 과장됐다는 반론. 표면적으로는 세 개의 다른 이야기다. 하지만 나는 이것을 하나의 질문으로 읽는다. AI가 만들어낸 산출물을 팀이 어떻게 검증할 것인가, 그리고 그 검증 책임은 누구에게 있는가.
ClipCase: "녹화가 곧 스펙이다"—맞는 말이지만, 절반만 맞다
dev.to에 공개된 ClipCase는 발상 자체는 영리하다. QA 엔지니어라면 누구나 겪는 고통이 있다. 탐색적 테스트를 다 끝내놓고, 그걸 다시 스프레드시트에 문서화하는 작업. ClipCase는 그 구간을 끊는다. .mov나 .mp4를 넣으면 ffmpeg로 프레임을 추출하고, Claude·GPT-4o·Gemini로 시각 흐름을 분석해서 Markdown·CSV·Excel로 테스트 케이스를 뽑아준다. Smoke, Sanity, Regression, E2E로 자동 분류까지 된다. PyPI에 올라와 있고 pip install clipcase 한 줄이면 된다.
실용적으로 보면 당장 써볼 만한 도구다. API 비용도 Gemini 무료 티어 기준으로 사실상 0원에 수렴한다. 하지만 제작자 본인이 솔직하게 적어놓은 한계가 더 중요하다. 20분짜리 긴 녹화에서는 시나리오 경계 구분이 흐려지고, 빠른 클릭은 프레임에서 누락되며, AI는 무슨 일이 일어났는지는 기록하지만 무슨 일이 일어나야 하는지는 알지 못한다. 비즈니스 로직과 복잡한 검증은 여전히 사람이 손봐야 한다.
테크 리드 관점에서 ClipCase가 주는 진짜 시사점은 도구 자체가 아니다. 이 도구가 전제하는 워크플로우, 즉 "QA가 탐색하고 AI가 문서화한다"는 분업 모델을 팀에 도입하려면 AI 산출물 검토 프로세스를 먼저 설계해야 한다는 것이다. 도구 도입 전에 "이 테스트 케이스 중 몇 %를 사람이 리뷰할 것인가