에이전트가 Jira 티켓을 읽고, 구현 계획을 세우고, 코드를 짜고, PR까지 올린다. 공상과학 이야기가 아니다. 지금 일부 팀에서 실제로 돌아가고 있는 워크플로우다. velog에 공유된 한 팀의 사례를 보면, Jira·Confluence와 MCP로 연동된 에이전트가 명세서를 받아 구현 계획서를 작성하고, 사람이 검토한 뒤 다시 에이전트에게 넘기면 코드 생성 → 테스트 실행 → 린트 → 빌드 → PR 생성까지 한 사이클을 자율적으로 돌린다. 테크 리드 입장에서 솔직히 말하면, 이 구조를 처음 봤을 때 두 가지 감정이 동시에 왔다. '이거 진짜 되네'라는 흥분, 그리고 '근데 테스트는?'이라는 냉정한 질문.
비슷한 시기에 dev.to에서 눈길을 끈 글이 있다. 한 회사가 JavaScript 라이브러리를 Go로 AI 기반 재작성해서 연간 수억 원 상당의 컴퓨팅 비용을 아꼈다는 '기적 같은' 이야기다. 그런데 이 글의 필자가 정확히 짚어낸 것처럼, 그 성공의 진짜 공신은 AI가 아니었다. 이미 존재했던 탄탄한 테스트 스위트였다. AI는 문법을 빠르게 번역했을 뿐이고, 그 번역이 맞는지 틀렸는지를 판단한 건 수년 전부터 쌓아온 테스트 코드였다. 테스트가 없었다면 그건 절감 스토리가 아니라 '운 좋게 넘어간' 스토리, 혹은 6주 뒤 프로덕션에서 터진 장애 포스트모템이 됐을 것이다.
여기서 세 번째 퍼즐 조각이 맞춰진다. 같은 dev.to의 또 다른 글은 AI 코딩 도구의 생산성 역설을 정면으로 다룬다. 팀들은 코드를 더 빠르게 생성하고 있다. 그런데 더 빠르게 배포하고 있지는 않다. 병목이 사라진 게 아니라 이동했다. 코드 작성에서 리뷰, 회귀 버그 디버깅, 아무도 설계하지 않은 코드 이해, 수동 검증을 위한 반복 배포로. 속도는 앞에서 얻었지만 뒤에서 잃고 있다.
세 기사를 겹쳐보면 하나의 선명한 구조가 드러난다. 에이전틱 코딩은 피드백 루프의 품질을 증폭한다. 좋은 피드백 루프가 있으면 속도가 진짜 속도가 된다. 없으면 잘못된 방향으로 달리는 속도가 된다. MCP로 Jira 티켓을 읽어 구현 계획을 세우는 에이전트가 아무리 정교해도, 그 에이전트가 생성한 코드가 맞는지 틀렸는지를 빠르게 알려주는 피드백 시스템이 없으면 PR은 그냥 미검증 코드 덩어리다. 테스트가 없는 에이전트 자동화는 버그를 더 빠르게 생산하는 공장이다.
팀 리빌딩 관점에서 이걸 더 불편하게 풀어보면 이렇다. 대부분의 팀이 AI 도구 도입에 투자하는 시간의 절반도 테스트 인프라 강화에 쓰지 않는다. Cursor 세팅, 프롬프트 최적화, MCP 연동 구성에는 스프린트를 쓰면서, 유닛 테스트 커버리지를 높이거나 CI 파이프라인의 피드백 속도를 줄이는 데는 '나중에'를 붙인다. 그 '나중에'가 에이전트 시대에는 치명적이다. 에이전트는 사람보다 훨씬 빠르게 코드를 쌓는다. 테스트가 없으면 그 속도만큼 빠르게 기술 부채가 쌓인다.
그렇다면 팀이 실제로 투자해야 할 것은 무엇인가. 세 가지다. 첫째, 피드백 루프의 속도. 테스트 피라미드 원칙대로 빠른 유닛 테스트를 기반에 두고, CI가 PR마다 즉각 피드백을 줄 수 있는 구조를 만들어야 한다. 에이전트가 코드를 생성하고 나서 사람이 리뷰하기 전에 자동화된 피드백이 먼저 와야 한다. 둘째, 명세의 품질. velog 사례에서 에이전틱 코딩이 안정적으로 작동한 핵심은 SDD(명세 주도 개발)였다. 애매한 요구사항을 에이전트에게 던지면 AI는 자신감 있게 틀린 방향으로 달린다. 명세가 곧 에이전트를 위한 가드레일이다. 셋째, 리뷰 게이트의 재설계. PR 자동화가 되면 리뷰 볼륨이 폭발한다. 사람이 모든 줄을 보는 건 불가능해진다. LLM 기반 자동 리뷰가 1차 필터 역할을 해야 하고, 사람은 아키텍처 판단과 비즈니스 로직 검증에 집중해야 한다.
전망을 솔직하게 말하면, 에이전트가 PR을 올리는 팀은 앞으로 더 많아질 것이다. 도구는 빠르게 성숙하고 있고, MCP 같은 표준이 연동 비용을 낮추고 있다. 하지만 그 경쟁에서 살아남는 팀은 가장 좋은 에이전트를 쓰는 팀이 아니라, 에이전트의 출력을 가장 빠르게 검증하는 인프라를 가진 팀이다. AI는 기존 엔지니어링 규율을 증폭한다. 테스트 문화가 있는 팀에게는 속도를, 없는 팀에게는 카오스를. 내일 당장 에이전트를 도입하기 전에 팀에 먼저 물어야 할 질문은 이거다. 지금 핵심 시스템에 AI가 생성한 코드를 올렸을 때, 그게 맞는지 틀렸는지를 얼마나 빠르게 알 수 있는가.