AI-First 개발팀, 이제 코드 대신 '문제'를 짭니다

시니어가 3일, 인턴이 반나절 — 무슨 일이 있었나

최근 Google Cloud의 시니어 AI 프로덕트 매니저 Shubham Saboo가 공유한 사례 하나가 개발자 커뮤니티를 흔들었습니다. 한 스타트업에서 같은 태스크를 받은 시니어 엔지니어와 인턴의 결과물이 극명하게 갈렸습니다. 시니어는 요구사항 분석 → 아키텍처 설계 → 코딩 → 디버깅의 전통적 워크플로우를 밟아 3일 만에 '기술적으로 완벽한' 솔루션을 냈습니다. 인턴은 반나절이면 충분했습니다. 코딩 실력의 차이가 아니었습니다. 인턴이 한 일은 단 하나 — 문제를 충분히 명확하게 정의하고 Claude Code에게 넘긴 것이었습니다.

이건 단순한 에피소드가 아닙니다. Anthropic 내부에서는 Opus 4.6으로 구성된 에이전트 팀이 2주 만에 리눅스 커널에서 돌아가는 C 컴파일러를 완성했습니다. 코드 10만 줄, 인간이 직접 쓴 줄은 0줄. 이 프로젝트를 이끈 연구자 Nicholas Carlini가 한 일은 오직 '문제 분해'였습니다. "컴파일러를 만들어라"라는 모호한 목표를 입력/출력/성공 기준이 명확한 16개 서브태스크로 쪼개고, 16개 에이전트가 각자 맡은 조각을 완성했습니다. 레버리지는 코드를 짜는 데 있지 않고, 문제를 AI가 거의 실수하지 않는 수준까지 분해하는 데 있었습니다.

'한때 연봉을 보장하던' 네 가지 역량의 황혼

dev.to에 게재된 분석("Skills Required for Building AI Agents in 2026")은 개발자 역량의 지각변동을 냉정하게 정리합니다. 한때 고연봉을 정당화하던 네 가지 스킬이 빠르게 '기본값'으로 내려앉고 있습니다.

스크래치 코드 작성: 에이전트가 더 빠르고 버그도 적습니다
보일러플레이트·프로젝트 스캐폴딩: 프롬프트 한 줄로 즉시 생성됩니다
문법·API 암기: 컨텍스트 윈도우 확장이 이미 해결했습니다
스펙을 코드로 번역: 이제 스펙 자체가 코드입니다

이 스킬들이 무가치해진 게 아닙니다. 다만 '구현'이 더 이상 병목이 아니기 때문에, 차별점이 될 수 없습니다. 문제는 대부분의 채용 공고가 아직도 이 낡은 기준으로 개발자를 평가한다는 것입니다.

2026년에 진짜 중요한 다섯 가지

그렇다면 무엇이 차별점이 될까요? 같은 아티클과 "Agentic Engineering" 실천 사례들을 종합하면 다섯 역량으로 수렴합니다.

① Problem Shaping(문제 형성): "대시보드 만들어줘"는 소원이지, 태스크가 아닙니다. 그것을 "이 데이터를 표시하고, 이 의사결정을 지원하며, 사용자가 3초 안에 파악해야 할 것은 이것"이라는 12개의 검증 가능한 서브태스크로 바꾸는 능력. 모호함이 사라지면 에이전트 실행 품질이 완전히 달라집니다.

② Context Design(컨텍스트 설계): "고객 지원 에이전트 만들어줘"와 "구독 해지를 고려 중인 SaaS 고객, 문서 시도 후 실패한 상태, 공감적이되 효율적인 톤, 5-스타 실제 사례 3건 첨부, 4메시지 내 해결이 성공 기준"의 차이. 프롬프트 기술이 아니라 정보 밀도와 경계 조건을 설계하는 능력입니다.

③ Aesthetic Judgment(심미적 판단): 열 가지 옵션 중 아홉이 왜 안 되는지 아는 것. 코드가 작동하는 것과 경험이 작동하는 것은 다릅니다. 에이전트는 정확성을 최적화하지만, '이게 쓸 만한가'는 인간의 판단입니다.

④ 브레인스토밍 에이전트 설계: 실제 개발에서 Olyray가 공유한 방법론처럼, 코딩 에이전트에게 바로 '만들어줘'를 던지기 전에 브레인스토밍 에이전트와 먼저 기술 트레이드오프를 탐색하는 습관이 중요합니다. 2023년에 직접 인증 시스템을 구현했다가 나중에 Clerk이 있다는 걸 알았다면? 그 낭비가 바로 컨텍스트 없는 에이전트 사용의 전형입니다.

⑤ 에이전트 오케스트레이션: 멀티-에이전트 협업, 에러 캐스케이딩 관리, 컨텍스트 윈도우 전략. API 호출은 전체 에이전트 개발 노력의 5%입니다. 나머지 95%가 여기에 있습니다.

PR 리뷰도 이미 AI가 합니다 — 그리고 버그를 잡았습니다

역할 변화는 기획·설계 단계에서만 일어나는 게 아닙니다. 코드 리뷰 자동화는 이미 실전에 배포되어 있습니다. dev.to의 한 개발자가 공개한 claude-pr-reviewer는 GitHub Actions에 원시크릿 하나, 워크플로우 파일 하나만 추가하면 모든 PR에 Claude 리뷰가 자동으로 붙습니다. 비용은 팀 기준 월 1~2달러 수준입니다.

실제 리뷰 결과가 흥미롭습니다. 레이트 리미팅 PR을 리뷰시켰더니 Critical 항목으로 이런 피드백이 달렸습니다: "레이트 리밋 상태가 인-프로세스 메모리에 저장되어 있어 배포할 때마다 초기화되고, 다중 서버 인스턴스에서 작동하지 않습니다. Redis 또는 공유 스토어를 사용하세요." 개발자 본인이 놓쳤던 버그였습니다. 알고리즘 로직에 집중하느라 상태가 증발한다는 전제 조건이 눈에 들어오지 않았던 겁니다.

AI 리뷰어가 잘 잡는 것: 누락된 에러 처리, SQL 인젝션 리스크, PR 설명과 실제 auth 로직의 불일치, 빈 입력이나 동시 접근 엣지 케이스. 못 잡는 것: diff 밖의 코드베이스 컨텍스트. 지난 분기에 deprecated된 모듈인지, 팀의 에러 처리 컨벤션이 무엇인지는 모릅니다. 여기서 인간 리뷰어의 역할이 재정의됩니다 — AI가 '코드가 맞는가'를 검사하는 동안, 사람은 '이게 우리 시스템에 맞는가'를 판단합니다.

DevOps도 45분으로 — '결과' 중심 사고의 전환

AWS Cloud Architect 10년 경력의 Sarvar가 공유한 사례도 같은 방향을 가리킵니다. 핀테크 클라이언트 데모용 DevSecOps 파이프라인 구축 — Jenkins, SonarQube, OWASP 스캐닝, 자동 배포까지. 예전엔 이틀이 걸렸습니다. AI 에이전트와의 대화로 45분 만에 완성했습니다. 파이프라인이 실패했을 때도 에이전트가 로그를 읽고, 원인을 파악하고, Jenkinsfile을 수정하고, 커밋하고, 재트리거했습니다. 그가 개입한 건 없었습니다.

그가 배운 핵심 교훈은 하나입니다: "SSH into server, run apt update, install Jenkins"처럼 명령 단위로 생각하는 걸 멈추고, "Jenkins가 이 플러그인들과 함께 실행되어야 한다"처럼 결과 단위로 생각하기 시작했다. 에이전트가 how를 결정하고, 사람은 what과 why에 집중합니다.

AI-First 팀에서 개발자의 역할은 사라지는가

저는 이 모든 사례를 보면서 팀원들에게 이렇게 이야기합니다: 우리가 제거되는 게 아니라, 더 좋은 일만 남는 겁니다. SSH 키와 싸우던 시간이 아키텍처 사고와 클라이언트 프레이밍으로 교체됩니다. 보일러플레이트를 타이핑하던 손가락이 문제를 쪼개는 머리로 업그레이드됩니다.

하지만 이 전환에는 의도적인 노력이 필요합니다. "AI한테 시키면 되지"라는 막연한 기대로는 인턴처럼 작동하기 어렵습니다. Problem Shaping을 연습해야 합니다. 컨텍스트를 설계하는 법을 익혀야 합니다. AI가 생성한 결과물에 Aesthetic Judgment를 적용하는 감각을 키워야 합니다.

지금 팀에 필요한 것

2026년 AI-First 팀 리빌딩의 핵심 전환은 세 가지로 정리됩니다.

채용 기준 재정의: "Java 5년" 대신 "AI와 협업해 문제를 분해하고 컨텍스트를 설계한 경험"
워크플로우 재구성: 기획 단계부터 브레인스토밍 에이전트를 끼우고, 코딩 에이전트로 구현하고, AI PR 리뷰어로 품질을 검증하는 풀 파이프라인 통합
역할 재정의: 코드 생산자에서 문제 설계자로, 구현 실행자에서 AI 오케스트레이터로

"AI로 이걸 어떻게 하면 좋을까요?"가 팀의 첫 번째 반응이 되는 문화 — 그게 AI-First 팀의 실체입니다. 도구 스택이 아니라 사고 방식의 전환이고, 그 전환은 지금 당장 시작할 수 있습니다.