한 달간 DeepSeek으로 Claude를 대체한 결과가 AI-First 팀에 던지는 질문

한 달 동안 Claude Opus 대신 DeepSeek V4 Pro를 실제 업무에 쓴 사람이 있다. dev.to에 올라온 이 실험 기록은 '가성비 비교'로 읽히기 쉽지만, 나는 다르게 읽었다. 이건 AI-First 워크플로우에서 모델을 어떻게 선택하고, 비용 구조를 어떻게 설계해야 하는가에 대한 실전 데이터다.

실험의 맥락: 이건 '써봤더니 괜찮더라'가 아니다

실험자가 수행한 작업은 만만치 않았다. NestJS 기반 드론 부품 마켓플레이스 MVP 개발, 멀티 리테일러 데이터 인덱싱 파이프라인, 그리고 장시간 에이전트 세션—이 세 가지를 동시에 돌렸다. 특히 인덱싱 파이프라인은 리테일러마다 다른 데이터 포맷을 수천 번 분류 판단해야 하는, LLM이 제값을 해야만 통과할 수 있는 작업이다. 'CRUD 앱 바이브 코딩' 수준이 아니다.

전환의 계기는 계획적이지 않았다. Claude Opus의 세션 제한에 걸려 작업이 중간에 끊기는 상황이 반복됐고, $200짜리 Max 플랜의 5시간 윈도우가 장시간 에이전트 실행 중 막혔다. 그 타이밍에 DeepSeek이 할인을 발표했고, $10 크레딧으로 테스트를 시작했다. 한 달 뒤 청구서는 $40~50이었다.

수치가 말하는 것: 비용보다 더 중요한 건 '흐름'

비용 차이(월 $200 vs $50)는 누구나 주목한다. 하지만 내가 더 주목한 숫자는 따로 있다.

Opus의 일반적인 에이전트 실행 시간: 10~15분
DeepSeek의 동일 작업 실행 시간: 30~40분
Opus 서브에이전트의 토큰 소비: 20~30k
DeepSeek 서브에이전트의 토큰 소비: 80~90k

이 차이가 실제로 무엇을 의미하는지 생각해보자. 에이전트가 한 번에 더 깊이 탐색한다는 건, 사람이 개입해서 방향을 수정하는 빈도가 줄어든다는 것이다. 실험자는 이를 두고 '컨텍스트 스위칭의 숨겨진 세금'이라고 표현했다. 프롬프트 재작성마다 드는 30초가 단순한 30초가 아니다—집중력이 깨지고, 다시 맥락을 잡는 데 훨씬 더 많은 비용이 든다.

서브에이전트가 80~90k 토큰을 소비하면서 리테일러별 예외 케이스를 사전에 발굴했다는 대목은 특히 눈여겨볼 만하다. 기획 단계에서 엣지 케이스를 따로 요청하지 않아도 에이전트가 스스로 찾아온다면, 그건 단순한 코드 생성 도구가 아니라 설계 파트너로 기능하기 시작한다는 신호다.

가격 구조의 변화: 실험값이 아니라 공식 정책이 됐다

Geek News에 따르면 DeepSeek은 V4 Pro의 75% 할인을 프로모션 종료 후에도 영구 적용하기로 했다. 출력 토큰 기준으로 보면 다음과 같다.

DeepSeek V4 Pro: $0.87 / 1M 토큰
Claude Opus 4.7: $25.00 / 1M 토큰
GPT-5.5: $30.00 / 1M 토큰

단순 가격표만 봐도 28배 차이다. 그런데 에이전트 워크플로우에서 실질적으로 더 중요한 건 캐시 적중 비용이다. DeepSeek V4 Pro의 캐시 적중 입력 토큰 가격은 $0.003625/1M으로, 다음으로 싼 경쟁사 대비 100배 수준의 격차가 난다. 에이전트 세션에서 동일한 컨텍스트가 반복 참조되는 구조를 감안하면, 실제 운영 비용은 표면 단가보다 훨씬 더 벌어진다.

이 가격이 지속 가능한 이유도 있다. DeepSeek의 희소 어텐션(DSA) 구조와 MLA(Multi-head Latent Attention)는 KV 캐시 메모리를 표준 어텐션 대비 5~13배 줄인다. 단순한 가격 덤핑이 아니라, 아키텍처 레벨의 효율 우위가 저가를 가능하게 하는 구조다.

AI-First 팀에게 실질적으로 의미하는 것

이 데이터를 받아들인다면, AI-First 팀이 재설계해야 할 것들이 생긴다.

첫째, 모델 선택은 기능 비교가 아니라 워크플로우 핏으로 판단해야 한다. 실험자도 명시했듯 DeepSeek이 모든 면에서 Opus보다 낫다는 게 아니다. 장시간 에이전트 실행, 깊은 코드베이스 탐색, 반복 분류 작업—이런 패턴에서는 유의미한 우위가 있었다. 반대로 단발성 고난도 추론이나 최신 모델과의 세밀한 성능 비교는 별도로 검증이 필요하다.

둘째, 단일 모델 의존 구조를 다시 생각해야 한다. 실험이 시작된 이유 자체가 Claude의 세션 제한이었다. 어떤 모델이든 장애, 쿼터 소진, 정책 변경은 일어난다. 작업 유형에 따라 모델을 선택적으로 라우팅하는 구조, 그리고 대체 모델로의 페일오버 경로를 미리 설계해두는 것이 이제 팀 운영의 기본이 되어야 한다.

셋째, 에이전트 비용 구조는 토큰 단가만으로 계산하면 틀린다. 에이전트가 깊이 탐색할수록 토큰 소비는 늘지만, 사람의 개입 빈도가 줄어든다. 토큰 비용과 엔지니어 집중력 비용을 함께 계산해야 진짜 ROI가 나온다.

짚어야 할 리스크

낙관적인 수치만 보면 위험하다. 몇 가지 냉정한 체크포인트를 짚고 넘어가야 한다.

데이터 프라이버시 문제는 무시할 수 없다. DeepSeek은 사용자 입력을 서비스 개선 및 모델 훈련에 활용할 수 있다고 명시한다. 프로덕션 코드베이스, 환경변수, 비즈니스 로직을 에이전트가 다루는 상황에서 이 정책은 실질적인 리스크다. Azure 호스팅 버전이나 Tinfoil 같은 보안 엔클레이브 서비스를 경유하는 방식을 대안으로 검토할 수 있지만, 어느 쪽이든 트레이드오프가 있다.

동시성 제한도 현실 제약이다. V4 Pro는 동시 요청 500개로 제한된다. 팀 규모가 커지거나 CI/CD 파이프라인에 에이전트를 통합할 때 병목이 될 수 있다.

모델 품질의 절대 비교는 아직 유보가 필요하다. 실험자 본인도 인정했듯, 비교 대상이 최신 Opus 4.7이 아니었다. 최상위 성능이 필요한 작업에서는 별도 벤치마크가 필요하다.

더 큰 그림: 가격 경쟁이 아니라 생태계 전략

이 흐름을 단순한 LLM 가격 전쟁으로 읽으면 놓치는 게 있다. DeepSeek의 오픈소스 공개, 낮은 가격 유지, Anthropic 형식 호환 API 제공—이것들은 기존 워크플로우를 교체 비용 없이 흡수하도록 설계된 전략이다. claude CLI의 엔드포인트를 DeepSeek API로 바꾸는 데 설정 몇 줄이면 된다는 점이 실험자가 그냥 시작한 이유였다.

누가 전 세계 개발자들의 에이전트 실행 환경을 자신의 모델 위에 올려놓는가—이 경쟁이 지금 진행 중이다. 지금 당장 DeepSeek으로 전환하라는 이야기가 아니다. 다만 AI-First 팀이라면 이 변화가 모델 선택 기준과 비용 구조 설계에 어떤 영향을 주는지 지금 질문해야 한다.

$50짜리 한 달 실험이 $200 구독보다 나을 수 있다면, 팀의 AI 스택은 지금보다 훨씬 더 유연하게 설계되어야 한다.