AI 개발 도구를 믿어도 되나: 투명성·데이터·벤치마크의 균열

매일 Cursor를 열고, Copilot 제안을 수락하고, 벤치마크 점수를 보며 어떤 모델을 쓸지 고민한다. 그런데 지난 몇 주 사이 연달아 터진 세 가지 사건이 그 신뢰의 바닥을 흔들었다. AI 개발 도구에 관한 투명성, 데이터 주권, 성능 측정—이 세 축이 동시에 흔들리고 있다는 신호다.

균열 1: Cursor는 무엇을 숨겼나

2026년 3월 19일, Cursor는 Composer 2를 발표했다. Terminal-Bench 2.0에서 61.7%를 기록하며 Claude Opus 4.6을 10분의 1 비용으로 뛰어넘었다는 성과였다. 발표문에는 "자체 개발(continued pretraining)" "프런티어급 코딩 인텔리전스" 같은 표현이 가득했다. 흥분할 만한 뉴스였다.

그런데 24시간도 지나지 않아 개발자 Fynn이 API 트래픽을 디버깅하다가 모델 ID를 발견했다. accounts/anysphere/models/kimi-k2p5-rl-0317-s515-fast. 해석하면 이렇다: Moonshot AI가 만든 Kimi K2.5를 베이스 모델로, 강화학습으로 파인튜닝한 것. 베이징 기반 오픈소스 모델이 기반이었다는 사실이 발표 어디에도 없었다.

이 게시물은 260만 뷰를 기록했고, 일론 머스크가 "Yeah, it's Kimi 2.5"라고 한마디를 얹었다. Moonshot AI 측 토크나이저 분석도 동일한 결과를 확인했다. Cursor의 공동창업자 Aman Sanger는 결국 인정했다. "처음부터 블로그에 Kimi 베이스를 언급했어야 했다."

법적 함의도 있다. Kimi K2.5 라이선스에는 월 DAU 1억 명 또는 월 수익 2,000만 달러를 초과하는 서비스는 UI에 'Kimi K2.5'를 명시해야 한다는 조항이 있다. Cursor의 연간 반복 수익(ARR)은 20억 달러를 넘는다—월 환산 약 1억 6,700만 달러, 기준치의 여덟 배다. Moonshot AI는 최초엔 위반을 공개적으로 인정했다가 게시물을 삭제했고, 이후 Fireworks AI를 통한 "공인된 파트너십"이었다고 입장을 바꿨다.

기술적 위반 여부보다 더 중요한 것이 있다. 기업가치 500억 달러의 회사가 서방의 오픈소스 대안이 아닌 중국 모델을 선택했다는 사실이다. Meta의 Llama 4 Behemoth는 무기한 연기 상태고, 실제로 복잡한 멀티파일 코딩 작업과 25만 6천 토큰 컨텍스트를 감당할 수 있는 최선의 선택이 베이징산이었다. DeepSeek, Kimi, Qwen, GLM—중국 오픈소스 AI는 이미 서방 AI 제품의 숨겨진 인프라가 되고 있다. 종종 조용히, 때로는 공개 없이.

균열 2: Copilot은 내 코드로 무엇을 하나

2026년 4월 24일부터 GitHub Copilot Free·Pro·Pro+ 사용자의 상호작용 데이터가 AI 모델 학습에 사용된다. 수락하거나 수정한 출력, 입력한 코드 스니펫, 커서 주변 컨텍스트, 파일명, 저장소 구조까지 포함된다. 기본값은 opt-in—직접 설정에 들어가서 꺼야 한다.

GitHub은 "업계 표준 관행"이라고 설명했다. Hacker News 커뮤니티의 반응은 냉담했다. "다른 곳도 하니까 괜찮다는 논리"라는 지적이 바로 나왔다. Anthropic은 opt-in 방식이고 동의 시 할인까지 제공한다는 비교도 따라왔다. 실제로 Copilot 설정에서 해당 옵션은 "기능 접근 권한"처럼 포장되어 있어, 데이터를 제공하지 않으면 뭔가를 잃는 것처럼 느껴지도록 설계됐다는 비판도 있었다.

보안 관점의 문제는 더 구체적이다. Copilot은 API 키나 비밀번호가 담긴 파일을 무시하는 기능이 없다. IDE를 여는 순간 이런 정보가 Microsoft로 전송될 수 있다. 수집된 데이터는 GitHub 계열사(Microsoft 포함)와 공유될 수 있다. GDPR이 적용되는 EU 사용자 입장에서는 개인식별정보(PII)가 포함된 코드가 opt-out 기본값 없이 수집된다는 사실이 법적으로 문제가 될 수 있다는 우려도 나왔다.

다행히 Business·Enterprise 계정은 이번 변경의 영향을 받지 않는다. 그러나 개인 플랜이나 프리랜서, 사이드 프로젝트에서 Copilot을 쓰는 개발자라면, 자신의 코드가 다음 모델 학습에 사용되고 있을 가능성이 있다는 사실을 인지해야 한다.

균열 3: 벤치마크 점수는 사실이 아니다

Cursor의 Composer 2 발표가 Terminal-Bench 2.0 61.7%를 내세웠을 때, 그 숫자를 어떻게 받아들여야 할까. Anthropic의 엔지니어링 팀이 최근 발표한 연구가 불편한 진실을 드러냈다. 동일한 Claude 모델, 동일한 과제, 동일한 벤치마크—서버 설정만 바꿨더니 결과가 6퍼센트포인트 달라졌다.

대부분의 AI 코딩 리더보드에서 1위와 5위 간 격차가 2~4포인트라는 걸 감안하면, 서버 설정만으로 전체 순위가 뒤집힐 수 있다. 엄격한 제한 환경에서는 에러율이 5.8%, 넉넉한 환경에서는 0.5%였다. 모델이 더 나아진 게 아니라 VM이 더 컸을 뿐이다. dev.to의 분석에 따르면 Terminal-Bench 리더보드는 컨테이너가 한도보다 더 많은 메모리를 임시로 사용할 수 있는 프로바이더를 쓰고, Anthropic은 한도에 닿는 순간 컷오프하는 방식이었다. 같은 벤치마크, 다른 룰, 다른 숫자.

이건 AI 시대에 생긴 새로운 문제가 아니다. 1975년 영국 경제학자 Goodhart가 이미 정식화했다. "측정값이 목표가 되는 순간, 그것은 더 이상 좋은 측정값이 아니다." ImageNet, GLUE, MMLU, SWE-Bench까지—이 패턴은 반복됐다. SWE-Bench의 경우 2026년 2월 OpenAI 감사에서 주요 모델들이 해당 벤치마크 레포의 데이터로 사전 학습됐다는 사실이 드러났다. 스캐폴딩을 제거하자 80%이던 점수가 45%로 떨어졌다.

세 균열이 만나는 지점

이 세 가지 이슈는 별개처럼 보이지만 하나의 구조적 문제로 수렴한다. AI 개발 도구의 공급망은 우리가 생각하는 것보다 훨씬 불투명하다.

내가 사용하는 AI 코딩 도구가 어떤 베이스 모델 위에서 동작하는지 알 수 없다. 내 코드가 어떤 모델의 학습 데이터로 들어가는지 명확하지 않다. 도구를 선택할 때 근거로 삼는 벤치마크 점수는 서버 환경과 데이터 오염에 취약하다.

프로덕트 관점에서 보면, 이건 단순한 PR 실수나 정책 변경이 아니다. 도구를 신뢰하는 행위 자체의 전제가 흔들리고 있다. 우리는 지금까지 마케팅 언어를 기술 사실로 받아들이고, opt-out 방식의 데이터 정책을 무심코 넘기고, 공개된 벤치마크 점수를 실력 지표로 삼아왔다.

실무에서 달라져야 하는 것

모델 출처를 질문하라. 사용 중인 AI 도구가 어떤 베이스 모델을 사용하는지, 어떤 인퍼런스 프로바이더를 거치는지 공개하는가? 오픈소스 기반이라면 명시하는가? 이 질문에 답이 없는 도구는 Cursor 사태 이전의 Cursor와 같은 상황이다. 투명성 자체가 신뢰 지표다.

데이터 정책을 직접 확인하라. GitHub Copilot이라면 설정 → Privacy → "Allow GitHub to use my data for AI model training"을 지금 바로 확인하라. 조직의 데이터 거버넌스 요건(GDPR, HIPAA, 정부 계약 등)이 있다면, "우리는 컴플라이언트합니다"라는 벤더의 말이 데이터가 어디서 처리되는지를 설명하지 않는다는 점을 인지해야 한다.

벤치마크 점수 5포인트 이내는 노이즈로 취급하라. 서버 분산, 데이터 오염, 스캐폴딩 차이를 감안하면 5포인트 이내 격차는 유의미한 능력 차이가 아닐 수 있다. Anthropic의 권고처럼, 진짜 판단 기준은 내 실제 작업을 직접 돌려보는 것뿐이다. 같은 프롬프트, 10개 모델, 내 기준으로 점수 매기기—이게 리더보드보다 훨씬 정직한 평가다.

Cursor 사태가 하나의 교훈을 남겼다면, 이것이다. 커뮤니티가 24시간 안에 500억 달러 기업의 PR을 검증해냈다. 디버그 프록시 하나와 30분의 시간으로. 이건 오픈소스 생태계가 작동하는 방식이다. 하지만 그 생태계는 개발자들이 질문을 멈추지 않을 때만 작동한다.

우리가 매일 쓰는 도구를 맹목적으로 신뢰하지 않는 것, 그것이 지금 프론트엔드 개발자에게 요구되는 가장 실용적인 프로덕트 사고다.