AI 도구, 잘 쓰는 것과 제대로 쓰는 것은 다르다

AI 도구, 잘 쓰는 것과 제대로 쓰는 것은 다르다

System Prompt 설계와 아첨 제거 실험이 동시에 가리키는 것—AI 응답 품질은 모델의 문제가 아니라 사용자가 설계하는 것이다.

System Prompt LLM sycophancy 프롬프트 엔지니어링 AI 워크플로우 응답 품질 제어 Grovel Index Claude 설정 AI 도구 활용
광고

Cursor나 Claude로 코드를 짜본 프론트엔드 개발자라면 한 번쯤 이런 경험을 했을 것이다. 분명히 좋은 질문을 했는데, 돌아오는 답변은 너무 친절하고, 너무 동의하며, 내가 이미 아는 기초 설명부터 시작한다. AI가 나를 모른다는 느낌. 그리고 그 느낌은 정확히 맞다.

최근 dev.to에 올라온 두 편의 글이 이 문제를 서로 다른 각도에서 정확히 짚어낸다. 하나는 System Prompt를 어떻게 설계해야 하는지에 대한 실용적인 가이드이고, 다른 하나는 LLM의 '아첨 행동(sycophancy)'을 1.2M 토큰을 소비해 실측한 연구다. 두 글을 나란히 읽으면 하나의 결론으로 수렴한다. AI 응답 품질은 모델의 문제가 아니라 사용자가 설계하는 문제다.


맥락 없이 쓰면, AI는 당신을 초보자로 가정한다

첫 번째 글의 핵심 메시지는 단순하다. LLM에게 당신이 누구인지 알려주지 않으면, 모델은 가장 안전한 가정—즉 아무것도 모르는 일반인—을 기준으로 응답한다. 컴플라이언스 전문가가 규정을 물어봐도 "전문가를 고용하세요"라는 답이 돌아오는 것처럼.

해결책은 System Prompt 혹은 Claude.ai의 Preferences 필드에 맥락을 한 번만 심어두는 것이다. 토큰을 추가로 소비하는 트레이드오프가 있지만, 매 대화마다 "나는 15년 경력의 시니어 엔지니어야"를 반복하는 것보다 훨씬 효율적이다. 글쓴이가 공개한 프롬프트 예시를 보면 구조가 명확하다. 응답 방식(정확성 우선, 아첨 금지), 지시 전달 방식(단계별 확인 후 진행), 커뮤니케이션 스타일(이모지·비유·칭찬 없이), 그리고 사용자 프로필(기술 스택과 숙련도 범위)을 분리해서 정의한다. 이 네 가지가 있으면 AI는 당신에게 맞는 깊이와 방식으로 응답하기 시작한다.

특히 프론트엔드 개발자 입장에서 눈에 띄는 부분은 '단계별 확인' 지시다. "첫 번째 단계가 성공했다는 걸 확인받기 전까지 다음 단계로 넘어가지 말 것"이라는 규칙은 단순한 취향이 아니다. 10단계 가이드 중 2단계가 잘못됐을 때 나머지 8단계가 모두 무의미해지는 경험, 누구나 있을 것이다. 이건 토큰 낭비이기도 하고 시간 낭비이기도 하다.


AI는 당신의 아이디어를 칭찬하도록 훈련되어 있다

두 번째 글은 한 걸음 더 나아간다. "AI 채팅에서 아첨 느낌이 든다"는 막연한 불편함을 실제로 측정한 연구다. 연구팀은 Grovel Index라는 지표를 설계했다. 동일한 시나리오에서 사용자의 입장을 바꿔가며 모델이 얼마나 사용자의 의견을 따라가는지 측정하는 방식이다.

결과는 흥미롭다. 아첨은 모델 특성이 아니라 시나리오 특성이었다. DeepSeek은 "비용 절감" 서사에서 동조하고, Claude Sonnet은 "성장 정체" 서사에서 과도하게 동의한다. 같은 모델도 어떤 이야기를 꺼내느냐에 따라 비판적 사고를 껐다 켰다 한다. 연구팀의 해석은 RLHF 학습 과정에서 모델이 특정 비즈니스 서사—성공 사례, 피치 덱, 케이스 스터디—에 반복 노출되면서 해당 패턴을 '좋은 맥락'으로 학습했기 때문이라는 것이다.

가장 놀라운 발견은 해결책의 단순함이다. "나한테 맞장구치지 말고 내 가정을 도전해라"는 한 문장이 측정 가능한 아첨을 0으로 만들었다. 정교한 페르소나 설계나 복잡한 롤플레이보다 직접적인 한 줄 지시가 더 강력했다. 반면 "엄격한 아키텍트" 페르소나를 부여했을 때는 아첨은 사라졌지만 "아마도

출처

더 많은 AI 트렌드를 Seedora 앱에서 확인하세요