에이전트 신뢰가드 설계: ‘유입’ 전에 퍼널을 지키는 보안·안전·운영 레이어

에이전트/LLM 제품에서 “유입이 안 된다”는 문제는 종종 2순위입니다. 더 치명적인 건 신뢰 붕괴가 전환·리텐션을 즉시 박살낸다는 점입니다. 프롬프트 한 줄로 정책이 우회되면 환불·지원 티켓이 폭증하고, 내부 운영 툴이 뚫리면 그날로 고객은 떠납니다. 성장 관점에서 ‘신뢰가드(Trust Guard)’는 옵션이 아니라 AARRR 퍼널의 바닥을 받치는 구조물입니다.

동국대 연구팀의 SlotGCG(ICLR 2026 채택, 뉴스티앤티 보도)는 이 위협을 정교하게 현실화합니다. 기존 jailbreak가 프롬프트 “끝에 토큰을 덧붙이는” 방식에 치우쳤다면, SlotGCG는 프롬프트 내부의 특정 위치(슬롯) 취약점을 계량화(VSS)해 더 높은 성공률로 우회합니다. 핵심은 공격이 ‘문장 내용’만이 아니라 ‘배치 위치’까지 이용한다는 것—즉 단순 금칙어 필터나 후처리 가드레일이 생각보다 쉽게 무너질 수 있다는 경고입니다.

동시에, AI타임스가 보도한 북한발 ‘가짜 원격 노동자’ 침투는 신뢰가드가 제품 바깥(조직/운영)까지 확장돼야 함을 보여줍니다. 딥페이크 면접, 도용 신원, 링크드인 추천서 조작, 노트북 팜까지 결합되면 “채용”이 곧 공급망 공격이 됩니다. 특히 에이전트 제품은 고객 데이터·사내 권한·결제/환불 시스템과 맞물리기 때문에, 한 명의 내부자(혹은 내부자처럼 보이는 외부자)가 곧바로 데이터 유출과 서비스 장애로 연결됩니다.

여기에 WSJ를 인용한 네이트 보도의 ‘성인 모드’ 논쟁은 또 다른 축을 드러냅니다: 안전은 보안만이 아니라 “정서적 위해/규제 리스크”까지 포함합니다. 연령 추정의 오분류(미성년자 12% 성인 분류 테스트 결과)가 사실이라면, 이건 PR 이슈가 아니라 퍼널 비용의 문제입니다. 논란→신뢰 하락→구독 해지/광고 채널 차단→파트너십 중단으로 연쇄 반응이 발생합니다. 성장팀이 안전을 ‘브랜드 캠페인’이 아니라 ‘리텐션 엔진’으로 봐야 하는 이유입니다.

그럼 신뢰가드는 어떻게 설계해야 할까요. 첫째, 입력 레이어에서 “프롬프트 위치 공격”을 전제로 합니다. 시스템/개발자/유저 메시지 경계뿐 아니라 템플릿 내부 슬롯별로 정책 토큰을 분산·중복 배치하고(단일 지점 붕괴 방지), 고위험 의도 탐지 시에는 모델 호출 자체를 라우팅(강가드 모델/규칙 기반)하거나 ‘질문 재구성(rewrite)’로 공격 표면을 줄입니다. SlotGCG가 보여준 건 ‘끝단 방어’가 아니라 ‘중간 구간 취약’이므로, 템플릿 설계가 곧 보안 설계입니다.

둘째, 실행 레이어(툴/에이전트 권한)에서 피해를 제한합니다. 에이전트가 한 번 jailbreak되면 “말”이 아니라 “행동”이 문제입니다. 최소권한(least privilege), 고위험 툴은 2단계 승인, 금전/데이터 변경은 휴먼 인더 루프, 그리고 세션 단위의 권한 만료가 기본값이어야 합니다. 이건 보안팀만의 요구가 아니라 COGS 절감이기도 합니다. 사고 대응·환불·재발 방지 개발 비용은 결국 CAC 상한선을 깎습니다.

셋째, 신원/조직 레이어를 제품 운영의 일부로 끌어올립니다. 원격 채용은 ‘HR 프로세스’가 아니라 ‘보안 온보딩 퍼널’로 재정의해야 합니다. 장비 배송 체인 검증, 로그인에 기기 증명(디바이스 바인딩), 권한 부여 전 “업무 샌드박스 기간”, 이상 행위 탐지(근무 위치·접속 패턴·권한 탐색 행위) 같은 운영 가드가 필요합니다. 가짜 노동자 사례가 말하듯, “성과가 좋아 보인다”는 건 오히려 위험 신호일 수 있습니다.

넷째, 안전/정책 레이어는 ‘출시 체크리스트’가 아니라 실험 설계로 다뤄야 합니다. 성인 모드 같은 민감 기능은 기능 플래그로 코호트 분리, 취약군(미성년 추정/정서 고위험) 차단 정확도에 대한 관측 지표를 먼저 만들고, 문제가 생겼을 때 롤백이 아니라 ‘자동 완화(대화 강도 제한, 리소스 연결, 세션 쿨다운)’가 작동해야 합니다. 안전장치가 “나중에 붙이는 것”이면, 나중에 붙일 시간은 보통 없습니다.

전망은 분명합니다. 에이전트 시장이 커질수록 공격은 프롬프트→툴→조직으로 확장되고, 규제/플랫폼 정책은 더 촘촘해질 겁니다. SlotGCG 같은 연구는 방어팀에겐 불편한 진실이지만, 성장팀에겐 기회입니다. 신뢰가드를 제품화해 “사고율↓, 환불률↓, 티켓↓, 리텐션↑”로 연결하면, 유입을 억지로 늘리지 않아도 LTV가 올라가고 CAC를 더 공격적으로 쓸 수 있습니다. 에이전트의 다음 경쟁력은 ‘더 똑똑함’이 아니라 ‘더 믿을 만함’입니다.

에이전트 신뢰가드 설계: ‘유입’ 전에 퍼널을 지키는 보안·안전·운영 레이어

출처