한컴의 ‘오픈데이터로더 PDF v2.0’이 깃허브 전체 언어 트렌딩 1위를 찍었습니다(네이트/구글뉴스 인용). 공개 하루 만에 스타가 1800개 이상 늘고 누적 8400+ 스타, 500+ 포크까지 붙었다는 건, 제품 출시보다 먼저 ‘배포(Distribution)’가 터진 전형적인 그로스 모멘텀입니다.
이 사건의 핵심은 “PDF를 잘 읽는다”가 아니라 “AI 전처리 병목을 겨냥해 개발자 워크플로우 안으로 침투했다”입니다. PDF는 기업 문서·보고서·논문이 가장 많이 쌓이는 포맷인데, 텍스트/표/이미지가 섞여 있어 RAG 파이프라인에서 늘 비용과 시간이 새는 구간이었습니다. 여길 공략하면, 데이터팀·플랫폼팀·에이전트 개발자에게는 ‘바로 써먹는 인프라’가 됩니다.
한컴은 하이브리드(규칙 기반 추출+AI 기반 분석)로 정확도/재현성을 동시에 잡았다고 설명합니다. 로컬 처리(데이터 외부 전송 없음)로 보안 거부감을 낮추고, OCR·표/수식·차트 분석까지 기본 제공해 “문서→구조화→임베딩/검색”의 첫 단을 넓혔습니다. 여기에 테스트 데이터와 재현 코드를 공개한 점은 단순 홍보가 아니라 ‘신뢰 확보를 위한 개발자용 세일즈 자료’에 가깝습니다.
왜 이게 저CAC 유입이냐면, 오픈소스는 광고 없이도 검색과 추천이 돌기 때문입니다. 깃허브 트렌딩, 스타/포크, 이슈/PR, 블로그 레퍼런스가 합쳐져 SEO를 만들고, 랭체인 구성요소로 이미 편입됐다는 사실(기사 언급)은 배포 채널을 한 단계 더 넓힙니다. 올해 라마인덱스·제미나이 CLI 연동 확대 계획까지 나오면, ‘도구-도구 간 연결’이 곧 획득 채널이 됩니다.
그 다음 질문은 하나입니다. 무료 사용자를 어디서 유료로 바꿀 것인가. 답은 RAG/에이전트의 현실적인 병목인 “대용량 처리”와 “운영”입니다. 로컬/OSS는 팀이 작을수록 잘 쓰지만, 문서량이 늘면 배치 처리, 큐잉, 관측(옵저버빌리티), SLA, 권한/감사로그 같은 운영 비용이 폭발합니다. 즉, 오픈소스가 ‘TTV(Time-to-Value)’를 줄여 유입을 만들면, 유료는 “운영과 스케일”에서 자연스럽게 발생합니다.
퍼널로 쪼개면 더 선명합니다. (1) 깃허브/프레임워크 마켓플레이스에서 설치 → (2) 샘플 PDF로 5분 내 성능 체감 → (3) 실제 사내 문서로 PoC 진행(보안 때문에 로컬 선호) → (4) 처리량 증가로 스케일 니즈 발생 → (5) 관리형 옵션(Cloud/Enterprise) 또는 GPU/고성능 컴퓨팅 결제로 전환. 특히 OCR·레이아웃 분석이 포함되면 CPU로 버티는 구간을 넘어서는 순간이 오고, 그때 과금 포인트가 생깁니다.
여기서 시장 맥락이 받쳐줍니다. RAG가 ‘환각을 줄이는 표준 아키텍처’로 확산 중이라는 진단(데일리안/구글뉴스 인용) 때문에, 기업들은 모델보다 데이터 거버넌스·전처리에 돈을 씁니다. 그리고 인프라 측면에서는 GPU를 구독형으로 제공하는 GPUaaS가 빠르게 상품화되고 있습니다(삼성SDS의 B300 GPU 서비스 출시 기사 참고). 전처리→검색→추론의 체인이 길어질수록, “도구는 무료, 실행은 유료” 모델이 설득력을 얻습니다.
시사점은 두 가지입니다. 첫째, 오픈소스는 마케팅 비용을 줄이는 게 아니라 ‘세일즈 사이클’을 줄입니다. 트렌딩 1위는 리드의 양을 늘리고, 재현 가능한 벤치마크는 리드의 질을 올립니다. 둘째, 아파치 2.0처럼 상업적 사용을 허용하는 라이선스는 확산에는 유리하지만, 전환 설계가 없으면 “유료로 바뀌지 않는 채택”만 쌓일 수 있습니다. 그래서 초기부터 관리형 배포, 엔터프라이즈 보안 기능, 대량 처리 파이프라인, 과금 기준(페이지/문서/처리시간/워크스페이스)을 함께 설계해야 합니다.
전망: 한컴의 이 움직임은 ‘오피스 회사’에서 ‘AI 데이터 인프라’로 포지셔닝을 바꾸는 데 가장 효율적인 루트입니다(네이트 기사 맥락). 다음 스텝이 중요합니다. 트렌딩의 열기가 식기 전에 (1) “RAG 스타터 키트(랭체인/라마인덱스)” 템플릿을 붙여 활성화를 끌어올리고, (2) 대량 처리/스케줄링/관측을 묶은 관리형 패키지로 전환 지점을 만들고, (3) MCP 같은 에이전트 연계 기능을 ‘유료 가치’로 명확히 분리해야 합니다. 오픈소스에서 시작된 배포가, Cloud/GPU 과금까지 연결될 때 비로소 이번 트렌딩은 ‘좋은 뉴스’가 아니라 ‘지속 가능한 성장 엔진’이 됩니다.