[경제일보] 한글과컴퓨터가 인공지능(AI) 개발 과정에서 핵심 병목으로 지목돼 온 데이터 전처리 영역에서 존재감을 드러내고 있다. 한글과컴퓨터가 공개한 PDF 데이터 추출 오픈소스가 글로벌 개발자 커뮤니티에서 빠르게 확산되며 자사의 기술 경쟁력을 입증하고 있다.
23일 한글과컴퓨터는 자사의 오픈소스 프로젝트 '오픈데이터로더 PDF v2.0'이 오픈소스 개발 플랫폼 깃허브에서 전체 개발 언어 기준 트렌딩 1위를 기록했다고 밝혔다. 공개 직후 하루 만에 1800개 이상의 스타가 증가했고 오후 2시 기준 누적 스타 수는 8400개, 포크 수는 500개를 넘어섰다.
이번 성과는 단순한 인기 지표를 넘어 AI 개발 생태계에서 해결되지 않은 문제를 겨냥했다는 점에서 의미가 큰 것으로 분석된다. PDF는 전 세계에서 가장 널리 활용되는 문서 형식 중 하나로 기업 문서와 보고서, 연구 자료 등 주요 데이터가 집중된 포맷이다. 다만 텍스트와 표, 이미지가 혼합된 복잡한 구조로 인해 AI가 바로 활용할 수 있는 형태로 변환하기 어려워 데이터 전처리 단계의 대표적인 병목으로 꼽혀 왔다.
이에 한글과컴퓨터는 해당 문제를 해결하기 위해 AI 기반 분석 방식과 규칙 기반 직접 추출 방식을 결합한 하이브리드 엔진을 자사의 오픈데이터로더 PDF v2.0에 적용했다. 특히 외부 서버로 데이터를 전송하지 않고 로컬 환경에서 처리할 수 있도록 설계해 보안성을 높였고 처리 속도를 유지하도록 설계했다. 또한 광학문자인식(OCR), 표·수식 추출, 차트 분석 등 다양한 AI 기능을 기본 제공해 복합 문서 처리 범위를 넓혔다.
성능 측면에서도 경쟁력을 강조하고 있다. 자체 벤치마크 테스트에서 읽기 순서, 표 구조 인식, 제목 추출 등 주요 항목 전반에서 기존 오픈소스 대비 높은 정확도를 기록했으며 테스트 데이터와 재현 코드를 함께 공개해 결과의 신뢰성을 높였다. 해당 방식은 단순 기능 제공을 넘어 기술 검증 과정까지 공개해 글로벌 개발자 커뮤니티의 신뢰를 확보하려는 전략으로 풀이된다.
한글과컴퓨터는 200개의 실제 PDF 파일(다단 구성 문서 및 과학 논문 포함)을 기반으로 한 자체 벤치마크에서 전체 정확도 0.90, 표 추출 정확도 0.93을 기록하며 복잡한 문서 구조에서도 높은 인식 성능을 보였다고 설명했다. 특히 복잡한 페이지에 대응하기 위해 규칙 기반의 결정론적 로컬 모드와 AI 기반 하이브리드 모드를 병행 적용한 점이 성능 개선의 핵심으로 꼽혔다.
스캔 문서 처리 기능도 강화됐다. 80개 이상의 언어를 지원하는 내장 OCR 기능이 하이브리드 모드에서 동작하며 300DPI 이상의 저해상도 스캔 파일에서도 안정적인 텍스트 추출이 가능하다. 또한 테두리가 없는 표나 복잡한 레이아웃, LaTeX 수식, 이미지 및 차트까지 함께 인식하고 구조화할 수 있어 비정형 데이터 처리 범위를 확장했다.
오픈소스 정책 역시 확산을 염두에 둔 선택으로 해석된다. 해당 프로젝트에는 상업적 활용이 가능한 아파치 2.0 라이선스가 적용돼 기업과 개발자가 별도 제약 없이 서비스에 도입할 수 있도록 구성됐다. 이에 초기 사용자 기반을 빠르게 확보하고 생태계를 확장하려는 의도로 풀이된다.
AI 개발 생태계와의 연계도 강화되고 있다. 앞서 오픈데이터로더 PDF는 지난해 글로벌 AI 개발 프레임워크 랭체인의 공식 구성요소로 등록됐으며 올해에는 '라마인덱스', '제미나이 CLI' 등 주요 AI 프레임워크와의 연동 확대가 예정돼 있다. 다양한 AI 개발 도구와의 호환성을 확보함으로써 데이터 전처리부터 모델 활용까지 이어지는 흐름 속에 자연스럽게 편입시키겠다는 전략이다.
또한 AI 에이전트 환경을 겨냥한 기능 확장도 추진된다. 한글과컴퓨터는 모델 간 맥락을 연결하는 'MCP' 기능을 도입해 AI가 문서 데이터를 보다 효율적으로 이해하고 활용할 수 있도록 지원할 계획이다. 단순한 데이터 추출 도구를 넘어 AI 활용의 기반 인프라로 역할을 확장하려는 시도로 풀이된다.
최근 고성능 모델이 보편화되면서 실제 서비스 구현 단계에서는 데이터 품질과 처리 효율이 핵심 경쟁력으로 부상하고 있는 것으로 분석된다. 이에 한글과컴퓨터의 오픈데이터로더 PDF v2.0 확산을 통해 기존 오피스 소프트웨어 기업에서 AI 데이터 인프라 기업으로 영역을 넓힐 전망이다.
김연수 한컴 대표는 "이번 성과는 한컴의 문서 데이터 추출 기술의 완성도와 실용성이 글로벌 개발자 커뮤니티에서 직접적인 검증을 받은 결과로 다양한 활용을 통한 기술 생태계 확장 가능성도 확인했다"며 "아파치 2.0 라이선스 전환을 통해 전 세계 기업과 개발자가 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다"고 말했다.
Copyright © 경제일보, 무단전재·재배포 금지






![[사설] 기준도 원칙도 없는 여야 공천…시스템은 없고 사심만 남았다](https://image.ajunews.com/content/image/2026/03/23/20260323100118240898_388_136.jpg)



