IT

한컴 "HWP, DOC·PDF와 구조 동일"…AI 호환성 자신감

류청빛 기자 2026-03-09 10:13:44
DOC·PDF 등도 바이너리 기반…AI 활용 위해선 전처리 과정 필요 XML 기반 개방형 포맷 HWPX 확대…"AI 친화적 문서 생태계 구축"
한컴 본사 전경.[사진=한글과컴퓨터]

[경제일보] 글로벌 오피스 소프트웨어 시장이 마이크로소프트 등 해외 기업 중심으로 재편되는 가운데 국산 오피스 기업 한글과컴퓨터가 인공지능(AI) 환경에서도 자사 문서 포맷의 활용성과 호환성에 문제가 없다는 입장을 거듭 강조하고 있다.

최근 일부 업계에서는 한컴 오피스의 대표 문서 포맷인 HWP가 AI 시스템과의 호환성이 떨어진다는 평가가 제기되고 있다. 반면 한컴 측은 '문서 포맷의 특성을 오해한 주장'이라고 설명했다.

한컴에 따르면 HWP가 AI가 읽기 어렵다는 지적은 정확히 말하면 HWP만의 문제가 아니다. HWP뿐 아니라 DOC, PDF 등 대부분의 문서 파일은 텍스트만 담긴 구조가 아니라 서식, 표, 이미지, 문단 구조 등 다양한 정보를 포함한 '바이너리 형식 문서 포맷'으로 저장되기 때문에 AI가 바로 데이터를 활용하기 위해서는 별도의 데이터 추출과 전처리 과정이 필요하다.

한컴은 "HWP만 특별히 AI가 읽기 어려운 구조라는 인식은 사실과 다르다"며 "DOC나 PDF 역시 기본적으로 동일한 바이너리 기반 문서 구조를 갖는다"고 설명했다.

한컴의 HWP가 상대적으로 AI 서비스에서 활용되는 사례가 적은 이유는 시장 규모에 인한 것으로 분석된다. DOC와 PDF는 글로벌 시장에서 가장 널리 사용되는 문서 포맷이기 때문에 해외 AI 기업들이 해당 문서를 분석하고 읽을 수 있는 기술을 먼저 개발해 적용했다는 것이다. 반면 한국 중심으로 사용되는 HWP의 경우 글로벌 기업 입장에서 우선순위가 낮아 관련 기능 개발이 늦어졌다는 분석이다.

현재 글로벌 오피스 시장은 사실상 미국 빅테크가 주도하고 있다. 온라인 시장조사 기업 스태티스타에 따르면 마이크로소프트의 오피스 제품군은 지난해 2월 기준 전 세계 생산성 소프트웨어 시장에서 약 30% 수준의 점유율을 차지하며 글로벌 오피스 스위트 시장 경쟁에서 구글 워크스페이스는 지난 2024년 2월 기준 약 44%의 점유율을 차지하고 있는 것으로 집계됐다.

이에 글로벌 AI 개발사들은 점유율이 높은 DOC, PDF 등 HWP와 같은 구조를 가진 '구형 문서 포맷'을 AI가 읽을 수 있도록 '통역기'를 개발한 것으로 풀이된다.
 
구글의 지난 2024년 8월 27일 제미나이 업데이트 내역 캡쳐 [사진=구글 워크스페이스 업데이트 블로그]

실제로 지난 2024년 8월부터 구글은 제미나이에 HWP와 HWPX 등의 지원을 대대적으로 업데이트했다. 또한 네이버 클로바X 등 국내 기업이 개발한 AI는 HWP를 지원하는 것으로 알려졌다.

한컴은 지난 2010년부터 개방형 문서 포맷인 HWPX 저장 기능을 제공한 것으로 알려졌다. HWPX는 XML 기반 구조를 사용하는 개방형 문서 포맷으로 문서 데이터를 구조적으로 분석하고 추출하기 쉽도록 설계됐다.

또한 기존 HWP 문서를 HWPX로 손쉽게 변환할 수 있는 'HWPX 변환기'를 무상으로 배포하고 있으며 대량 문서도 단시간에 변환할 수 있는 시스템을 구축했다고 설명했다.

특히 한컴은 자체 개발한 '한컴 데이터로더' 기술을 통해 HWP 파일을 별도의 포맷 변환 없이도 텍스트와 문서 구조 정보를 직접 추출할 수 있는 기술을 확보했다고 강조했다. 이를 통해 AI 학습용 데이터나 검색 시스템 구축 과정에서도 HWP 문서를 효율적으로 활용할 수 있다는 것이다.

문서 데이터를 AI에 활용하기 위해서는 단순히 문서를 입력하는 것이 아니라 데이터 전처리 과정이 필수적이라는 점도 설명했다. 표나 이미지가 포함된 문서의 경우 해당 정보를 AI가 이해할 수 있도록 설명 데이터를 추가하는 등의 구조화 작업이 필요한 것이다.

HWP뿐만 아니라 DOC나 PDF도 표와 이미지가 복잡하게 얽혀 있는 경우 AI가 정확히 인식하지 못하는 경우가 발생한다. 이에 문서의 AI 활용에 앞서 데이터의 전처리 과정이 필요한 것으로 풀이된다.

한컴 관계자는 "한컴은 문서 구조 분석과 데이터 추출 기술을 통해 AI 친화적인 문서 생태계를 구축하고 있다"며 "업계에서는 수년 전부터 개방형 문서 포맷 의무화를 주장해 왔고, 한컴 역시 정부, 지자체와 함께 공공문서의 개방형 문서 포맷 전환을 꾸준하게 추진해 왔다"고 말했다.

한컴은 향후 문서 작성·편집 환경에 AI 기능을 결합하는 전략을 통해 오피스 소프트웨어 경쟁력을 강화한다는 계획이다. 한컴 측은 AI 환경에서도 자사 오피스 소프트웨어가 충분한 호환성과 확장성을 갖추고 있다는 점을 지속적으로 알릴 방침이라고 설명했다.