[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.] 영문 타자기(기사의 특정내용과 관계없음)AI(인공지능) 기반 문서데이터 기업 로민이 진실화해를위한과거사정리위원회(이하 진실화해위)에 자사 솔루션을 제공했다고 8일 밝혔다.
진실화해위는 보유한 과거 사건 기록물 중 디지털 전환이 필요한 이미지 기반 문서를 정밀하게 인식하고, 이를 구조화된 데이터로 전환하기 위한 사업을 펼쳤다. 조사대상 문서에는 사진 촬영된 문자 이미지, 노이즈가 많은 고문서 영문 타자체 등 역사적 자료가 포함됐다. 이 사업에 로민의 '텍스트스코프'가 구독형 서비스 형태로 제공됐다.
로민은 AI 기반으로 손글씨, 문맥, 문서 구조를 함께 이해하는 OCR(광학문서인식) 서비스 '텍스트스코프'를 개발했다. 로민은 그 중 '텍스트스코프 스튜디오' 솔루션을 통해 고문서에 포함된 영문 타자체를 비롯한 다양한 형태의 문서를 인식하는 데 참여했다. 로민은 특히 문서 데이터가 외부로 유출되지 않도록 학습 차단 설정, 보안 체계 등을 적용해 공공기관의 보안 기준도 충족했다고 밝혔다.
진실화해위 측은 "여러 솔루션을 검토했으나 우리가 보유한 오래된 영문 타자체 문서를 제대로 인식하지 못하는 한계가 있었다"며 "로민의 솔루션이 가장 우수한 인식률을 보였고, 실제 서비스 이용 후 결과물도 만족스럽다"고 전했다. /사진=로민
일반적으로 사용자가 PDF나 이미지 등에서 글자를 인식해 데이터로 변환할 때 문자 외에 제목이나 부제목, 표 등 서식까지 완벽히 가져오기는 어렵다. 이에 비해 로민의 텍스트스코프는 제목·부제목·표 등 문장의 구조를 정형화된 데이터로 만들고, 인식하지 못한 글자는 문맥에 따라 유추할 수 있다.
강지홍 로민 대표는 "앞서 국가기록원과 협업을 통해 필기체와 타자체 등 복잡한 서체 인식 기술을 축적한 바 있다"며 "앞으로도 공공 기록물의 디지털 전환과 문서 자동화 확대에 기여하겠다"고 말했다.
한편 로민은 올해 NH농협의 스타트업 오픈이노베이션 프로그램에 선발돼 각종 지원을 받았다. NH농협은행과 AI OCR을 실증, NH농협의 기존 솔루션 대비 문서 판독률과 처리속도를 모두 개선했다.