구축사례

  • home >
  • 회사소개 >
  • 구축사례
DB구축 및 음성서비스를 위한 웹 기반 OCR 시스템
년도 : 2015 업계 : 공공 고객사: 국회도서관 솔루션 : Recognition Server



국회도서관, 텍스트 DB 구축 및 음성 서비스를 위한 웹 기반 OCR 시스템 구축



OCR 구축사례 국회도서관.png


솔루션 도입 배경


국회도서관은 입법 활동 지원을 위하여 수집한 자료를 국회의원 및 국회 소속 공무원뿐 아니라 전 국민에게 제공하고 있으며, 1 6천만 면이 넘는 방대한 원문 자료를 전자도서관을 통해 제공하고 있는 우리나라를 대표하는 도서관 중 하나이다.


대부분의 도서관과 마찬가지로 국회도서관에도 이미지나 이미지 PDF 형태의 수 많은 자료를 가지고 있어 활용에 많은 제약이 있었으며, 홈페이지를 통한 도서검색 서비스, 장애인의 도서정보 접근이 어려웠다.


이런 제약사항을 극복하기 위하여 국회도서관은 국가대표도서관 1등 독서 장애인 온라인 서비스 기반 마련을 위하여 OCR 솔루션을 도입하였고 도서관 IT 구축 사업을 전문으로 하고 있는 개발사 디비포털(대표 이동준) 과 함께 텍스트 DB 구축과 시각 장애인을 위한 음성 서비스 구현을 위한 웹 기반의 OCR 시스템을 구축 하였다.


시스템 구축은 디비포털이 도서관 IT 구축 업무의 노하우와 기술력을 바탕으로 ABBYY Recognition Server 4를 도입하여 진행 하여 수작업으로 진행 하기에는 너무나 방대한 양의 이미지 자료를 텍스트화 할 수 있는 기틀을 마련하였다.

 

OCR 구축사례 디비포탈.png




프로젝트


디비포털은 국회 도서관이 보유하고 있는 수 많은 이미지와 이미지 PDF 파일을 관리자가 지정해서 OCR 서버로 XML 파일을 생성하고, 검수 작업자들이 웹 환경 하에서 오탈자 검증을 수행한 후 국회 도서관 DB에 업로드 할 수 있는 웹 기반 시스템을 제작하였다. 


그림1.png

<그림1> Recognition Server 인식 결과 – ALTO XML


이 과정에서 이미지 파일과 이미지 PDF 파일을 ABBYY Recognition Server 4를 통해 ALTO XML 형태로 변환하였다



그림2.jpg

<그림 2> 국회도서관 웹 기반 OCR 시스템 – OCR 작업 관리 화면


Recognition Server이 제공하는 OCR 기능을 포함하여 웹 기반 OCR 시스템은 국회 도서관 내부의 배치 작업, (홈페이지를 통한국회 도서관 시스템 외부의 OCR 실시간 요청 처리 등을 수행하며, 인식 결과물을 국회도서관의 전자도서관 시스템에 저장하고 작업 단위별, 날짜별, 작업 기록이 포함된 로그 데이터 파일을 생성하여 전자 도서관 시스템과 공유하게 된다



그림3.jpg

<그림 3> 국회도서관 웹 기반 OCR 시스템 결과 수정 기능


OCR 작업 관리 UI에서 배치로 작업할 OCR 파일을 등록하고 작업 결과 등을 확인 하는 등의 작업 관리를 할 수 있다

, OCR 결과의 오류를 수정할 수 있는 기능을 제공한다



그림4.png

<그림 4> 국회도서관 웹 기반 OCR 시스템 통계 관리 


웹 기반 시스템은 작업자 등록 및 작업 이력 통계를 생성하고 관리하는 기능을 제공하여 작업자 별 작업량과

 문서 처리량 등 필요한 작업 관리에 필요한 데이터를 제공한다.



그림.png

<그림 5> 국회 도서관의 음성서비스


웹 기반 시스템을 통한 OCR 기능은 국회전자도서관의 실시간 음성 서비스에 적용될 예정이다.

또한, 현재 텍스트 기반 자료만 대상으로 하고 있는 국회 도서관의 본문 및 목차 검색 기능도 

그 대상을 이미지 대상으로 확대될 예정이다




솔루션 도입 결과


도서관의 이미지 혹은 이미지 PDF 자료는 워낙 수량이 방대했기 때문에 데이터베이스화가 어려웠고 그 결과 데이터의 검색이라는 전자 도서관의 기능이 제한적일 수 밖에 없었고, 일부 중요한 도서나 문서의 데이터베이스화를 위하여 많은 인력과 시간을 투입 해야 하는 문제가 있었다.


웹 기반 OCR 시스템 도입을 통하여 이미지 자료의 데이터베이스화에 소요되는 인력 및 시간이 엄청나게 절감 되고 있으며, 이 결과 국회도서관의 전자 도서관이 제공하는 본문 및 목차 검색 기능, 시각 장애인을 위한 음성 서비스의 범위가 대폭 늘어날 것으로 보여, 공공 도서관으로서의 국회 도서관의 위상을 더욱 높일 것으로 예상된다.


이번 사례에 적용된 ABBYY Recognition Server 솔루션은 관세청, 한국특허정보원, 공정거래위원회, 한국인터넷진흥원, LG전자, GS건설 등 많은 공공 기관 및 기업체에 공급된 솔루션으로 문서 검색 시스템, 문서 관리 시스템 등에 적용된 전문인식(Full Text Recognition) 솔루션 이다. 

 

Recognition Server.png