ABBYY Recognition Server

  • home >
  • 솔루션 >
  • ABBYY Recognition Server


  • ABBYY Recognition Server 4.0 새기능 


    향상된 서버기능 

         
    RS3.png



             읽기 전용 아카이브 및 문서 라이브러리 처리 

               핫 폴더나 SharePoint 라이브러리를 문서 입력 폴더로 설정하여, 핫폴더에 저장된 문서를 삭제, 이동, 변경
               하지 않고 인식 처리할 수 있습니다.


              향상된 문서 처리 능력 

                SQLite 데이터베이스와 더욱 강력해진 fault tolerance 메커니즘의 추가로 문서 처리 능력, 즉 많은 작업량과
                여러 사용자의 동시 접속을 지속적으로 처리할 수 있는 능력이 더욱 향상되었습니다.
                

              Active Directory를 통한 간편한 사용자 관리 

                Active Directory 사용자 그룹을 통해 관리, 스캐닝, 검증, 인덱싱 과 같은 다른 작업을 위한 사용권한을 할당
                할 수 있습니다. 사용자가 ABBYY Recognition Server 4.0에 등록된 Active Directory 그룹에 추가(또는 제거)
                되면, 자신의 권한이 자동으로 업데이트 됩니다. 


              클러스터 지원을 통한 서비스 안정성 향상

               ABBYY Recognition Server 4.0에는 클러스터 아키텍처가 적용되어 주요 비즈니스 서비스 관점에서 장애 
               발생시 서비스 중단 기간을 최소화 할 수 있습니다. 하드웨어 또는 소프트웨어 상의 장애가 발생하여 서비스가 
               중단될 경우 작업이 중단되지 않고 계속 처리될 수 있도록 서버의 자원을 적절히 재배치합니다. 


              쉬운 관리를 위한 향상된 로깅 

               보다 쉬운 서버 관리를 위해, 완료된 작업의 로그에 각 개별 처리 문서에 대한 추가 정보가 개선었습니다. 

    RS5.png
















    RS6.png








                 또한 기간, 파일 크기에 따라 유연하게 로그 보관 방법을 정의할 수 있습니다. 

    RS7.png



    강화된 
    PDF 기능


          텍스트 레이어가 포함된 PDF 파일의 스마트 프로세싱 

               검색 가능한 PDF 파일에 대한 불필요한 재처리를 피하기 위하여, 검색 가능 PDF의 재인식이 필요한 지를 
               지능적으로 판단합니다. 재인식이 필요한 경우, ABBYY Recognition Server 4.0은 각 PDF파일의 텍스트 레이
               어의 품질을 판단하여 재인식 여부를 판단합니다. 이러한 인공지능 알고리즘을 통해 파일 변환 시간이 단축
               될 수 있습니다.  


           원본 PDF 파일의 기존 기능을 유지 

               PDF를 PDF/A 등으로 변환시 원본 파일의 북마크, 메타데이터, 첨부 파일을 그대로 유지하면서 OCR 결과의
               텍스트 레이어만 삽입할 수 있습니다. 따라서 소스 파일 및 이미지 품질은 그대로 유지됩니다. 


           최신 PDF/A 표준 지원 

               기존에 지원하는 PDF/A-1a , PDF/A-1b 버전과 함께, 새 버전에서는 더 적은 저장공간, 투명도 효과, 레이어
               등 향상된 효과가 포함된 최신 PDF/A 표준 버전인 PDF/A-2a, PDF/A-2b, PDF/A-2u의 생성 옵션이 추가 지원
               됩니다. 






    ABBYY Recognition Server 4.0 릴리즈 3 새기능 소개 >



    1. 가져오기 (Import) 

            1.-1  입력 포맷으로 오피스 파일 포맷 추가

    이미지 파일, PDF 파일 뿐만 아니라 Microsoft office 파일 포맷도 입력 포맷으로 처리할 수 있습니다.
     * MS Office : DOC, DOCX, RTF, TXT, HTML, HTM, XLS, XLSX, PPT, PPTX
     * Libre Office : DOC, DOCX, RTF, ODT, XLS, XLSX, ODS, PPT, PPTX, ODP 
                 
                                              (* 단 MS Office 또는 Libre Office 프로그램이 설치되어 있어야 함)


             1-2.  Import Event Handlers 

                     문서 입력 시 문서를 프로세싱하기 전 스크립트를 이용하여 전처리 할 수 있습니다. 

    RS_4_ABBYY.png


                          RS_4_ABBYY_02.png   

           1-3  하나의 워크플로우에서 전체 SharePoint 포털을 처리(모든 하위사이트 포함)

                   기존 SharePoint에 개별 하위 사이트에 접속하기 위해 여러 워크플로우를 만들었다면, 
                   이제 하나의 워크플로우에서 SharePoint의 모든 하위사이트와 라이브러리를 처리할 수 있습니다. 


           1.4  XML 티켓을 입력 포맷으로 추가 

                   XML 파일만 처리되도록 입력 파일의 마스크를 수정하면, XML 티켓이 입력 폴더에 배치될 때까지
                   문서 처리가 대기됩니다. XML 티켓이 도착하기 전에 잘못 처리되는 파일을 방지할 수 있습니다. 



     2. 프로세싱(Processing) 

           2.1  FineReader 12 의 유저 패턴을 이용 

                  고급처리설정에서 ABBYY FineReader 12에서 훈련한 사용자 패턴 파일을 로드할 수 있습니다.
                  사용자 패턴은 희귀하거나 장식 글꼴의 인식 결과를 개선하는데 사용 됩니다.  
    RS_4_ABBYY_03.png



           2.2  사진에서 텍스트를 추출 

                 그림, 차트, 다이어그램, 스크린샷 등에서 텍스트 추출이 필요할 때 유용한 'Extract text from pictures' 모드를
                 새로 지원합니다. 이 모드를 선택하면 그림 영역을 포함한 모든 문서의 영역에서 텍스트 인식을 시도합니다. 


         2.3  분리 바코드 추출을 위한 외부 엔진 사용 가능 

                  문서 분리 단계에서 사용하는 바코드를 인식하기 위해 외부 엔진을 사용할 수 있습니다. 


            2.4  PDF파일 병합 시 원본 PDF 품질 보호 

                   여러 파일(tiff, pdf)을 단일 PDF파일로 병합 시 텍스트 레이어와 원본 PDF파일의 품질이 유지됩니다. 




    3. 인덱싱(Indexing) 


           3.1  대형 멀티 페이지 문서를 수동으로 인덱싱 가능 

                  수동으로 대형 멀티 페이지 문서를 인덱싱 할 수 있습니다. 인덱싱을 위한 중요한 데이터는 대부분 
                  문서 시작부에 배치되므로, 처음 다섯 페이지를 인덱싱 스테이션에 로드하며, 필요한 경우 페이지의
                  다음 세트 또는 전체 문서를 로드할 수 있습니다. 로드할 페이지의 기본값은 서버에서 변경 가능합니다. 


    RS_4_ABBYY_04.png

                   
          3.2  문서 유형에 대한 이벤트 핸들러 

                문서 유형이 변경되거나, 특정 값이 변경되는 등의 이벤트에 응답하여 인덱스 필드의 내용을 수정할 수 있습니다.
                이 기능을 사용하여 다음과 같은 시나리오를 구현할 수 있습니다. 

                  - 데이터베이스 조회 : 하나의 필드를 선택하고 데이터베이스 또는 파일 첨부 데이터를 가져옴

                  - 값의 동적 목록 생성 : 특정 조건 또는 선택된 값을 기반으로 값 또는 목록을 변경 

                  - 여러 문서 형식에 대한 인덱스 필드의 값을 미리 정의할 때 사용 : 여러 필드의 값을 미리 정의하고, 
                    오퍼레이터가 나머지 중요한 데이터를 스테이션에서 선택 

                  - SharePoint로 서비스 데이터 내보내기 : 숨겨진 인덱스 필드로 처리 통계, 워크플로우 이름, 운영자 이름 등



          3.3  숨김 및 읽기 전용 인덱스 필드 

                스크립트에 의해 자동으로 완료되는 인덱스 필드를 숨기거나 편집 하지 못하도록 설정 가능합니다. 

    RS_4_ABBYY_05.png




    4. 내보내기(Export) 


           4.1  입력 폴더에 처리된 문서를 저장하는 기능 추가 

                  출력된 파일을 입력 폴더에 저장 가능하며, 소스와 출력 파일 이름이 동일한 경우 소스 파일을 덮어 쓸 수 
                  있습니다. 문서 라이브러리 워크플로우 유형으로 사용할 수 있으며 초기 폴더에 문서를 그대로 보관해야 하는  
                  경우, 스토리지를 정상화 하는데 유용합니다.


           4.2  PDF 문서에 첨부파일로 원본문서를 추가 

                  PDF / A-3 및 PDF(v.1.7)문서에 첨부 파일로 원본 문서를 추가할 수 있습니다. 원본 문서가 중요하거나,
                  원본을 볼 필요가 있을 경우 유용합니다. 

         
           4.3  향상된 ALTO XML로 내보내기 

                  - 소스 이미지 파일명을 저장할 수 있습니다. 
                  - 원본 이미지의 좌표를 작성할 수 있습니다.
                  - ALTO XML 3.0 버전을 새로 지원하며, 파라미터로 필요한 스키마를 선택할 수 있습니다. 
                  - 하나의 단어가 하나의 문자인 한중일(CJK)언어의 특성을 고려하여 모든 단어는 적절한 좌표의 별도 
                    텍스트 개체로 내보내집니다. 
                  - 내보내기 단계에서 여러 파일로 ALTO XML파일을 분할 할 수 있습니다. 

       


    5. 관리 콘솔(administration console)
      

           5.1  SMTP 서버를 사용하여 알림 설정

                  SMTP 서버를 통해 관리자에게 이메일로 알림을 보낼 수 있습니다. Error, No queued jop 등 알림을 원하는
                  유형을 선택할 수 있습니다. MS Exchange에서 설치하거나 서버에서 사용할 수 없는 경우 유용합니다. 


           5.2  관리자의 작업을 로깅

                  이벤트로그는 원격 관리 콘솔에서 관리자가 수행하는 워크플로우 설정 변경, 활성화 라이선스 변경, 
                  사용자 계정 수정 등 특정 작업의 로그를 포함합니다. 
     

           5.3  작업 로그의 확장된 정보 

                  작업 로그는 운영자에 의해 수행된 작업의 정보(문서 로드, 변경, 승인, 거부 등)가 포함되며, 운영자의
                  이름 또한 각 로그 항목에 포함됩니다. 특정 문서를 색인, 검증한 작업자를 식별하거나, 문서 처리 내역을
                  추적하는데 유용합니다. 


           5.4  실패한 작업을 다시 내보내기

                  수동으로 실패한 작업을 다시 내보낼 수 있습니다.

    RS_4_ABBYY_06.png
      
           
           5.5  관리 콘솔 UI 개선 

                 관리자의 쉬운 작업을 위해 Recognition Server 4.0의 관리 콘솔 GUI가 개선되었습니다. 
                  - 빠르게 입력폴더 상황에 맞는 워크플로우 속성 열기
                  - 워크플로우 도구 모음에 기타 작업 버튼 추가 
                  - Recognition Server 세부사항 표시


      

    6. API 

            6.1  Web API 버전 지원
     
                  Web API 버전을 체크할 수 있습니다. 사용자 정의 응용프로그램에서 Web API 버전에 따라 참조 가능합니다.
       



    기타 개선 


           아랍어 OCR 인식 속도 증가 

               인식률의 저하 없이 더 빨라진 아랍어 OCR 속도를 제공합니다. 덜 복잡한 레이아웃의 문서일 경우 OCR 속도
               는 최고 두배 빨라져 ABBYY Recognition Server 3.5에 비해 20% 빨라진 아랍어 OCR 성능을 자랑합니다. 


             확장자(*) 필터링으로 필요한 파일만 처리

               파일 확장자에 맞게 해당 파일을 처리할 수 있는 기능을 제공합니다. 확장자에 따라 Exceptions folder,
               Output folder 등으로 배치할 수 있습니다. 


    RS8.png


             기술도면을 위한 특수 처리 모드 

                기술도면 처리모드가 새롭게 추가되어 구조도, 엔지니어링 도면과 같은 기술도면 내의 텍스트 추출 성능이 
                월등히 향상되었습니다.  원본 파일의 그래픽 객체를 유지하면서 이 모드를 사용하여 가로방향 텍스트, 시계
                방향 회전된 텍스트, 반시계 방향으로 회전된 텍스트를 모두 인식할 수 있어, 도면에 있는 모든 텍스트를 정
                확하게 인식할 수 있습니다. 


    RS9.png


           중간 검증 결과를 저장  

               데이터 손실을 방지하기 위해 아직 완성되지 않은 검증 작업의 결과를 저장할 수 있습니다. 중간 검증 결과는
               수동 또는 자동으로 지정된 시간에 저장할 수 있습니다. 


             인덱싱 스테이션에서 값 목록을 동적으로 가져오기  

                인덱스 필드에서 사용할 수 있는 값 목록을 외부 파일이나 데이터베이스에서 동적으로 가져 올 수 있습니
                다. 이 기능으로 목록을 자동으로 업데이트 하거나 타사 시스템과 동기화할 수 있습니다.