OCR
중국어로 이루어진 텍스트를 만드는 데까지는 일사천리로 이루었으되, 이것을 그냥 두면 '꿰지 않은 구슬'일 뿐이오.

널리 이용하는 '한글'을 통해 '꿰인 구슬'로 만들어 보쇠다.

'한글'을 실행하여 '불러오기'를 하오.<br />'파일 형식'을 '텍스트 문서' 또는 '유니코드 문서'로 선택하여 열어야 하오.



'문자 코드 선택'을 '간체(GB)'로 하고 '읽기'를 클릭하오.


이렇게 매끈하게 읽어지게 되오.<br />한글 200x은 물론이고, 한글 97에서도 잘 읽히오.



그대로 편집하면 되지만, 간체자가 부담스러워 번체자로 바꾸고 싶다면, 아래와 같이 하면 되오.

먼저 전체선택을 하고(단축키 [Ctrl+A]),


메뉴의 '편집'에서 '글자 바꾸기'→'간체/번체 바꾸기'를 클릭하오.<br />단축키는 [Alt+Shift+F9] 되겠소


간체/번체 바꾸기 창이 뜨면 '바꿀 방법'에서 '간체를 번체로'를 선택하고 [바꾸기]를 누르오.


이와 같이 멋스러운 번체자로 모두 바뀌었소.



* * *

비록 문자인식이라는 기술이 참으로 좋기는 하나, 아직은 100%의 인식률을 보이지는 않소.
인식률이 99%라 하여도 한 페이지당 3~5 글자 정도는 오식되는 셈이니, 오식을 찾아 고쳐주는 것도 보통 일은 아니오.

그리고, '한글'에서도 간혹 코드가 맞아떨어지지 않는 경우가 있어 엉뚱한 글자로 바뀔 수 있으니, 면밀히 교정하는 작업이 필수적이라 하겠소.

* * *

이상으로 SH OCR 6.0을 이용한 문자인식에 대하여 알아보았소.
지금은 8.0이나 10.0 버전이 나왔을지도 모를 일이구료. 언젠가 구해지면 또 다루어보리다.
  1. 마노스 2006.03.27 11:15 신고

    좔봤소...

    아주 이해하기 쉽구려..

    그럼 이제 프로그램을 보내주시오... ~

  2. 라스핀 2006.03.28 17:15 신고

    소햏도 좔봤소... 졸준위에게도 프로그램을 보내주시구려~~~

OCR
2. 문자인식

설치를 잘 하였으니 이제 본연의 기능인 문자인식을 해 보오.

실행을 하면 역시 이런저런 깨진 모양을 보여주는데, 일단 아래와 같은 처치를 해 주오.

Windows Setup을 PWIN에서 WIN으로 바꿔주오.<br />중국어 윈도 셋팅에서 영문 윈도 셋팅으로 바꾸는 옵션 되겠소.



이와 같이 '그나마 반가운' 영어로 바뀌게 되오.



보기 좋은 모양새로 바꾸었으니, 이제 인식하고자 하는 그림파일을 불러오오.
(문서를 스캔할 때는 200dpi 이상의 해상도에서 'Black & White'로 하는 것이 좋소. SH OCR 6.0은 BMP, TIFF, JPG의 세 가지 형식만 지원하니 GIF나 PNG 등의 다른 형식으로 저장하진 마오.)

메뉴의 'File'에서 'Open'을 클릭하여 원하는 파일을 찾아 불러오오.


이와 같이 그림파일이 불려왔소.



그림이 너무 작게 표시되므로, 아이콘을 클릭한 뒤 돋보기 모양의 커서를 그림에 클릭하오.

이제 보암직한 크기가 되었소.



스캔할 때 살짝 비뚫어져 있었다면 인식률이 다소 떨어지게 되오.
아이콘을 클릭하여 비뚫어짐 보정을 해 주오.

그냥 '예' 하면 자동으로 보정해 주오.<br />다만, 간혹 이상하게 되는 일도 있소.



커서를 드래그하여, 인식하고자 하는 부분을 선택하오.


문서가 두 부분 이상으로 나뉘어 있다면, 선택박스를 순서대로 그어주면 인식할 순서까지 자동으로 처리하오.



글자 사이에 불필요한 점 같은 것이 끼어 있으면 엉뚱한 글자로 인식되는 경우가 비일비재하므로, 아이콘을 클릭해서 선택박스 안에 있는 잡티를 깨끗이 없애주오.

이제 인식을 할 차례이오.<br />메뉴의 'Recognize'에서 'Recognize'를 클릭하거나,<br />메뉴 아래의 식별(识別) 탭을 클릭하오.



작은 창이 하나 떠서 Recognizing... 하게 되오.


인식이 끝나면 Text Verify 창이 뜨오.<br />파란색으로 표시되는 글자는 애매하게 인식된 것을 말하므로, 해당하는 글자 앞에 커서를 놓고, 오른쪽 아래의 'Select' 창에서 맞는 글자를 선택해 주면 되오.


오식을 모두 수정했으면, 메뉴의 'File'에서 'Sace text file'을 클릭하여 저장하오.


적절한 폴더에 파일 형식은 'Text file'로 하여 저장하오.


'Write mode'는 'Overwrite'로 하면 같은 이름의 파일이 있을 때 덮어서 써 버리고, 'Append'로 하면 같은 이름의 파일이 있을 때 그 파일 맨 뒤에 추가해서 저장하게 되오.

'Return'은 한 줄 한 줄 뒤에 들어가는 엔터를 결정하는 것인데, 'Soft return'으로 하면 한 문단씩 자동으로 엔터를 붙여주고, 'Hard return'으로 하면 그림에 있는 한 줄씩마다 엔터를 주오.
원문과 대조하여 교정을 하고자 한다면 'Hard return'을 선택하는 것이 좋겠소.
OCR
0. 프롤로그

무릇 OCR이라 함은, 설명하기 귀찮으니 링크를 참고하시오.
요즘에야 스캐너에 번들로 들어 있는 OCR도 우수한 인식률을 보여주므로 별도의 OCR 소프트웨어를 사용할 일이 거의 없으나, 몇 년 전만 해도 문자인식을 위해서는 '아르미' 등의 OCR 소프트웨어를 별도로 구해서 사용해야 했소.
그런데, 영문이나 한글은 인식률이 썩 좋았지만, 한자, 특히 간체자 위주로 이루어진 문서를 대할 때면 애로사항이 활짝 꽃피는 일이 허다하였소.

그리하야, 당시에는 아래와 같은 물건을 구해다 쓰는 것이 유일한 대책이었으니.. 두둥!

상서 6호(SH OCR 6.0)


이 자리를 빌어, 이걸 중국에서 직접 구해다 주신 지니어스윤 선햏께 심심한 감사를 표하오.

요새는 스캐너 번들 소프트웨어에서도 영문, 한글, 간자, 번자, 일문을 막론하고 잘 인식해 주므로 별반 쓸 일이 없으나, 혹여 '옛것'의 향취를 버리지 못하는 소햏 같은 햏자들이 있을까 저어하여 간단한 매뉴얼을 쌔우게 되었소(심히 늦은 감이 없지는 않소;;).


1. 설치

Setup 파일을 실행하면, 이와 같이 몹시 깨지는 창이 뜨는데, 당황하지 말고 [다음(下一?(N))]을 누르오.


간단한 사용자 정보를 입력하는 부분이오.<br />대개 자동으로 입력되니, 걱정치 말고 [다음]을 누지르오.


역시 통 뭔 소린지 모를 말들이 나타나는데, 설치할 폴더를 정하는 부분 되겠소.<br />결벽증을 앓고 있는 햏자가 아니라면, 그냥 기본으로 놓고 [다음]을 누르쇠다.


'시작→프로그램'에 들어갈 폴더 이름을 정하는 부분이오.<br />기본으로 된 것은 한글 윈도에서는 알아볼 수 없으므로, 알아보기 쉬운 이름으로 바꾸어 둠이 좋을 것이오.


이제 익숙한 설치 장면이 주욱 진행되오.


설치가 완료되었다는 메세지 되겠소.<br />[완료(?束)] 버튼을 누르면 끝나오.


설치가 잘 되었는지 확인해 보겠소.<br />'시작→프로그램→중국어 OCR'이 잘 보이는구료.


하지만, 역시 아이콘 이름이 깨져 있으니, 마우스 우클릭해서 '이름 바꾸기'를 해 주면 좋소.


마찬가지로 바탕화면에 있는 '蝎짇뵀깊목匡俚街깎溝固' 아이콘도 알아보기 쉬운 이름으로 바꾸어 주면 좋겠소.

  1. 2009.09.16 17:17

    비밀댓글입니다

+ Recent posts