2. 문자인식
설치를 잘 하였으니 이제 본연의 기능인 문자인식을 해 보오.
실행을 하면 역시 이런저런 깨진 모양을 보여주는데, 일단 아래와 같은 처치를 해 주오.
보기 좋은 모양새로 바꾸었으니, 이제 인식하고자 하는 그림파일을 불러오오.
(문서를 스캔할 때는 200dpi 이상의 해상도에서 'Black & White'로 하는 것이 좋소. SH OCR 6.0은 BMP, TIFF, JPG의 세 가지 형식만 지원하니 GIF나 PNG 등의 다른 형식으로 저장하진 마오.)
그림이 너무 작게 표시되므로,
아이콘을 클릭한 뒤 돋보기 모양의 커서를 그림에 클릭하오.
스캔할 때 살짝 비뚫어져 있었다면 인식률이 다소 떨어지게 되오.
아이콘을 클릭하여 비뚫어짐 보정을 해 주오.
글자 사이에 불필요한 점 같은 것이 끼어 있으면 엉뚱한 글자로 인식되는 경우가 비일비재하므로,
아이콘을 클릭해서 선택박스 안에 있는 잡티를 깨끗이 없애주오.
'Write mode'는 'Overwrite'로 하면 같은 이름의 파일이 있을 때 덮어서 써 버리고, 'Append'로 하면 같은 이름의 파일이 있을 때 그 파일 맨 뒤에 추가해서 저장하게 되오.
'Return'은 한 줄 한 줄 뒤에 들어가는 엔터를 결정하는 것인데, 'Soft return'으로 하면 한 문단씩 자동으로 엔터를 붙여주고, 'Hard return'으로 하면 그림에 있는 한 줄씩마다 엔터를 주오.
원문과 대조하여 교정을 하고자 한다면 'Hard return'을 선택하는 것이 좋겠소.
설치를 잘 하였으니 이제 본연의 기능인 문자인식을 해 보오.
실행을 하면 역시 이런저런 깨진 모양을 보여주는데, 일단 아래와 같은 처치를 해 주오.
![](https://t1.daumcdn.net/tistoryfile/fs5/16_30_22_6_blog33695_attach_1_107.png?original)
Windows Setup을 PWIN에서 WIN으로 바꿔주오.<br />중국어 윈도 셋팅에서 영문 윈도 셋팅으로 바꾸는 옵션 되겠소.
![](https://t1.daumcdn.net/tistoryfile/fs4/16_30_22_6_blog33695_attach_1_125.png?original)
이와 같이 '그나마 반가운' 영어로 바뀌게 되오.
보기 좋은 모양새로 바꾸었으니, 이제 인식하고자 하는 그림파일을 불러오오.
(문서를 스캔할 때는 200dpi 이상의 해상도에서 'Black & White'로 하는 것이 좋소. SH OCR 6.0은 BMP, TIFF, JPG의 세 가지 형식만 지원하니 GIF나 PNG 등의 다른 형식으로 저장하진 마오.)
![](https://t1.daumcdn.net/tistoryfile/fs6/16_30_22_6_blog33695_attach_1_138.png?original)
메뉴의 'File'에서 'Open'을 클릭하여 원하는 파일을 찾아 불러오오.
![](https://t1.daumcdn.net/tistoryfile/fs6/16_30_22_6_blog33695_attach_1_139.png?original)
이와 같이 그림파일이 불려왔소.
그림이 너무 작게 표시되므로,
![](https://t1.daumcdn.net/tistoryfile/fs5/16_30_22_6_blog33695_attach_1_108.png?original)
![](https://t1.daumcdn.net/tistoryfile/fs4/16_30_22_6_blog33695_attach_1_126.png?original)
이제 보암직한 크기가 되었소.
스캔할 때 살짝 비뚫어져 있었다면 인식률이 다소 떨어지게 되오.
![](https://t1.daumcdn.net/tistoryfile/fs5/16_30_22_6_blog33695_attach_1_109.png?original)
![](https://t1.daumcdn.net/tistoryfile/fs4/16_30_22_6_blog33695_attach_1_127.png?original)
그냥 '예' 하면 자동으로 보정해 주오.<br />다만, 간혹 이상하게 되는 일도 있소.
![](https://t1.daumcdn.net/tistoryfile/fs6/16_30_22_6_blog33695_attach_1_140.png?original)
커서를 드래그하여, 인식하고자 하는 부분을 선택하오.
![](https://t1.daumcdn.net/tistoryfile/fs6/16_30_22_6_blog33695_attach_1_144.png?original)
문서가 두 부분 이상으로 나뉘어 있다면, 선택박스를 순서대로 그어주면 인식할 순서까지 자동으로 처리하오.
글자 사이에 불필요한 점 같은 것이 끼어 있으면 엉뚱한 글자로 인식되는 경우가 비일비재하므로,
![](https://t1.daumcdn.net/tistoryfile/fs6/16_30_22_6_blog33695_attach_1_141.png?original)
![](https://t1.daumcdn.net/tistoryfile/fs4/16_30_22_6_blog33695_attach_1_129.png?original)
이제 인식을 할 차례이오.<br />메뉴의 'Recognize'에서 'Recognize'를 클릭하거나,<br />메뉴 아래의 식별(识別) 탭을 클릭하오.
![](https://t1.daumcdn.net/tistoryfile/fs4/16_30_22_6_blog33695_attach_1_130.png?original)
작은 창이 하나 떠서 Recognizing... 하게 되오.
![](https://t1.daumcdn.net/tistoryfile/fs4/16_30_22_6_blog33695_attach_1_131.png?original)
인식이 끝나면 Text Verify 창이 뜨오.<br />파란색으로 표시되는 글자는 애매하게 인식된 것을 말하므로, 해당하는 글자 앞에 커서를 놓고, 오른쪽 아래의 'Select' 창에서 맞는 글자를 선택해 주면 되오.
![](https://t1.daumcdn.net/tistoryfile/fs6/16_30_22_6_blog33695_attach_1_143.png?original)
오식을 모두 수정했으면, 메뉴의 'File'에서 'Sace text file'을 클릭하여 저장하오.
![](https://t1.daumcdn.net/tistoryfile/fs4/16_30_22_6_blog33695_attach_1_132.png?original)
적절한 폴더에 파일 형식은 'Text file'로 하여 저장하오.
'Write mode'는 'Overwrite'로 하면 같은 이름의 파일이 있을 때 덮어서 써 버리고, 'Append'로 하면 같은 이름의 파일이 있을 때 그 파일 맨 뒤에 추가해서 저장하게 되오.
'Return'은 한 줄 한 줄 뒤에 들어가는 엔터를 결정하는 것인데, 'Soft return'으로 하면 한 문단씩 자동으로 엔터를 붙여주고, 'Hard return'으로 하면 그림에 있는 한 줄씩마다 엔터를 주오.
원문과 대조하여 교정을 하고자 한다면 'Hard return'을 선택하는 것이 좋겠소.
'~하는 법' 카테고리의 다른 글
PDF 변환 프리웨어 'PDF Creator' 사용법 1. 설치 (2) | 2007.11.19 |
---|---|
SH OCR 6.0 (3. '한글'에서 중국어 텍스트 파일 이용하기. 끝) (2) | 2006.03.25 |
SH OCR 6.0 (1. 설치) (1) | 2006.03.25 |