중국시가넷 - 한의학 고서 - OCR 에 대한 OCR

OCR 에 대한 OCR

광학 문자 인식은 이미지 처리 및 패턴 인식 기술을 통해 광학 문자를 인식하는 것으로, 자동 인식 기술 연구 및 응용의 중요한 측면입니다. 문자를 자동으로 인식하고 컴퓨터에 입력하는 소프트웨어 기술로 스캐너와 함께 제공되는 주요 소프트웨어입니다. 키보드가 아닌 입력 범주에 속하며 이미지 입력 장치의 조화가 필요하며 주로 스캐너입니다.

현재 OCR 은 주로 [1] 문자 인식 소프트웨어를 가리킵니다. 시중에 나와 있는 스캐너와 OCR 소프트웨어는 1996 자광에 중국어 인식 소프트웨어를 맞추기 시작할 때까지 별도로 판매되었으며, 전문 OCR 소프트웨어는 스캐너보다 더 비쌉니다. 스캐너 해상도가 높아짐에 따라 OCR 소프트웨어도 계속 업그레이드되고 있으며, 현재 스캐너 업체는 전문 OCR 소프트웨어를 자체 스캐너와 함께 판매하고 있습니다. OCR 기술의 급속한 발전은 스캐너의 광범위한 사용과 밀접한 관련이 있다. 최근 2 년 동안 스캐너가 보편화되고 OCR 기술이 향상됨에 따라 OCR 은 대부분의 스캐너 사용자에게 효과적인 도우미가 되었습니다. 1960 년대 초 1 세대 OCR 제품이 등장한 이후 반세기 동안 끊임없이 발전하고 보완해 손글씨를 포함한 각종 OCR 기술에 대한 연구가 주목할만한 성과를 거두었다. OCR 제품의 기능 요구사항도 인식률에서 인식 속도, 사용자 친화적인 인터페이스, 운영 편의성, 제품 안정성, 적응성, 안정성 및 업그레이드 용이성, 사전 판매 후 서비스 품질에 대한 높은 요구 사항으로 바뀌었습니다.

OCR 의 개념은 독일 과학자 Tausheck 이 1929 년에 제기한 것으로, 이후 미국 과학자 Handel 도 기술로 문자를 식별하는 사상을 제시했다. 케이시와 나지는 인쇄체 한자 인식을 연구한 최초의 사람이다. 1966 년 그들은 한자 인식에 관한 첫 번째 문장, 템플릿 일치법으로 1000 개의 인쇄체 한자를 식별했다.

일찍이 60 년대와 70 년대에 세계 각국은 OCR 을 연구하기 시작했다. 연구 초기에는 대부분 문자 인식 방법에 집중했고, 인식된 문자는 0 에서 9 까지의 숫자였다. 같은 액자가 있는 일본을 예로 들면 OCR 의 기본 인식 이론은 1960 정도에 연구를 시작했다. 처음에는 숫자를 대상으로 1965 부터 1970 까지 인쇄체 문자의 우편 번호 인식 시스템, 우편물의 우편 번호 인식, 우체국이 지역 우편물 배포를 하는 데 도움이 되는 간단한 제품이 등장하기 시작했다. 그래서 우편번호는 각국이 제창한 주소 쓰기 방식이다.

1970 년대 초에 일본 학자들은 한자 인식을 연구하기 시작했고 많은 일을 했다. 우리나라는 OCR 기술에 대한 연구가 늦게 시작되어 1970 년대부터 숫자, 영문자, 기호의 인식을 연구하기 시작했다. 70 년대 말부터 한자의 인식을 연구하기 시작했다. 1986 까지 한자 인식에 대한 연구가 실질적 단계에 접어들면서 많은 연구기관이 중국어 OCR 제품을 잇따라 선보였다. 초기의 OCR 소프트웨어는 인식률, 제품화 등 다양한 요인으로 실제 수요를 충족시키지 못했다. 동시에 하드웨어 장비 비용이 높고 실행 속도가 느리기 때문에 실용화 수준에 도달하지 못했다. 정보부 및 언론 출판 단위와 같은 소수의 부서만 OCR 소프트웨어를 사용합니다. 1986 이후 우리나라의 OCR 연구는 큰 진전을 이루었고 한자 모델링과 인식 방법에 혁신을 이루며 시스템 개발과 응용 방면에서 풍성한 성과를 거두었다. 많은 단위들이 잇달아 중국어 OCR 제품을 내놓았다. 1990 년대 이후 우리나라 플랫폼 스캐너의 광범위한 응용과 정보 자동화, 사무 자동화의 보급으로 OCR 기술이 크게 추진되면서 OCR 의 인식 정확도와 속도가 사용자의 요구를 충족시켰다. 스캐너의 보급과 광범위한 응용으로 인해 OCR 소프트웨어는 스캐너와의 인터페이스만 제공하고 스캐너 구동 소프트웨어를 사용하면 됩니다. 따라서 OCR 소프트웨어는 주로 이미지 처리 모듈, 레이아웃 분할 모듈, 텍스트 인식 모듈 및 텍스트 편집 모듈의 네 부분으로 구성됩니다.

1, 이미지 처리 모듈

이미지 처리 모듈에는 주로 문서 스캔, 이미지 확대/축소 및 이미지 회전 기능이 있습니다. 원본이 스캐너를 통해 입력되면 이미지 파일이 형성되고 이미지 처리 모듈은 이미지를 확대하여 얼룩과 스크래치가 제거됩니다. 이미지가 제대로 배치되지 않은 경우 이미지를 수동 또는 자동으로 회전하여 문자 인식을 위한 더 나은 조건을 만들고 인식률을 높일 수 있습니다.

2. 레이아웃 분할 모듈

레이아웃 모듈에는 주로 레이아웃, 분사, 정규화 등을 이해하는 레이아웃 및 변경 구분이 포함됩니다. 자동 또는 수동 레이아웃 분할 방법을 선택할 수 있습니다. 목적은 OCR 소프트웨어에 문장, 양식 등을 분리하도록 알리는 것입니다. 이를 별도로 처리하고 어떤 순서로 식별할 수 있도록 합니다.

3. 문자 인식 모듈

문자 인식 모듈은 OCR 소프트웨어의 핵심 부분입니다. 문자 인식 모듈은 주로 입력된 한자를 읽는 것이지만, 한 눈에 몇 줄을 읽을 수 없으므로 한 줄씩 잘라야 합니다. 한자의 경우, 보통 글자 인식, 즉 단어 인식, 그리고 정규화된다. 문자 인식 모듈은 한자의 다른 샘플의 특징을 추출하여 인식을 완료하고, 의심스러운 단어를 자동으로 발견하며, 앞뒤 연상 기능을 갖추고 있다.

4. 텍스트 편집 모듈

텍스트 편집 모듈은 주로 OCR 인식 텍스트를 수정하고 편집합니다. 시스템에서 오류를 식별하면 텍스트는 눈에 띄는 빨간색 또는 파란색으로 표시되며 편집기 출력을 선택할 수 있는 유사한 텍스트를 제공합니다. OCR 인식 시스템의 목적은 이미지를 변환하여 이미지의 그래픽을 계속 유지하는 것입니다. 테이블의 데이터와 이미지의 문자는 모두 컴퓨터 문자가 되어 이미지 데이터의 저장을 줄이고, 인식된 문자를 재사용하고 분석할 수 있으며, 물론 키보드 입력의 인력과 시간을 절약할 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), Northern Exposure (미국 TV 드라마), 컴퓨터명언)

이미지에서 결과 출력까지 이미지 입력, 이미지 사전 처리, 텍스트 피쳐 추출, 비교 인식, 마지막으로 수동 수정을 통해 오타를 수정하고 결과를 출력합니다.

1 이미지 입력

OCR 처리를 수행할 주제는 이미지 스캐너, 팩스 기계 또는 모든 사진 장치와 같은 광학 기기를 통해 컴퓨터로 전송해야 합니다. 과학기술이 발전함에 따라 스캐너 등 입력 장비는 점점 더 정교하고 얇고 가벼우며 품질이 높아져 OCR 에 큰 도움이 된다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 과학명언) 스캐너의 해상도를 통해 이미지가 더 선명해지고, 스캔 속도가 빨라지며, OCR 처리의 효율성이 향상됩니다.

다운로드: 타이비 기술 광학 OCR 이미지 사전 처리: 이미지 사전 처리는 OCR 시스템에서 가장 해결해야 할 모듈입니다. 흑백이 아닌 이진수 이미지나 그레이스케일 컬러 이미지를 얻는 것부터 독립적으로 생성된 텍스트 이미지까지 이미지 전처리에 속한다. 이미지 정규화, 노이즈 제거, 이미지 보정 등의 이미지 처리, 그래픽 분석, 텍스트 행 및 텍스트 분리와 같은 파일 사전 처리가 포함됩니다. 이미지 처리 분야에서는 이론적으로나 기술적으로 성숙한 단계에 이르렀기 때문에 시장이나 웹사이트에 많은 링크 라이브러리를 사용할 수 있습니다. 문서의 전처리에서 각 기술을 보아야 한다. 이미지는 먼저 그림, 표, 텍스트 영역을 분리하고 문장 컴포지션 방향, 윤곽선, 본문을 구분해야 문자의 크기와 글꼴을 원본 문서로 판단할 수 있다.

문자 피쳐 추출: 인식률만으로는 피쳐 추출이 OCR 의 핵심이라고 할 수 있습니다. 어떤 특성과 피쳐 추출 방법이 인식의 품질에 직접적인 영향을 미치기 때문에 OCR 연구 초기에 피쳐 추출에 대한 많은 연구 보고서가 있었습니다. 특징은 인식된 칩이라고 할 수 있으며, 간단한 구분은 두 가지 범주로 나눌 수 있습니다. 하나는 텍스트 영역의 검정색/흰색 점 비율과 같은 통계적 특성입니다. 텍스트가 여러 영역으로 분할되면 각 영역의 검정색/흰색 점 비율의 조합이 공간의 숫자 벡터가 되며 기본 수학 이론은 충분히 비교할 수 있습니다. 또 다른 특징은 텍스트 이미지를 다듬어 선 끝과 단어가 교차하는 양과 위치를 얻거나 특수한 비교 방법을 사용하여 선 세그먼트와 비교하는 것과 같은 구조적 특징입니다. 시중에 나와 있는 온라인 필기 입력 소프트웨어의 인식 방법은 대부분 이런 구조적 방법에 기반을 두고 있다.

비교 데이터베이스: 입력 문자의 특징을 계산한 후 통계적 또는 구조적 특징을 사용하는지에 관계없이 비교 데이터베이스 또는 피쳐 데이터베이스를 비교해야 합니다. 데이터베이스 내용에는 인식할 모든 문자 세트와 입력 문자와 동일한 피쳐 추출 방법을 통해 얻은 피쳐 그룹이 포함되어야 합니다.

2 비교 인식

이것은 수학 연산 이론을 충분히 발휘할 수 있는 모듈이다. 특성에 따라 다른 수학 거리 함수를 선택합니다. 비교적 유명한 방법은 유클리드 공간 비교법, 이완 비교법, 동적 계획법 (DP) 이다. 신경 네트워크 데이터베이스, hmm (숨겨진 마르코프 모델) 과 같은 유명한 방법의 설립과 비교도 있습니다. 식별 결과를보다 안정적으로 만들기 위해 일부 사람들은 소위 전문가 시스템을 제안하고 다양한 기능 비교 방법의 차이와 상보성을 사용하여 식별 결과에 특히 높은 신뢰도를 부여합니다.

텍스트 사후 처리: OCR 의 인식률이 100% 에 달하지 못하거나 일치의 정확성과 신뢰도를 높이기 위해 일부 디버깅 및 오류 수정을 돕는 기능이 OCR 시스템의 필수 모듈이 되었습니다. 단어 후처리는 비교 후 인식된 단어와 비슷할 수 있는 후보 단어를 이용하여 앞뒤로 인식된 단어에 따라 가장 논리적인 단어를 찾아 수정하는 예입니다.

시소러스: 워드 포스트 프로세싱을 위해 설립 된 시소러스.

3 수동 수정

마지막 레벨 OCR 이전에는 사용자가 마우스를 들고 소프트웨어 디자인의 리듬을 따르거나 보기만 하면 사용자의 정신과 시간이 필요할 수도 있고 OCR 오류일 수도 있는 부분을 바로잡거나 찾아내야 할 수도 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 성공명언) 좋은 OCR 소프트웨어는 오류 비율을 줄이기 위해 안정적인 이미지 처리 및 인식 코어를 가지고 있을 뿐만 아니라, 수동으로 보정된 작업 흐름과 기능이 OCR 의 처리 효율성에 영향을 미칩니다. 따라서 문자 이미지와 인식자의 비교, 화면 정보의 위치, 각 인식자의 후보 문자 기능, 인식문자 거부 기능, 문제가 될 수 있는 문자는 문자 사후 처리 후 특수 치수화됩니다. 사용자가 가능한 한 키보드를 적게 사용하도록 설계되었습니다. 물론, 시스템이 표시하지 않는 문자가 반드시 정확하다는 것은 아니다. 마치 키보드로 완전히 입력되는 오선 스펙트럼도 잘못될 수 있는 것과 같다. (윌리엄 셰익스피어, 햄릿, 언어명언) 이때 사용자의 요구에 전적으로 달려 있다.

4 결과 출력

어떤 사람들은 텍스트 파일을 텍스트의 일부로만 재사용하기를 원하기 때문에 일반 텍스트 파일, 어떤 사람들은 입력 파일과 정확히 같기를 바라기 때문에 원문을 재현하는 기능이 있고, 어떤 사람들은 표의 텍스트를 중시하기 때문에 Excel 과 같은 소프트웨어를 결합해야 한다. 어떤 변화든 출력 파일 형식의 변화일 뿐이다. 원문과 같은 형식으로 복원해야 한다면 인식 후 수동 조판이 필요하고 시간이 많이 걸린다. 1 데이터 입력

문서 재료에 대한 숫자 입력은 일반적으로 다음과 같이 구분됩니다.

1. 이미지 전용 모드.

2. 목차 텍스트, 본문 이미지 모드.

3. 전체 텍스트 모드.

4. 전체 텍스트 인덱싱 방법. 텍스트 모드와 이미지 모드의 혼합입니다.

2 인식 프로세스

도서 수준: 중국어, 영어; 간체, 번체

배치 수준: 수직 및 수평; 열이 있는지 여부

행 분할 단어 분할

인식: 이미지 정보가 텍스트 정보로 복원되는 실제 OCR 인식 프로세스입니다.

사후 처리: 주로 처음 4 단계에 초점을 맞춘 수동 개입.

3 감정 결과 결정 요인

1. 화질 일반 권장 사항 150dpi 이상.

2. 컬러. 일반 색상 인식 불량, 흑백 사진 높음. 따라서 ocr 은 흑백 TIF 형식을 사용하는 것이 좋습니다.

가장 중요한 것은 글꼴입니다. 필적이라면 인식률이 매우 낮다.

중국 간체 OCR 인식의 오류율은 만분의 3 이다. 더 높은 정확도가 필요하다면 더 많은 수작업이 필요하다. 번체자 식별이 어려운 것은 번체자 라이브러리가 일치하지 않기 때문이다. 수동 개입으로 정확도가 90% 이상에 달할 수 있습니다 (그림이 또렷한 경우). 1. 해상도 설정은 문자 인식을 위한 중요한 전제 조건입니다. 일반적으로 스캐너는 더 많은 이미지 정보를 제공하며 인식 소프트웨어는 쉽게 식별 결과를 얻을 수 있습니다. 그러나 스캔 해상도를 높게 설정할수록 인식 정확도가 높아지는 것은 아닙니다. 대부분의 문서를 스캔하는 데 적합한 300dpi 또는 400dpi 해상도를 선택합니다. 원문의 스캔 인식을 주의해서 스캔 해상도를 설정할 때 스캐너의 광학 해상도를 초과하지 않도록 해야 한다. 그렇지 않으면 득실할 수 없다. 다음은 정보 제공만을 목적으로 하는 몇 가지 일반적인 설정입니다.

(1) 1, 2,3, 200dpi 권장.

(2)4, 5 번 작은 단락은 300dpl 을 추천한다.

(3) 번호가 작은 5, 6 항은 400dpl 을 추천한다.

(4) 단락 7, 8 은 600dpi 사용을 권장합니다.

2. 스캔할 때 밝기와 대비 값을 적절히 조정하여 스캔된 파일을 흑백으로 만듭니다. 이것은 인식율의 핵심이다. 스캔 밝기와 대비 값의 설정은 스캔한 이미지에서 한자의 가는 획을 관찰하지만 멈추지 않는 원리를 기반으로 한다. 인식하기 전에 스캔한 이미지에서 문자의 품질을 살펴보십시오. 그림에 검은 점이나 검은 점이 있거나 글자의 선이 굵고 어두우면 획이 잘 구분되지 않아 밝기 값이 너무 작다는 것을 알 수 있습니다. 밝기 값을 늘려 다시 시도해야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 밝기명언) 이미지의 텍스트 선이 울퉁불퉁하거나 부러지거나 한자 윤곽이 심하게 불완전하면 밝기 값이 너무 크다는 것을 나타내므로 밝기를 낮추고 다시 시도해야 합니다.

3. 스캔 소프트웨어를 선택합니다. 자신에게 적합한 OCR 소프트웨어를 선택하는 것은 문자 인식을 위한 기초입니다. 일반적으로 스캐너와 함께 제공되는 OEM 소프트웨어는 사용해서는 안 됩니다. OEM OCR 소프트웨어는 기능이 적고, 효과가 나쁘며, 어떤 것은 심지어 중국어 인식도 없다.

다른 이미지 소프트웨어를 선택합니다. 첫째, OCR 소프트웨어는 모든 스캐너를 인식하지 못합니다. 둘째, 가장 중요한 점으로, 영상 소프트웨어의 스캔 인터페이스에서 스캔한 영상은 처리하기 쉽다.

4. 텍스트를 굵게, 기울임꼴, 첫 줄 들여쓰기 등 포맷할 경우. , 일부 OCR 소프트웨어는 인식하지 못하고 형식이 손실되거나 깨질 수 있습니다. 서식있는 텍스트를 스캔해야 하는 경우 사용 중인 인식 소프트웨어가 텍스트 형식 스캔을 미리 지원하는지 확인합니다. 또한 패턴 인식 시스템을 꺼서 글꼴 및 글꼴 형식에 관계없이 올바른 문자를 찾는 데 집중할 수 있습니다.

5. 신문이나 기타 반투명한 원고를 스캔할 때 뒷면의 문자는 종이를 통해 글꼴을 혼동하여 인식에 큰 장애가 된다. 이런 스캔은 스캐너 뒷면에 붙이시면 됩니다. 스캔할 때 검은 종이 한 장을 덮고 스캔 대비를 높이면 뒷면 흐림 글꼴의 영향을 줄이고 인식 정확도를 높일 수 있습니다.

6. 일반 텍스트 스캔은 흑백이지만 스캔 설정 시 스캔 모드를 회색 모드로 설정하는 경우가 많습니다. 특히 원본 품질이 좋지 않은 경우 그레이스케일 모드 스캔을 사용하여 스캔 소프트웨어를 처리한 후 계속 인식하면 인식 정확도가 향상됩니다. OCR 인식 소프트웨어가 자체적으로 임계값을 결정할 수 있으며 임계값 차이가 몇% 정도 떨어지면 정상 인식에 영향을 줄 수 있다는 점에 유의해야 합니다. 물론 결과 이미지 파일의 크기는 흑백 파일보다 훨씬 큽니다. 대량의 원고를 스캔할 때는 원고를 테스트하여 최적의 임계값 비율을 찾아야 한다.

7. 도형이 뒤섞인 스캔본을 만났을 때, 먼저 사용 중인 인식 소프트웨어가 도형 자동 분석 기능을 지원하는지 확인해야 한다. 지원되는 경우 OCR 소프트웨어는 이러한 스캔 인식 중 텍스트의 내용, 위치 및 순서를 자동으로 계산합니다. 치수 순서에 따라 텍스트 부분이 정상적으로 인식됩니다.

8. 수동으로 스캔 영역을 선택하면 더 잘 식별할 수 있습니다. 매개변수를 설정한 후 스캔 영역 선택을 시작하기 전에 미리 봅니다. 한 영역에서 문장 선택을 사용하지 마십시오. 왜냐하면 더 나은 시각 효과를 추구하기 위해 현재 문장 조판은 도문 혼행을 더 많이 사용하며, 한 장의 사진으로 스캔하면 OCR 인식에 영향을 줄 수 있기 때문입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언) 따라서 레이아웃은 실제 상황에 따라 n 개의 영역으로 나누어야 한다. 지역은 어떻게 나누나요? 각 영역의 문자 글꼴과 크기는 일치해야 하고 그래픽과 이미지는 없어야 하며 각 행의 폭은 일치해야 합니다. 길이가 다른 경우는 세분화해야 합니다. 일반적으로 한 번에 최대 10 개의 선택 영역을 스캔할 수 있습니다. 상황에 따라 영역을 식별하는 순서를 합리적으로 설정합니다. 이 과정이 너무 성가시게 느껴지지 마라, 이것은 인식률을 높이는 효과적인 수단이다. 모든 것이 온전하게 느껴질 때까지 식별 영역 사이에 교차가 없어야 합니다. 이렇게 일반적인 인식률은 95% 이상이다. 오류를 인식하는 단어를 교정한 후 해당 워드 프로세싱 소프트웨어에 들어가 필요한 처리를 할 수 있다.

9. 스캐너를 배치할 때, 스캔된 문자 재료는 반드시 스캔라인 중앙에 배치하여 광학 렌즈로 인한 왜곡을 최소화해야 한다. 또한 스캐너 유리가 손상되지 않도록 보호해야 합니다. 문자가 비스듬하게 기울어지거나 원문 조판이 불규칙하여 스캔 후 회전 도구로 교정해야 합니다. 그렇지 않으면 OCR 인식 소프트웨어가 가로획을 비스듬한 획으로 취급하여 인식 정확도가 많이 떨어질 수 있습니다. 사용자는 스캔한 원본을 최대한 곧게 만드는 것이 좋습니다. 도구를 사용하여 교정을 회전하면 이미지 품질이 저하되고 문자 인식이 어려워집니다.

10. 먼저 전체 레이아웃을 미리 보고 스캔할 영역을 선택한 다음 확대 미리 보기 도구를 사용하여 작은 확대 화면 표시를 선택하고 텍스트의 대비와 깊이 농도를 관찰하고 필요에 따라 임계값 크기를 조정합니다. 마지막으로, 텍스트가 명확하고, 굵지 않고 (클러스터) 옅지 않고 (글자 차단), 보통 80 정도 되는 임계값을 요구한 다음 스캔합니다.

1 1. 도구를 사용하여 원본 레이아웃에서 인식할 필요가 없는 도형과 구분선을 포함한 이미지 얼룩을 지워 텍스트 이미지에 불필요한 것이 없도록 합니다. 이렇게 하면 인식률을 크게 높이고 인식 후 수정 작업을 줄일 수 있다.

12. 신문과 같이 인쇄 품질이 약간 떨어지는 문장 (예: 신문) 를 스캔하려면 스캔 결과가 흑백이 아니며 검은 점이 많고 글꼴의 획에도 접착이 있을 수 있습니다. 이 두 가지는 한자 인식의 금기로 한자 인식의 정확성에 심각한 영향을 미칠 수 있다. 더 나은 인식 효과를 얻기 위해서는 색조를 꼼꼼히 조정하고 반복적으로 스캔해야 원하는 결과를 얻을 수 있다. 또한, 신문은 매우 얇기 때문에, 대부분의 종이의 질이 높지 않기 때문에, 스캐너의 덮개는 신문 (틈새가 있음) 을 완전히 눌러서는 안 되므로, 신문의 스캔 인식 효과는 일반적으로 잡지보다 못하다. 해결책은 신문에 16K 잡지 한두 권을 누르는 것인데, 효과가 좋다.