Aspose.OCR 스캔된 PDF를 .NET용 텍스트로 변환
ASPOSE.OCR 스캔 PDF에 대하여 to Text for .NET에서는 개발자가 스캔된 PDF 파일에서 텍스트를 추출하거나 완전히 검색 가능한 문서로 변환할 수 있습니다.이 문서는 모든 레이아웃과 스타일을 읽고, 정확하게 문자와 테이블의 구조를 정의하고, 완전한 콘텐츠 보존을 위해 배경에 원본 이미지를 저장합니다.
설치 및 설정
시작하려면 NuGet를 통해 .NET 프로젝트에 Aspose.OCR 패키지를 설치하거나 현지적으로 다운로드 된 파일에서 설치하십시오 설치 가이드.어떤 OCR 방법을 호출하기 전에, 그림에 설명된대로 측정된 라이센스를 설정하십시오 계량된 라이선스 다큐멘터리.
특징 및 기능
스캔된 PDF에서 텍스트 추출
- Bitmap 기반 페이지를 읽고 OCR를 적용하여 인식 가능한 텍스트를 추출합니다.
- 단일 페이지 및 멀티 페이지 PDF 입력을 지원합니다.
- 그들의 위치와 함께 텍스트 조각, 글꼴 속성 및 신뢰 점수를 표시합니다.
OCR 정확성 및 레이아웃 유지
- 고급 OCR 엔진을 공급하여 낮은 품질의 스캔에 대한 인식 정확도를 최대화합니다.
- 문서 흐름을 유지합니다 : 단락, 열 및 라인 붕괴는 출처 배열과 일치합니다.
- 자세한 레이아웃 메타 데이터를 제공하여 개발자가 콘텐츠를 재구성하거나 다시 흐르게 할 수 있습니다.
테이블 인식 및 추출
- 스캔 된 페이지 내에서 테이블 구조를 자동으로 감지합니다.
- 테이블 콘텐츠는 구조화 된 라인과 경계 상자 좌표를 가진 세포로 나옵니다.
- 다운로드 스트림을 CSV, Excel 또는 사용자 지정 스케줄로 내보낼 수 있습니다.
검색 가능한 문서 변환
- 인식 된 텍스트를 보이지 않는 레이어로 PDF로 다시 삽입하여 모양을 바꾸지 않고 검색할 수 있습니다.
- 시각적 충성도를 유지하기 위해 원래 스캔 된 이미지를 유지합니다.
배경 이미지 보존
- Keeps는 배경에 무결한 이미지를 스캔합니다.
- 인식 된 텍스트의 위치는 무조건 읽기 및 인쇄를위한 상단 위에 있습니다.
사용자 지정 인식 매개 변수
- 단일/많은 열 레이아웃을 위한 분할 모드를 조정합니다.
- 도메인 특정 인식을 위해 캐릭터 흰색/블랙리스트를 설정합니다.
- 컨트롤 해상도, DPI 및 사전 처리 필터 (분해, 소음 제거, 경계).
다국어 및 스크립트 지원
- 라틴어, 시릴리, 그리스, 중국, 힌두교 등을 인식합니다.
- 언어 패키지의 역동적 인 충전을 허용합니다.
- APIs는 페이지별로 기본 및 초기 인식 언어를 지정할 수 있습니다.
성과 및 자원 관리
- 여러 페이지 PDF 처리를 지원합니다.
- Async APIs는 배치 작업 부하에 대한 병렬 처리를 가능하게 합니다.
- 테이프 사용 및 버퍼 크기에 대한 튜닝 옵션을 제공합니다.
예: 스캔된 PDF에서 텍스트 추출
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
팁과 최고의 관행
- 더 나은 정확성을 위해 사전 처리 PDF (Deskw, Despeckle, threshold.
- 레이아웃 분석을 사용하여 추출 전에 텍스트와 테이블을 감지합니다.
- 중요한 내용을 확인하기 위해 신뢰의 한계를 적용하십시오.
- 자원 압박을 방지하기 위해 배치 작업에서 경쟁 OCR 엔진을 제한합니다.
- Cache 언어 패키지 및 여러 페이지를 통해 OCR 엔진 사례를 다시 사용합니다.
OCR 정확성, 테이블 탐지 및 검색 가능한 PDF 생성을 결합함으로써 Aspose.OCR Scanned PDF to Text for .NET 은 스캔된 PDF에서 텍스트를 디지털화하고 추출하는 완전한 솔루션을 제공하며 원래 배열을 유지합니다.