Aspose.OCR 스캔된 PDF를 .NET용 텍스트로 변환

Aspose.OCR 스캔 PDF에 대하여 to Text for .NET에서는 개발자가 스캔된 PDF 파일에서 텍스트를 추출하거나 완전히 검색 가능한 문서로 변환할 수 있습니다.이 문서는 모든 레이아웃과 스타일을 읽고, 정확하게 문자와 테이블의 구조를 정의하고, 완전한 콘텐츠 보존을 위해 배경에 원본 이미지를 저장합니다.

설치 및 설정

시작하려면 NuGet를 통해 .NET 프로젝트에 Aspose.OCR 패키지를 설치하거나 현지적으로 다운로드 된 파일에서 설치하십시오 설치 가이드.어떤 OCR 방법을 호출하기 전에, 그림에 설명된대로 측정된 라이센스를 설정하십시오 계량된 라이선스 다큐멘터리.

특징 및 기능

스캔된 PDF에서 텍스트 추출

Bitmap 기반 페이지를 읽고 OCR를 적용하여 인식 가능한 텍스트를 추출합니다.
단일 페이지 및 멀티 페이지 PDF 입력을 지원합니다.
그들의 위치와 함께 텍스트 조각, 글꼴 속성 및 신뢰 점수를 표시합니다.

OCR 정확성 및 레이아웃 유지

고급 OCR 엔진을 공급하여 낮은 품질의 스캔에 대한 인식 정확도를 최대화합니다.
문서 흐름을 유지합니다 : 단락, 열 및 라인 붕괴는 출처 배열과 일치합니다.
자세한 레이아웃 메타 데이터를 제공하여 개발자가 콘텐츠를 재구성하거나 다시 흐르게 할 수 있습니다.

테이블 인식 및 추출

스캔 된 페이지 내에서 테이블 구조를 자동으로 감지합니다.
테이블 콘텐츠는 구조화 된 라인과 경계 상자 좌표를 가진 세포로 나옵니다.
다운로드 스트림을 CSV, Excel 또는 사용자 지정 스케줄로 내보낼 수 있습니다.

검색 가능한 문서 변환

인식 된 텍스트를 보이지 않는 레이어로 PDF로 다시 삽입하여 모양을 바꾸지 않고 검색할 수 있습니다.
시각적 충성도를 유지하기 위해 원래 스캔 된 이미지를 유지합니다.

배경 이미지 보존

Keeps는 배경에 무결한 이미지를 스캔합니다.
인식 된 텍스트의 위치는 무조건 읽기 및 인쇄를위한 상단 위에 있습니다.

사용자 지정 인식 매개 변수

단일/많은 열 레이아웃을 위한 분할 모드를 조정합니다.
도메인 특정 인식을 위해 캐릭터 흰색/블랙리스트를 설정합니다.
컨트롤 해상도, DPI 및 사전 처리 필터 (분해, 소음 제거, 경계).

다국어 및 스크립트 지원

라틴어, 시릴리, 그리스, 중국, 힌두교 등을 인식합니다.
언어 패키지의 역동적 인 충전을 허용합니다.
APIs는 페이지별로 기본 및 초기 인식 언어를 지정할 수 있습니다.

성과 및 자원 관리

여러 페이지 PDF 처리를 지원합니다.
Async APIs는 배치 작업 부하에 대한 병렬 처리를 가능하게 합니다.
테이프 사용 및 버퍼 크기에 대한 튜닝 옵션을 제공합니다.

예: 스캔된 PDF에서 텍스트 추출

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

팁과 최고의 관행

더 나은 정확성을 위해 사전 처리 PDF (Deskw, Despeckle, threshold.
레이아웃 분석을 사용하여 추출 전에 텍스트와 테이블을 감지합니다.
중요한 내용을 확인하기 위해 신뢰의 한계를 적용하십시오.
자원 압박을 방지하기 위해 배치 작업에서 경쟁 OCR 엔진을 제한합니다.
Cache 언어 패키지 및 여러 페이지를 통해 OCR 엔진 사례를 다시 사용합니다.

OCR 정확성, 테이블 탐지 및 검색 가능한 PDF 생성을 결합함으로써 Aspose.OCR Scanned PDF to Text for .NET 은 스캔된 PDF에서 텍스트를 디지털화하고 추출하는 완전한 솔루션을 제공하며 원래 배열을 유지합니다.