Aspose.PDF .NET용 텍스트 추출기

Aspose.PDF Text Extractor for .NET은 개발자가 PDF 문서에서 순수한, 원료 또는 평평한 텍스트를 추출 할 수있는 초점을 맞춘 플러그인입니다.그것은 형식 및 그래픽 요소를 제거하고, 인덱스, 분석, 또는 변환 될 수 있습니다.NET 응용 프로그램 내에서 깨끗한 문자 콘텐츠를 제공합니다.

시작하기

설치 및 설정

  • 설치 Aspose.PDF NuGet를 통해 또는 직접 모임을 다운로드.
  • 추출 전에 측정 된 라이센스를 설정 (보기) 계량된 라이선스 ).

특징 및 기능

원료 텍스트 추출

  • 각 페이지에서 변함없는 캐릭터 스트림을 추출합니다.
  • 화이트 공간, 라인 붕괴 및 숨겨진 텍스트를 보존합니다.
  • 인덱스 또는 대량 텍스트 덤프에 유용합니다.

평평한 텍스트 추출

  • 흰색 공간과 읽을 수있는 라인 휴식을 정상화합니다.
  • 연결된 텍스트는 지능적으로 실행됩니다.
  • 글꼴, 그래픽 및 위치를 무시합니다.

페이지 및 범위 기반 추출

  • 전체 문서 또는 특정 페이지 라인에서 텍스트를 추출합니다.
  • 범위를 제한함으로써 메모리 사용량을 줄입니다.

지역 기반 추출

  • 정직 지역 (x, y, 폭, 높이)을 지정합니다.
  • 헤드, 발 또는 열에서 텍스트를 추출합니다.
  • 구조화된 레이아웃에 적합합니다.

텍스트 필터링 및 청소

  • 제어 순서, 인쇄 할 수없는 캐릭터 및 추가 화이트 스페이스를 제거합니다.
  • 텍스트를 노트, 필드 또는 숨겨진 레이어에서 선택적으로 제외합니다.

암호화된 PDF 지원

  • 암호로 보호된 PDF를 열어 인증서를 제공합니다.
  • 추출 APIs는 처리 중에 자동으로 해독됩니다.

Unicode 및 Encoding

  • UTF-8 또는 특정 코딩의 출력.
  • 복잡한 스크립트, 오른쪽 왼쪽 언어 및 Unicode 글리프를 지원합니다.

성과와 경쟁

  • 스트림 기반 추출은 메모리 흔적을 최소화합니다.
  • Thread-Secure APIs는 여러 PDF를 동시에 처리할 수 있습니다.

코드 예: PDF에서 텍스트 추출

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

팁과 최고의 관행

  • 필요에 따라 추출 모드를 선택하십시오 : 인덱스를위한 원료, 읽을 수있는 평면.
  • 성능을 향상시키기 위해 범위 또는 지역으로 추출을 제한합니다.
  • 일찍 필터를 적용하여 포스트 프로세스를 단순화합니다.
  • 보안된 PDF를 다시 사용할 때 암호화된 사례를 숨기십시오.
  • Tune 테이프는 대규모 작업 흐름에 대 한 계산 및 버퍼 크기.
  • 평가 경고를 피하기 위해 스타트업에서 라이센스를 설정합니다.

자주 묻는 질문들

**어떤 추출 모드가 지원되는가?**세 가지 : 원료, 평면 및 지역 기반 추출.

**암호로 보호된 PDF에서 텍스트를 추출할 수 있습니까?**예, 올바른 암호를 제공함으로써 텍스트가 안전하게 추출될 수 있습니다.

**오른쪽에서 왼쪽으로 복잡한 스크립트를 지원합니까?**예, Unicode 및 RTL 스크립트 (예를 들어, 아랍어, 히브리어)는 완전히 지원됩니다.

**이 플러그인은 전체 Aspose.PDF 라이브러리와 어떻게 다릅니까?**이 플러그인은 가볍고 텍스트 추출을 위해만 최적화되었으며 Aspose.PDF은 완전한 PDF 조작 API를 제공합니다.

**추출은 테이프 안전합니까?**예, 작업은 동시에 처리하기 위해 문서 수준에서 열 안전합니다.

 한국어