Extrator de Texto Aspose.PDF para .NET

Aspose.PDF Text Extractor for .NET é um plug-in focado que permite que os desenvolvedores extraam texto puro, cru ou plano de documentos PDF. Elimina formatação e elementos gráficos, fornecendo conteúdo textual limpo que pode ser indexado, analisado ou transformado dentro de aplicações .Net.

Começando

Instalação e Setup

  • Instalação Aspose.PDF via NuGet ou download assembleias diretamente.
  • Configurar a licença medida antes da extração (ver Licenciamento Ponderado ).

Características e Funções

Extracção de texto

  • Extrata o fluxo de caracteres inalterado de cada página.
  • Preserva espaço branco, linhas quebras e texto escondido.
  • Utilidade para indicar ou bulk text dumps.

Extracção de texto

  • Normalize o espaço branco e as pausas de linha para a leitura.
  • O texto adjacente funciona de forma inteligente.
  • Ignore fontes, gráficos e posicionamento.

Página e Range-Based Extraction

  • Extrair texto de documentos inteiros ou ramos de página específicas.
  • Reduz o uso da memória limitando o alcance.

Extracção com base na região

  • especificar regiões rectangulares (x, y, largura, altura).
  • Extrair texto de cabeças, pés ou colunas.
  • Ideal para layouts estruturados.

Filtração e limpeza de texto

  • Remova sequências de controle, caracteres não impressíveis e espaço branco extra.
  • É opcional excluir texto de anotações, campos ou camadas escondidas.

Apoio em PDF criptografado

  • Abra PDFs protegidos por senha fornecendo credenciais.
  • APIs de extração são descriptografados automaticamente durante o processamento.

Unicode e codificação

  • Output em UTF-8 ou codificação especificada.
  • Suporta scripts complexos, idiomas de direita para esquerda e glifos Unicode.

Desempenho e concorrência

  • A extração baseada no fluxo minimiza a pegada da memória.
  • As APIs seguras permitem o processamento paralelo de vários PDFs.

Exemplo de código: extrair texto do PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Dicas e Melhores Práticas

  • Escolha o modo de extração com base nas necessidades: cru para indicação, plano para leitura.
  • Limitar a extracção a ramos ou regiões para melhorar o desempenho.
  • Aplique filtros cedo para simplificar o post-processamento.
  • Cache instâncias descriptografadas ao reutilizar PDFs seguros.
  • Tune thread conta e tamanhos de buffer para fluxos de trabalho em grande escala.
  • Configure a licença no startup para evitar avisos de avaliação.

Perguntas frequentes

**Que modos de extracção são suportados?**Três: extracção crua, plana e baseada na região.

**Posso extrair texto de PDFs protegidos por senha?**Sim, fornecendo a senha correta, o texto pode ser extraído com segurança.

**Ele suporta escritos de direita para esquerda e complexos?**Sim, os scripts Unicode e RTL (por exemplo, árabe, hebraico) são totalmente suportados.

**Como este plugin é diferente da biblioteca completa Aspose.PDF?**Este plugin é leve e otimizado apenas para extração de texto, enquanto Aspose.PDF fornece uma API de manipulação PDF completa.

  • É a extracção thread-safe?Sim, as operações são thread-safe no nível do documento para processamento paralelo.
 Português