Extrator de Texto Aspose.PDF para .NET

Aspose.PDF Text Extractor para .NET é um plugin focado que permite que os desenvolvedores extraam texto puro, cru ou plano de PDF Elimina o formato e os elementos gráficos, fornecendo conteúdo textual limpo que pode ser indexado, analisado ou transformado dentro de aplicações .NET.

Começando

Instalação e Setup

Instalação Aspose.PDF via NuGet ou download assembleias diretamente.
Configurar a licença medida antes da extração (ver Licenciamento Ponderado ).

Características e Funções

Extracção de texto

Extrata o fluxo de caracteres inalterado de cada página.
Preserva espaço branco, linhas quebras e texto escondido.
Utilidade para indicar ou bulk text dumps.

Extracção de texto

Normalize o espaço branco e as pausas de linha para a leitura.
O texto adjacente funciona de forma inteligente.
Ignore fontes, gráficos e posicionamento.

Página e Range-Based Extraction

Extrair texto de documentos inteiros ou ramos de página específicas.
Reduz o uso da memória limitando o alcance.

Extracção com base na região

especificar regiões rectangulares (x, y, largura, altura).
Extrair texto de cabeças, pés ou colunas.
Ideal para layouts estruturados.

Filtração e limpeza de texto

Remova sequências de controle, caracteres não impressíveis e espaço branco extra.
É opcional excluir texto de anotações, campos ou camadas escondidas.

Apoio em PDF criptografado

Abra PDFs protegidos por senha fornecendo credenciais.
APIs de extração são descriptografados automaticamente durante o processamento.

Unicode e codificação

Output em UTF-8 ou codificação especificada.
Suporta scripts complexos, idiomas de direita para esquerda e glifos Unicode.

Desempenho e concorrência

A extração baseada no fluxo minimiza a pegada da memória.
As APIs seguras permitem o processamento paralelo de vários PDFs.

Exemplo de código: extrair texto do PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Dicas e Melhores Práticas

Escolha o modo de extração com base nas necessidades: cru para indicação, plano para leitura.
Limitar a extracção a ramos ou regiões para melhorar o desempenho.
Aplique filtros cedo para simplificar o post-processamento.
Cache instâncias descriptografadas ao reutilizar PDFs seguros.
Tune thread conta e tamanhos de buffer para fluxos de trabalho em grande escala.
Configure a licença no startup para evitar avisos de avaliação.

Perguntas frequentes

**Que modos de extracção são suportados?**Três: extracção crua, plana e baseada na região.

**Posso extrair texto de PDFs protegidos por senha?**Sim, fornecendo a senha correta, o texto pode ser extraído com segurança.

**Ele suporta escritos de direita para esquerda e complexos?**Sim, os scripts Unicode e RTL (por exemplo, árabe, hebraico) são totalmente suportados.

**Como este plugin é diferente da biblioteca completa Aspose.PDF?**Este plugin é leve e otimizado apenas para extração de texto, enquanto Aspose.PDF fornece uma API de manipulação PDF completa.

**É a extracção thread-safe?**Sim, as operações são thread-safe no nível do documento para processamento paralelo.