Extrator de Texto Aspose.PDF para .NET
Aspose.PDF Text Extractor for .NET é um plug-in focado que permite que os desenvolvedores extraam texto puro, cru ou plano de documentos PDF. Elimina formatação e elementos gráficos, fornecendo conteúdo textual limpo que pode ser indexado, analisado ou transformado dentro de aplicações .Net.
Começando
Instalação e Setup
- Instalação
Aspose.PDF
via NuGet ou download assembleias diretamente. - Configurar a licença medida antes da extração (ver Licenciamento Ponderado ).
Características e Funções
Extracção de texto
- Extrata o fluxo de caracteres inalterado de cada página.
- Preserva espaço branco, linhas quebras e texto escondido.
- Utilidade para indicar ou bulk text dumps.
Extracção de texto
- Normalize o espaço branco e as pausas de linha para a leitura.
- O texto adjacente funciona de forma inteligente.
- Ignore fontes, gráficos e posicionamento.
Página e Range-Based Extraction
- Extrair texto de documentos inteiros ou ramos de página específicas.
- Reduz o uso da memória limitando o alcance.
Extracção com base na região
- especificar regiões rectangulares (x, y, largura, altura).
- Extrair texto de cabeças, pés ou colunas.
- Ideal para layouts estruturados.
Filtração e limpeza de texto
- Remova sequências de controle, caracteres não impressíveis e espaço branco extra.
- É opcional excluir texto de anotações, campos ou camadas escondidas.
Apoio em PDF criptografado
- Abra PDFs protegidos por senha fornecendo credenciais.
- APIs de extração são descriptografados automaticamente durante o processamento.
Unicode e codificação
- Output em UTF-8 ou codificação especificada.
- Suporta scripts complexos, idiomas de direita para esquerda e glifos Unicode.
Desempenho e concorrência
- A extração baseada no fluxo minimiza a pegada da memória.
- As APIs seguras permitem o processamento paralelo de vários PDFs.
Exemplo de código: extrair texto do PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Dicas e Melhores Práticas
- Escolha o modo de extração com base nas necessidades: cru para indicação, plano para leitura.
- Limitar a extracção a ramos ou regiões para melhorar o desempenho.
- Aplique filtros cedo para simplificar o post-processamento.
- Cache instâncias descriptografadas ao reutilizar PDFs seguros.
- Tune thread conta e tamanhos de buffer para fluxos de trabalho em grande escala.
- Configure a licença no startup para evitar avisos de avaliação.
Perguntas frequentes
**Que modos de extracção são suportados?**Três: extracção crua, plana e baseada na região.
**Posso extrair texto de PDFs protegidos por senha?**Sim, fornecendo a senha correta, o texto pode ser extraído com segurança.
**Ele suporta escritos de direita para esquerda e complexos?**Sim, os scripts Unicode e RTL (por exemplo, árabe, hebraico) são totalmente suportados.
**Como este plugin é diferente da biblioteca completa Aspose.PDF?**Este plugin é leve e otimizado apenas para extração de texto, enquanto Aspose.PDF fornece uma API de manipulação PDF completa.
- É a extracção thread-safe?Sim, as operações são thread-safe no nível do documento para processamento paralelo.