Aspose.OCR Converter PDF Digitalizado para Texto para .NET
Avaliação.OCR Scanned PDF para Texto para .NET permite que os desenvolvedores extraam texto de arquivos PDF escaneados ou convertê-los em documentos totalmente procuráveis. lê qualquer layout e estilo, define com precisão a estrutura de texto e tabelas, e conserva imagens originais no fundo para a conservação completa do conteúdo.
Instalação e Setup
Para começar, instale o pacote Aspose.OCR no seu projeto .NET através de NuGet ou de um arquivo localmente baixado Instalação O guia.Antes de chamar qualquer método OCR, configure a licença medida conforme descrito no Licenciamento Ponderado A documentação.
Características e Funções
Extracção de texto de PDFs escaneados
- Leia páginas baseadas em bitmap e aplica OCR para extrair texto reconhecível.
- Suporta entradas PDF de uma página única e de várias páginas.
- Exponha fragmentos de texto juntamente com sua posição, atributos de letra e pontuações de confiança.
OCR Precisão e Layout Retenção
- Fornece motores OCR avançados para maximizar a precisão de reconhecimento em scans de baixa qualidade.
- Preserva o fluxo de documento: parágrafos, colunas e pausas de linha permanecem consistentes com o layout fonte.
- Fornece metadados de layout detalhados para que os desenvolvedores possam reconstruir ou reflutar conteúdo.
Reconhecimento de mesa e extração
- Detecta automaticamente estruturas de tabela dentro de páginas escaneadas.
- O conteúdo da tabela começa como linhas estruturadas e células com coordenadas de caixa de limite.
- Permite a exportação de baixo fluxo para CSV, Excel ou esquemas personalizados.
Conversão de Documentos Buscáveis
- Insere texto reconhecido de volta em PDFs como uma camada invisível, tornando-os procuráveis sem mudar a aparência.
- Mantenha a imagem escaneada original para preservar a fidelidade visual.
Preservação da imagem de fundo
- Keeps scanned imagens intact no fundo.
- Lugares de texto reconhecido sobrepõe em cima para leitura e impressão sem fio.
Parâmetros de reconhecimento personalizáveis
- Ajuste os modos de segmentação para layouts de uma ou mais colunas.
- Configure a lista de caracteres/lista negra para reconhecimento específico de domínio.
- Resolução de controle, DPI e filtros de pré-processamento (desqueio, remoção do ruído, limite).
Multi-Linguagem e Script Suporte
- Reconhece latim, cirílico, grego, chinês, hindi e muito mais.
- Permite o carregamento dinâmico de pacotes de idiomas.
- APIs permitem que você especifique as línguas de reconhecimento primário e secundário por página.
Desempenho e Gestão de Recursos
- Suporta o processamento de PDF de várias páginas.
- Async APIs permitem processamento paralelo para cargas de trabalho de batch.
- Oferece opções de tonificação para uso de thread e tamanhos de buffer.
Exemplo: extrair texto de PDFs escaneados
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Dicas e Melhores Práticas
- PDFs pré-processados (desqueio, despejo, limite) para melhor precisão.
- Use a análise de layout para detectar texto e tabelas antes da extração.
- Aplique limites de confiança para validar conteúdo crítico.
- Limite os motores OCR concorrentes em trabalhos de batch para evitar a contenção de recursos.
- Cache pacotes de linguagem e reutilizar instâncias de motores OCR em várias páginas.
Ao combinar a precisão do OCR, a detecção da tabela e a geração de PDF procurável, Aspose.OCR Scanned PDF to Text for .NET fornece uma solução completa para digitalizar e extrair texto dos PDFs escaneados enquanto preserva layouts originais.