Aspose.OCR Converter PDF Digitalizado para Texto para .NET

Avaliação.OCR Scanned PDF para Texto para .NET permite que os desenvolvedores extraam texto de arquivos PDF escaneados ou convertê-los em documentos totalmente procuráveis. lê qualquer layout e estilo, define com precisão a estrutura de texto e tabelas, e conserva imagens originais no fundo para a conservação completa do conteúdo.

Instalação e Setup

Para começar, instale o pacote Aspose.OCR no seu projeto .NET através de NuGet ou de um arquivo localmente baixado Instalação O guia.Antes de chamar qualquer método OCR, configure a licença medida conforme descrito no Licenciamento Ponderado A documentação.

Características e Funções

Extracção de texto de PDFs escaneados

  • Leia páginas baseadas em bitmap e aplica OCR para extrair texto reconhecível.
  • Suporta entradas PDF de uma página única e de várias páginas.
  • Exponha fragmentos de texto juntamente com sua posição, atributos de letra e pontuações de confiança.

OCR Precisão e Layout Retenção

  • Fornece motores OCR avançados para maximizar a precisão de reconhecimento em scans de baixa qualidade.
  • Preserva o fluxo de documento: parágrafos, colunas e pausas de linha permanecem consistentes com o layout fonte.
  • Fornece metadados de layout detalhados para que os desenvolvedores possam reconstruir ou reflutar conteúdo.

Reconhecimento de mesa e extração

  • Detecta automaticamente estruturas de tabela dentro de páginas escaneadas.
  • O conteúdo da tabela começa como linhas estruturadas e células com coordenadas de caixa de limite.
  • Permite a exportação de baixo fluxo para CSV, Excel ou esquemas personalizados.

Conversão de Documentos Buscáveis

  • Insere texto reconhecido de volta em PDFs como uma camada invisível, tornando-os procuráveis sem mudar a aparência.
  • Mantenha a imagem escaneada original para preservar a fidelidade visual.

Preservação da imagem de fundo

  • Keeps scanned imagens intact no fundo.
  • Lugares de texto reconhecido sobrepõe em cima para leitura e impressão sem fio.

Parâmetros de reconhecimento personalizáveis

  • Ajuste os modos de segmentação para layouts de uma ou mais colunas.
  • Configure a lista de caracteres/lista negra para reconhecimento específico de domínio.
  • Resolução de controle, DPI e filtros de pré-processamento (desqueio, remoção do ruído, limite).

Multi-Linguagem e Script Suporte

  • Reconhece latim, cirílico, grego, chinês, hindi e muito mais.
  • Permite o carregamento dinâmico de pacotes de idiomas.
  • APIs permitem que você especifique as línguas de reconhecimento primário e secundário por página.

Desempenho e Gestão de Recursos

  • Suporta o processamento de PDF de várias páginas.
  • Async APIs permitem processamento paralelo para cargas de trabalho de batch.
  • Oferece opções de tonificação para uso de thread e tamanhos de buffer.

Exemplo: extrair texto de PDFs escaneados

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Dicas e Melhores Práticas

  • PDFs pré-processados (desqueio, despejo, limite) para melhor precisão.
  • Use a análise de layout para detectar texto e tabelas antes da extração.
  • Aplique limites de confiança para validar conteúdo crítico.
  • Limite os motores OCR concorrentes em trabalhos de batch para evitar a contenção de recursos.
  • Cache pacotes de linguagem e reutilizar instâncias de motores OCR em várias páginas.

Ao combinar a precisão do OCR, a detecção da tabela e a geração de PDF procurável, Aspose.OCR Scanned PDF to Text for .NET fornece uma solução completa para digitalizar e extrair texto dos PDFs escaneados enquanto preserva layouts originais.

 Português