Aspose.OCR Tabela para Texto para .NET
Aspose.OCR Table to Text for .NET é um poderoso plug-in que permite que os desenvolvedores extraam texto de tabelas escaneadas ou fotografadas com alta precisão.Liverando algoritmos avançados de aprendizagem de máquina e redes neurais, detecta estruturas de mesa, tira texto a nível celular e organiza tudo em estúdios de dados de tábuas ou editáveis.
Instalação e Setup
Para começar, instale o pacote Aspose.OCR Table to Text através da NuGet ou baixe a assembléia dos servidores da ASPOSE Instalação Guia para passos detalhados.Permite a funcionalidade completa configurando a licença medida conforme descrito na Licenciamento Ponderado A documentação.
Características e Funções
Detecção de mesa e reconhecimento estrutural
- Detecta automaticamente os limites da tabela em imagens escaneadas ou fotografadas, mesmo se as células forem esquecidas, rotações ou iluminações desiguais.
- Suporta layouts multi-rous e multi colunas, mesas nestadas e tamanhos de células diferentes.
- Fornece uma representação hierárquica de linhas e células para post-processamento simplificado.
Células de extração de texto
- Reconhece texto dentro de cada célula usando algoritmos OCR avançados, preservando brechas de linha, capitalizando e formatos numéricos.
- Trata-se de várias línguas em uma única mesa com prioridades linguísticas configuráveis.
- Correção de distorções como escudo, baixo contraste ou ruído da imagem para aumentar a precisão.
Reconstrução e Exportação
- Reconstrui as tabelas detectadas em estruturas de dados .NET (por exemplo, DataTable) ou as exporta em formatos CSV/TSV.
- Gerar arquivos editáveis (XLSX) que podem ser abertos em Excel ou outras ferramentas.
- Mantém a formatação celular básica (alignamento, fronteiras) e as coordenadas de exportação para fluxos de trabalho avançados.
Resultados procuráveis e editáveis
- Produzir camadas de texto procuráveis em PDF exportações, tornando o conteúdo da tabela indexável.
- Integra sem fio com Aspose.Cells para operações avançadas como fórmulas e gráficos.
- Permite a inserção de conteúdo extraído em bases de dados ou tubos de processamento de baixo fluxo.
Desempenho e escalabilidade
- Otimizado para o processamento de batch de grandes conjuntos de dados com configuração e gestão de memória.
- Streams dados de imagem diretamente para o motor OCR, minimizando o disco I/O.
- Fornece chamadas de progresso e tokens de cancelamento para operações de longo prazo.
Customização avançada
- Região de interesse (ROI) apoio para limitar a detecção a áreas específicas para processamento mais rápido.
- Limites de confiança configuráveis para filtrar resultados de baixa confiabilidade.
- Hooks para pré- e pós-processamento (filtros personalizados, algoritmos de descaso, ou validadores).
Exemplo: extrair texto de tabelas escaneadas ou fotografadas
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Casos de Uso Comuns
- extrair dados estruturados de relatórios financeiros.
- Converter formulários e aplicativos escaneados em folhetos.
- Automatizar tarefas de entrada de dados transformando imagens de tabela em formatos editáveis.
Dicas e Melhores Práticas
- Use imagens com pelo menos 300 DPI e um bom contraste para os melhores resultados.
- Pre-crop ou deskew imagens para isolar as regiões da mesa.
- Carregue apenas os pacotes de linguagem necessários para reduzir o uso da memória.
- Coloque os limites de confiança para equilibrar precisão e lembrança.
- Valida as tabelas reconstruídas contra os esquemas esperados antes de importar para os bancos de dados.
Ao seguir estas diretrizes e aproveitar as suas capacidades de reconhecimento de tabelas, a Aspose.OCR Table to Text for .NET fornece aos desenvolvedores uma solução confiável para converter as tábuas escaneadas em texto estruturado, editável e procurável.