Convertir tabla Aspose.OCR a texto para .NET

Aspose.OCR Table to Text for .NET es un poderoso plugin que permite a los desarrolladores extraer texto de las tablas escaneadas o fotografiadas con alta precisión. Leverando algoritmos avanzados de aprendizaje de máquina y redes neurales, detecta estructuras de tabla, atrae texto a nivel celular, y organiza todo en las estrutas de datos buscables, editables o tabulares.

Instalación y configuración

Para comenzar, instale el paquete Aspose.OCR Table to Text a través de NuGet o descargue el conjunto de los servidores de Asposa Instalación Guía para pasos detallados.Permite plena funcionalidad mediante la configuración de la licencia medida tal y como se describe en el Licenciamiento Medido la documentación.

Características y funciones

Detección de mesa y reconocimiento estructural

  • Detecta automáticamente los límites de la tabla en las imágenes escaneadas o fotografiadas, incluso si las células se deslizan, rotan o se iluminan de forma desigual.
  • Apoya diseños multi-rojo y multi columnas, tablas nestadas y diferentes tamaños de células.
  • Proporciona una representación jerárquica de líneas y células para el post-procesamiento simplificado.

Extracción de texto celular

  • Reconoce el texto dentro de cada célula utilizando algoritmos OCR avanzados, preservando brechas de línea, capitalizacin y formatación numérica.
  • Maneja varios idiomas en una sola tabla con prioridades lingüísticas configurables.
  • Correcta distorciones como escudo, bajo contraste o ruido de imagen para aumentar la precisión.

Reconstrucción y exportación de mesa

  • Reconstruye las tablas detectadas en estructuras de datos .NET (por ejemplo, DataTable) o las exporta en formatos CSV/TSV.
  • Generar archivos de hoja de entrada editables (XLSX) que se pueden abrir en Excel u otras herramientas.
  • Mantiene la formatación de células básicas (alignamiento, fronteras) y las coordenadas de exportación para flujos de trabajo avanzados.

Resultados buscables y editables

  • Produce las capas de texto buscables en PDF exportaciones, haciendo que el contenido de la tabla sea indexable.
  • Integra sin sentido con Aspose.Cells para operaciones avanzadas como fórmulas y gráficos.
  • Permite la incorporación de contenidos extraídos en bases de datos o tubos de procesamiento de baja corriente.

Desempeño y escalabilidad

  • Optimizado para el procesamiento de batch de grandes conjuntos de datos con configuración y gestión de la memoria.
  • Streams datos de imagen directamente al motor OCR, minimizando el disco I/O.
  • Proporciona llamadas de progreso y tokens de cancelación para operaciones de largo plazo.

Adaptación avanzada

  • Región de interés (ROI) soporte para limitar la detección a áreas específicas para un procesamiento más rápido.
  • Los límites de confianza configurables para filtrar los resultados de baja confianza.
  • Hooks para pre- y post-procesamiento (filtros personalizados, algoritmos de descuento, o validadores).

Ejemplo: Extracto de texto de tablas escaneadas o fotografiadas

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");

// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;

// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Casos de uso comunes

  • Extracción de datos estructurados de los informes financieros.
  • Convertir formularios y aplicaciones escaneadas en placas.
  • Automatizar tareas de entrada de datos transformando imágenes de tabla en formatos editables.

Consejos y mejores prácticas

  • Utilice imágenes con al menos 300 DPI y buen contraste para obtener los mejores resultados.
  • Pre-crop o deskew imágenes para aislar las regiones de la mesa.
  • Sólo cargue los paquetes de lenguaje necesarios para reducir el uso de la memoria.
  • Tiene los límites de confianza para equilibrar la precisión y el recuerdo.
  • Validar las tablas reconstruidas contra los esquemas esperados antes de importarse a las bases de datos.

Al seguir estas directrices y aprovechar sus capacidades de reconocimiento de tablas, Aspose.OCR Table to Text for .NET proporciona a los desarrolladores una solución fiable para convertir las mesas escaneadas en texto estructurado, editable y buscable.

 Español