Convertir tabla Aspose.OCR a texto para .NET
Aspose.OCR Table to Text for .NET es un poderoso plugin que permite a los desarrolladores extraer texto de las tablas escaneadas o fotografiadas con alta precisión. Leverando algoritmos avanzados de aprendizaje de máquina y redes neurales, detecta estructuras de tabla, atrae texto a nivel celular, y organiza todo en las estrutas de datos buscables, editables o tabulares.
Instalación y configuración
Para comenzar, instale el paquete Aspose.OCR Table to Text a través de NuGet o descargue el conjunto de los servidores de Asposa Instalación Guía para pasos detallados.Permite plena funcionalidad mediante la configuración de la licencia medida tal y como se describe en el Licenciamiento Medido la documentación.
Características y funciones
Detección de mesa y reconocimiento estructural
- Detecta automáticamente los límites de la tabla en las imágenes escaneadas o fotografiadas, incluso si las células se deslizan, rotan o se iluminan de forma desigual.
- Apoya diseños multi-rojo y multi columnas, tablas nestadas y diferentes tamaños de células.
- Proporciona una representación jerárquica de líneas y células para el post-procesamiento simplificado.
Extracción de texto celular
- Reconoce el texto dentro de cada célula utilizando algoritmos OCR avanzados, preservando brechas de línea, capitalizacin y formatación numérica.
- Maneja varios idiomas en una sola tabla con prioridades lingüísticas configurables.
- Correcta distorciones como escudo, bajo contraste o ruido de imagen para aumentar la precisión.
Reconstrucción y exportación de mesa
- Reconstruye las tablas detectadas en estructuras de datos .NET (por ejemplo, DataTable) o las exporta en formatos CSV/TSV.
- Generar archivos de hoja de entrada editables (XLSX) que se pueden abrir en Excel u otras herramientas.
- Mantiene la formatación de células básicas (alignamiento, fronteras) y las coordenadas de exportación para flujos de trabajo avanzados.
Resultados buscables y editables
- Produce las capas de texto buscables en PDF exportaciones, haciendo que el contenido de la tabla sea indexable.
- Integra sin sentido con Aspose.Cells para operaciones avanzadas como fórmulas y gráficos.
- Permite la incorporación de contenidos extraídos en bases de datos o tubos de procesamiento de baja corriente.
Desempeño y escalabilidad
- Optimizado para el procesamiento de batch de grandes conjuntos de datos con configuración y gestión de la memoria.
- Streams datos de imagen directamente al motor OCR, minimizando el disco I/O.
- Proporciona llamadas de progreso y tokens de cancelación para operaciones de largo plazo.
Adaptación avanzada
- Región de interés (ROI) soporte para limitar la detección a áreas específicas para un procesamiento más rápido.
- Los límites de confianza configurables para filtrar los resultados de baja confianza.
- Hooks para pre- y post-procesamiento (filtros personalizados, algoritmos de descuento, o validadores).
Ejemplo: Extracto de texto de tablas escaneadas o fotografiadas
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Casos de uso comunes
- Extracción de datos estructurados de los informes financieros.
- Convertir formularios y aplicaciones escaneadas en placas.
- Automatizar tareas de entrada de datos transformando imágenes de tabla en formatos editables.
Consejos y mejores prácticas
- Utilice imágenes con al menos 300 DPI y buen contraste para obtener los mejores resultados.
- Pre-crop o deskew imágenes para aislar las regiones de la mesa.
- Sólo cargue los paquetes de lenguaje necesarios para reducir el uso de la memoria.
- Tiene los límites de confianza para equilibrar la precisión y el recuerdo.
- Validar las tablas reconstruidas contra los esquemas esperados antes de importarse a las bases de datos.
Al seguir estas directrices y aprovechar sus capacidades de reconocimiento de tablas, Aspose.OCR Table to Text for .NET proporciona a los desarrolladores una solución fiable para convertir las mesas escaneadas en texto estructurado, editable y buscable.