Convertir PDF escaneado a texto con Aspose.OCR para .NET

Página web.OCR Scanned PDF Text for .NET permite a los desarrolladores extraer texto de archivos PDF escaneados o convertirlos en documentos totalmente buscables. lea cualquier diseño y estilo, define con precisión la estructura del texto y las tablas, y conserva las imágenes originales en el fondo para la conservación completa del contenido.

Instalación y configuración

Para comenzar, instale el paquete Aspose.OCR en su proyecto .NET a través de NuGet o desde un archivo descargado localmente Instalación El guía.Antes de llamar cualquier método OCR, configure la licencia medida como se describe en el Licenciamiento Medido la documentación.

Características y funciones

Extracción de texto de PDFs escaneados

Lea páginas basadas en bitmap y aplica OCR para extraer texto reconocible.
Apoya entradas PDF de una y varias páginas.
Exponer fragmentos de texto junto con su posición, atributos de fuentes y puntuaciones de confianza.

OCR exactitud y retención de layout

Ofrece motores OCR avanzados para maximizar la precisión de reconocimiento en escaneos de baja calidad.
Conserva el flujo de documento: los parágrafos, las columnas y las brechas de línea permanecen consistentes con el diseño de la fuente.
Proporciona metadatos detallados de diseño para que los desarrolladores puedan reconstruir o fluir contenido.

Recogida de mesa y extracción

Detecta automáticamente las estructuras de la tabla dentro de las páginas escaneadas.
Salta el contenido de la tabla como líneas estructuradas y células con coordenadas de cuadro de límite.
Permite la exportación de flujo abajo a CSV, Excel o esquemas personalizados.

Conversión de documentos buscables

Embede el texto reconocido de nuevo en PDFs como una capa invisible, lo que los hace buscables sin cambiar la apariencia.
Almacena imágenes escaneadas originales para preservar la fidelidad visual.

Conservación de la imagen de fondo

Keeps escanean imágenes intactas en el fondo.
Lugares de texto reconocido sobrepasa en la parte superior para la lectura y la impresión sin límites.

Parámetros de reconocimiento personalizables

Ajuste los modos de segmentación para el diseño de columnas únicas/múltiples.
Configure la lista blanca/negra de caracteres para el reconocimiento específico de dominio.
Resolución de control, DPI y filtros de preprocesamiento (descojo, eliminación de ruido, límite).

Multi-Language y soporte de escritura

Reconoce latín, cirillico, griego, chino, hindú, y más.
Permite la carga dinámica de los paquetes de lenguaje.
APIs le permiten especificar lenguas de reconocimiento primaria y secundaria por página.

Desempeño y gestión de recursos

Soporta el procesamiento de PDF de múltiples páginas.
Async APIs permite el procesamiento paralelo para las cargas de trabajo de batch.
Ofrece opciones de tonificación para el uso de thread y los tamaños de buffer.

Ejemplo: Extracción de texto de PDFs escaneados

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Consejos y mejores prácticas

PDFs de preproceso (descuido, descuidado, límite) para una mayor precisión.
Utilice análisis de diseño para detectar texto y tablas antes de la extracción.
Aplique límites de confianza para validar el contenido crítico.
Limitar los motores concurrentes de OCR en los trabajos de grupo para evitar la contención de recursos.
Cache paquetes de lenguaje y reutilizar los instantes de motor OCR a través de varias páginas.

Al combinar la precisión de OCR, la detección de tablas y la generación de PDF buscable, Aspose.OCR Scanned PDF to Text for .NET proporciona una solución completa para digitalizar y extraer texto de los PDF escaneados mientras se conservan los diseños originales.