Convertir PDF escaneado a texto con Aspose.OCR para .NET

Página web.OCR Scanned PDF Text for .NET permite a los desarrolladores extraer texto de archivos PDF escaneados o convertirlos en documentos totalmente buscables. lea cualquier diseño y estilo, define con precisión la estructura del texto y las tablas, y conserva las imágenes originales en el fondo para la conservación completa del contenido.

Instalación y configuración

Para comenzar, instale el paquete Aspose.OCR en su proyecto .NET a través de NuGet o desde un archivo descargado localmente Instalación El guía.Antes de llamar cualquier método OCR, configure la licencia medida como se describe en el Licenciamiento Medido la documentación.

Características y funciones

Extracción de texto de PDFs escaneados

  • Lea páginas basadas en bitmap y aplica OCR para extraer texto reconocible.
  • Apoya entradas PDF de una y varias páginas.
  • Exponer fragmentos de texto junto con su posición, atributos de fuentes y puntuaciones de confianza.

OCR exactitud y retención de layout

  • Ofrece motores OCR avanzados para maximizar la precisión de reconocimiento en escaneos de baja calidad.
  • Conserva el flujo de documento: los parágrafos, las columnas y las brechas de línea permanecen consistentes con el diseño de la fuente.
  • Proporciona metadatos detallados de diseño para que los desarrolladores puedan reconstruir o fluir contenido.

Recogida de mesa y extracción

  • Detecta automáticamente las estructuras de la tabla dentro de las páginas escaneadas.
  • Salta el contenido de la tabla como líneas estructuradas y células con coordenadas de cuadro de límite.
  • Permite la exportación de flujo abajo a CSV, Excel o esquemas personalizados.

Conversión de documentos buscables

  • Embede el texto reconocido de nuevo en PDFs como una capa invisible, lo que los hace buscables sin cambiar la apariencia.
  • Almacena imágenes escaneadas originales para preservar la fidelidad visual.

Conservación de la imagen de fondo

  • Keeps escanean imágenes intactas en el fondo.
  • Lugares de texto reconocido sobrepasa en la parte superior para la lectura y la impresión sin límites.

Parámetros de reconocimiento personalizables

  • Ajuste los modos de segmentación para el diseño de columnas únicas/múltiples.
  • Configure la lista blanca/negra de caracteres para el reconocimiento específico de dominio.
  • Resolución de control, DPI y filtros de preprocesamiento (descojo, eliminación de ruido, límite).

Multi-Language y soporte de escritura

  • Reconoce latín, cirillico, griego, chino, hindú, y más.
  • Permite la carga dinámica de los paquetes de lenguaje.
  • APIs le permiten especificar lenguas de reconocimiento primaria y secundaria por página.

Desempeño y gestión de recursos

  • Soporta el procesamiento de PDF de múltiples páginas.
  • Async APIs permite el procesamiento paralelo para las cargas de trabajo de batch.
  • Ofrece opciones de tonificación para el uso de thread y los tamaños de buffer.

Ejemplo: Extracción de texto de PDFs escaneados

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Consejos y mejores prácticas

  • PDFs de preproceso (descuido, descuidado, límite) para una mayor precisión.
  • Utilice análisis de diseño para detectar texto y tablas antes de la extracción.
  • Aplique límites de confianza para validar el contenido crítico.
  • Limitar los motores concurrentes de OCR en los trabajos de grupo para evitar la contención de recursos.
  • Cache paquetes de lenguaje y reutilizar los instantes de motor OCR a través de varias páginas.

Al combinar la precisión de OCR, la detección de tablas y la generación de PDF buscable, Aspose.OCR Scanned PDF to Text for .NET proporciona una solución completa para digitalizar y extraer texto de los PDF escaneados mientras se conservan los diseños originales.

 Español