Convertir PDF escaneado a texto con Aspose.OCR para .NET
Página web.OCR Scanned PDF Text for .NET permite a los desarrolladores extraer texto de archivos PDF escaneados o convertirlos en documentos totalmente buscables. lea cualquier diseño y estilo, define con precisión la estructura del texto y las tablas, y conserva las imágenes originales en el fondo para la conservación completa del contenido.
Instalación y configuración
Para comenzar, instale el paquete Aspose.OCR en su proyecto .NET a través de NuGet o desde un archivo descargado localmente Instalación El guía.Antes de llamar cualquier método OCR, configure la licencia medida como se describe en el Licenciamiento Medido la documentación.
Características y funciones
Extracción de texto de PDFs escaneados
- Lea páginas basadas en bitmap y aplica OCR para extraer texto reconocible.
- Apoya entradas PDF de una y varias páginas.
- Exponer fragmentos de texto junto con su posición, atributos de fuentes y puntuaciones de confianza.
OCR exactitud y retención de layout
- Ofrece motores OCR avanzados para maximizar la precisión de reconocimiento en escaneos de baja calidad.
- Conserva el flujo de documento: los parágrafos, las columnas y las brechas de línea permanecen consistentes con el diseño de la fuente.
- Proporciona metadatos detallados de diseño para que los desarrolladores puedan reconstruir o fluir contenido.
Recogida de mesa y extracción
- Detecta automáticamente las estructuras de la tabla dentro de las páginas escaneadas.
- Salta el contenido de la tabla como líneas estructuradas y células con coordenadas de cuadro de límite.
- Permite la exportación de flujo abajo a CSV, Excel o esquemas personalizados.
Conversión de documentos buscables
- Embede el texto reconocido de nuevo en PDFs como una capa invisible, lo que los hace buscables sin cambiar la apariencia.
- Almacena imágenes escaneadas originales para preservar la fidelidad visual.
Conservación de la imagen de fondo
- Keeps escanean imágenes intactas en el fondo.
- Lugares de texto reconocido sobrepasa en la parte superior para la lectura y la impresión sin límites.
Parámetros de reconocimiento personalizables
- Ajuste los modos de segmentación para el diseño de columnas únicas/múltiples.
- Configure la lista blanca/negra de caracteres para el reconocimiento específico de dominio.
- Resolución de control, DPI y filtros de preprocesamiento (descojo, eliminación de ruido, límite).
Multi-Language y soporte de escritura
- Reconoce latín, cirillico, griego, chino, hindú, y más.
- Permite la carga dinámica de los paquetes de lenguaje.
- APIs le permiten especificar lenguas de reconocimiento primaria y secundaria por página.
Desempeño y gestión de recursos
- Soporta el procesamiento de PDF de múltiples páginas.
- Async APIs permite el procesamiento paralelo para las cargas de trabajo de batch.
- Ofrece opciones de tonificación para el uso de thread y los tamaños de buffer.
Ejemplo: Extracción de texto de PDFs escaneados
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Consejos y mejores prácticas
- PDFs de preproceso (descuido, descuidado, límite) para una mayor precisión.
- Utilice análisis de diseño para detectar texto y tablas antes de la extracción.
- Aplique límites de confianza para validar el contenido crítico.
- Limitar los motores concurrentes de OCR en los trabajos de grupo para evitar la contención de recursos.
- Cache paquetes de lenguaje y reutilizar los instantes de motor OCR a través de varias páginas.
Al combinar la precisión de OCR, la detección de tablas y la generación de PDF buscable, Aspose.OCR Scanned PDF to Text for .NET proporciona una solución completa para digitalizar y extraer texto de los PDF escaneados mientras se conservan los diseños originales.