Aspose.PDF Extractor de Texto para .NET

Aspose.PDF Text Extractor para .NET es un plugin centrado que permite a los desarrolladores extraer texto puro, crudo o plano de PDF El documento extrae el formato y los elementos gráficos, proporcionando contenido textal limpio que puede ser indexado, analizado o transformado dentro de las aplicaciones .NET.

Comenzando

Instalación y configuración

Instalar Aspose.PDF a través de NuGet o descargar asambleas directamente.
Configure la licencia medida antes de la extracción (ver Licenciamiento Medido ).).

Características y funciones

Extracción de texto crudo

Extrae el flujo de caracteres inalterado de cada página.
Conserva el espacio blanco, las brechas de líneas y el texto oculto.
Utilidad para indicar o bulk text dumps.

Extracción del texto

Normalizan el espacio blanco y las brechas de línea para la lectura.
El texto adyacente funciona de manera inteligente.
Ignora las fuentes, gráficos y posicionamiento.

Página y extracción basada en rango

Extracto de texto de documentos enteros o rango de página específica.
Reduce el uso de la memoria limitando el alcance.

Extracción regional

Especifique las regiones rectangulares (x, y, ancho, altura).
Extracto de texto de cabezas, pies o columnas.
Ideal para el diseño estructurado.

Filtración y limpieza de texto

Elimina las secuencias de control, los caracteres no impresos y el espacio blanco extra.
Es opcional excluir el texto de las anotaciones, campos o capas ocultas.

Apoyo en PDF

Abre los PDF protegidos por contraseña mediante el suministro de credenciales.
Las APIs de extracción se descifran automáticamente durante el procesamiento.

Unicode y codificación

Extracción en UTF-8 o codificación especificada.
Apoya escritos complejos, lenguas de derecha a izquierda y glifos de Unicode.

El rendimiento y la competencia

La extracción basada en el flujo minimiza la huella de memoria.
Las APIs seguras de la red permiten el procesamiento paralelo de varios PDFs.

Ejemplo de código: Extracción de texto de PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Consejos y mejores prácticas

Seleccione el modo de extracción basado en las necesidades: crudo para la indicación, plano para lectura.
Limitar la extracción a ramas o regiones para mejorar el rendimiento.
Aplique filtros temprano para simplificar el post-procesamiento.
Cache los ejemplos descifrados al reutilizar PDFs seguros.
Tune thread cuenta y las dimensiones de buffer para los flujos de trabajo de gran escala.
Configure la licencia en startup para evitar las advertencias de evaluación.

Preguntas frecuentes

**Qué modos de extracción se apoyan?**Tres: extracción cruda, plana y regional.

**Puedo extraer texto de los PDF protegidos por contraseña?**Sí, proporcionando la contraseña correcta, el texto se puede extraer de forma segura.

**Suporta los escritos de derecha a izquierda y complejos?**Sí, los escritos Unicode y RTL (por ejemplo, árabe, hebreo) están totalmente apoyados.

**Cómo se diferencia este plugin de la biblioteca completa de Aspose.PDF?**Este plugin es ligero y optimizado sólo para la extracción de texto, mientras que Aspose.PDF proporciona una API completa de manipulación de PDF.

**Es la extracción thread-safe?**Sí, las operaciones son seguras en el nivel del documento para el procesamiento paralelo.