Aspose.PDF Extractor de Texto para .NET

Aspose.PDF Text Extractor para .NET es un plugin centrado que permite a los desarrolladores extraer texto puro, crudo o plano de documentos PDF. Se extrae el formato y los elementos gráficos, proporcionando contenido textal limpio que puede ser indexado, analizado o transformado dentro de las aplicaciones .Net.

Comenzando

Instalación y configuración

  • Instalar Aspose.PDF a través de NuGet o descargar asambleas directamente.
  • Configure la licencia medida antes de la extracción (ver Licenciamiento Medido ).).

Características y funciones

Extracción de texto crudo

  • Extrae el flujo de caracteres inalterado de cada página.
  • Conserva el espacio blanco, las brechas de líneas y el texto oculto.
  • Utilidad para indicar o bulk text dumps.

Extracción del texto

  • Normalizan el espacio blanco y las brechas de línea para la lectura.
  • El texto adyacente funciona de manera inteligente.
  • Ignora las fuentes, gráficos y posicionamiento.

Página y extracción basada en rango

  • Extracto de texto de documentos enteros o rango de página específica.
  • Reduce el uso de la memoria limitando el alcance.

Extracción regional

  • Especifique las regiones rectangulares (x, y, ancho, altura).
  • Extracto de texto de cabezas, pies o columnas.
  • Ideal para el diseño estructurado.

Filtración y limpieza de texto

  • Elimina las secuencias de control, los caracteres no impresos y el espacio blanco extra.
  • Es opcional excluir el texto de las anotaciones, campos o capas ocultas.

Apoyo en PDF

  • Abre los PDF protegidos por contraseña mediante el suministro de credenciales.
  • Las APIs de extracción se descifran automáticamente durante el procesamiento.

Unicode y codificación

  • Extracción en UTF-8 o codificación especificada.
  • Apoya escritos complejos, lenguas de derecha a izquierda y glifos de Unicode.

El rendimiento y la competencia

  • La extracción basada en el flujo minimiza la huella de memoria.
  • Las APIs seguras de la red permiten el procesamiento paralelo de varios PDFs.

Ejemplo de código: Extracción de texto de PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Consejos y mejores prácticas

  • Seleccione el modo de extracción basado en las necesidades: crudo para la indicación, plano para lectura.
  • Limitar la extracción a ramas o regiones para mejorar el rendimiento.
  • Aplique filtros temprano para simplificar el post-procesamiento.
  • Cache los ejemplos descifrados al reutilizar PDFs seguros.
  • Tune thread cuenta y las dimensiones de buffer para los flujos de trabajo de gran escala.
  • Configure la licencia en startup para evitar las advertencias de evaluación.

Preguntas frecuentes

**¿Qué modos de extracción se apoyan?**Tres: extracción cruda, plana y regional.

**¿Puedo extraer texto de los PDF protegidos por contraseña?**Sí, proporcionando la contraseña correcta, el texto se puede extraer de forma segura.

**¿Suporta los escritos de derecha a izquierda y complejos?**Sí, los escritos Unicode y RTL (por ejemplo, árabe, hebreo) están totalmente apoyados.

**¿Cómo se diferencia este plugin de la biblioteca completa de Aspose.PDF?**Este plugin es ligero y optimizado sólo para la extracción de texto, mientras que Aspose.PDF proporciona una API completa de manipulación de PDF.

¿Es la extracción thread-safe?Sí, las operaciones son seguras en el nivel del documento para el procesamiento paralelo.

 Español