Aspose.PDF Extractor de Texto para .NET
Aspose.PDF Text Extractor para .NET es un plugin centrado que permite a los desarrolladores extraer texto puro, crudo o plano de documentos PDF. Se extrae el formato y los elementos gráficos, proporcionando contenido textal limpio que puede ser indexado, analizado o transformado dentro de las aplicaciones .Net.
Comenzando
Instalación y configuración
- Instalar
Aspose.PDF
a través de NuGet o descargar asambleas directamente. - Configure la licencia medida antes de la extracción (ver Licenciamiento Medido ).).
Características y funciones
Extracción de texto crudo
- Extrae el flujo de caracteres inalterado de cada página.
- Conserva el espacio blanco, las brechas de líneas y el texto oculto.
- Utilidad para indicar o bulk text dumps.
Extracción del texto
- Normalizan el espacio blanco y las brechas de línea para la lectura.
- El texto adyacente funciona de manera inteligente.
- Ignora las fuentes, gráficos y posicionamiento.
Página y extracción basada en rango
- Extracto de texto de documentos enteros o rango de página específica.
- Reduce el uso de la memoria limitando el alcance.
Extracción regional
- Especifique las regiones rectangulares (x, y, ancho, altura).
- Extracto de texto de cabezas, pies o columnas.
- Ideal para el diseño estructurado.
Filtración y limpieza de texto
- Elimina las secuencias de control, los caracteres no impresos y el espacio blanco extra.
- Es opcional excluir el texto de las anotaciones, campos o capas ocultas.
Apoyo en PDF
- Abre los PDF protegidos por contraseña mediante el suministro de credenciales.
- Las APIs de extracción se descifran automáticamente durante el procesamiento.
Unicode y codificación
- Extracción en UTF-8 o codificación especificada.
- Apoya escritos complejos, lenguas de derecha a izquierda y glifos de Unicode.
El rendimiento y la competencia
- La extracción basada en el flujo minimiza la huella de memoria.
- Las APIs seguras de la red permiten el procesamiento paralelo de varios PDFs.
Ejemplo de código: Extracción de texto de PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Consejos y mejores prácticas
- Seleccione el modo de extracción basado en las necesidades: crudo para la indicación, plano para lectura.
- Limitar la extracción a ramas o regiones para mejorar el rendimiento.
- Aplique filtros temprano para simplificar el post-procesamiento.
- Cache los ejemplos descifrados al reutilizar PDFs seguros.
- Tune thread cuenta y las dimensiones de buffer para los flujos de trabajo de gran escala.
- Configure la licencia en startup para evitar las advertencias de evaluación.
Preguntas frecuentes
**¿Qué modos de extracción se apoyan?**Tres: extracción cruda, plana y regional.
**¿Puedo extraer texto de los PDF protegidos por contraseña?**Sí, proporcionando la contraseña correcta, el texto se puede extraer de forma segura.
**¿Suporta los escritos de derecha a izquierda y complejos?**Sí, los escritos Unicode y RTL (por ejemplo, árabe, hebreo) están totalmente apoyados.
**¿Cómo se diferencia este plugin de la biblioteca completa de Aspose.PDF?**Este plugin es ligero y optimizado sólo para la extracción de texto, mientras que Aspose.PDF proporciona una API completa de manipulación de PDF.
¿Es la extracción thread-safe?Sí, las operaciones son seguras en el nivel del documento para el procesamiento paralelo.