Aspose.PDF Extractor de text per a .NET
Aspose.PDF Text Extractor per a .NET és un plug-in centrat que permet als desenvolupadors extreure text pur, cru o pla dels documents PDF. Es retira el format i els elements gràfics, proporcionant contingut textual net que es pot indexar, analitzar o transformar dins d’aplicacions .Net.
Per començar
Instal·lació i configuració
- Install
Aspose.PDF
a través de NuGet o descarregar les assemblees directament. - Configuració de la llicència mesurada abans de l’extracció (vegeu Llicència Metrada ).
Característiques i funcionalitats
Extracció de text brut
- Extrata el flux de caràcters inalterat de cada pàgina.
- Conserva l’espai blanc, les pauses de línia i el text ocult.
- Utilitzat per a la indexació o bulk text dumps.
Extracció de text pla
- Normalitza l’espai blanc i les pauses de línia per a la lectura.
- Unir-se al text adjacent funciona de manera intel·ligent.
- Ignora fonts, gràfics i posicionament.
Pàgina i extracció basada en la gamma
- Extreure text de tot el document o rànquers de pàgina específics.
- Redueix l’ús de la memòria mitjançant la limitació d’àmbit.
Extracció regional
- Especifica les regions rectangulars (x, y, amplada, alçada).
- Extraure text de capçaleres, peus o columnes.
- Ideal per a dissenys estructurats.
Filtració i neteja de text
- Elimina les seqüències de control, els caràcters no impresos i l’espai blanc extra.
- Opcionalment exclou el text de les anotacions, els camps o les cames ocultes.
Suport en PDF
- Obre PDFs protegits amb contrasenya proporcionant credencials.
- Les APIs d’extracció es descripturen automàticament durant el processament.
Unicode i codificació
- Exportació en UTF-8 o codificadors especificats.
- Suporta escripts complexos, llenguatges de dreta a esquerra i glyfs Unicode.
El rendiment i la competència
- L’extracció basada en el flux minimitza les empremtes de la memòria.
- Les API segures permeten el processament paral·lel de múltiples PDFs.
Exemple de codi: Extracció de text del PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Consells i millors pràctiques
- Seleccioneu el mode d’extracció en funció de les necessitats: cru per a la indicació, pla per la lectura.
- Limitar l’extracció a rangs o regions per millorar el rendiment.
- Aplica els filtres aviat per simplificar el post-processament.
- Cache instàncies descrites quan reutilitza PDFs segurs.
- Tons de fil compta i les dimensions de buffer per a fluxos de treball a gran escala.
- Configureu la llicència a la startup per evitar advertiments d’avaluació.
Preguntes freqüents
**Quins modes d’extracció es donen suport?**Tres: extracció crua, plana i regional.
**Puc extreure text de PDFs protegits amb contrasenya?**Sí, proporcionant la contrasenya correcta, el text es pot extreure de forma segura.
**Suporta escripts de dreta a esquerra i complexos?**Sí, els escripts Unicode i RTL (per exemple, àrab, hebreu) estan completament recolzats.
**Com és aquest plugin diferent de la biblioteca completa Aspose.PDF?**Aquest plugin és lleuger i optimitzat només per a l’extracció de text, mentre que Aspose.PDF proporciona una API de manipulació PDF completa.
**És la extracció thread-safe?**Sí, les operacions són segures al nivell del document per al processament paral·lel.