Aspose.PDF Extractor de text per a .NET

Aspose.PDF Text Extractor per a .NET és un plugin centrat que permet als desenvolupadors extreure text pur, cru o pla de PDF Es retira el format i els elements gràfics, proporcionant contingut textual net que es pot indexar, analitzar o transformar dins d’aplicacions .NET.

Per començar

Instal·lació i configuració

Install Aspose.PDF a través de NuGet o descarregar les assemblees directament.
Configuració de la llicència mesurada abans de l’extracció (vegeu Llicència Metrada ).

Característiques i funcionalitats

Extracció de text brut

Extrata el flux de caràcters inalterat de cada pàgina.
Conserva l’espai blanc, les pauses de línia i el text ocult.
Utilitzat per a la indexació o bulk text dumps.

Extracció de text pla

Normalitza l’espai blanc i les pauses de línia per a la lectura.
Unir-se al text adjacent funciona de manera intel·ligent.
Ignora fonts, gràfics i posicionament.

Pàgina i extracció basada en la gamma

Extreure text de tot el document o rànquers de pàgina específics.
Redueix l’ús de la memòria mitjançant la limitació d’àmbit.

Extracció regional

Especifica les regions rectangulars (x, y, amplada, alçada).
Extraure text de capçaleres, peus o columnes.
Ideal per a dissenys estructurats.

Filtració i neteja de text

Elimina les seqüències de control, els caràcters no impresos i l’espai blanc extra.
Opcionalment exclou el text de les anotacions, els camps o les cames ocultes.

Suport en PDF

Obre PDFs protegits amb contrasenya proporcionant credencials.
Les APIs d’extracció es descripturen automàticament durant el processament.

Unicode i codificació

Exportació en UTF-8 o codificadors especificats.
Suporta escripts complexos, llenguatges de dreta a esquerra i glyfs Unicode.

El rendiment i la competència

L’extracció basada en el flux minimitza les empremtes de la memòria.
Les API segures permeten el processament paral·lel de múltiples PDFs.

Exemple de codi: Extracció de text del PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Consells i millors pràctiques

Seleccioneu el mode d’extracció en funció de les necessitats: cru per a la indicació, pla per la lectura.
Limitar l’extracció a rangs o regions per millorar el rendiment.
Aplica els filtres aviat per simplificar el post-processament.
Cache instàncies descrites quan reutilitza PDFs segurs.
Tons de fil compta i les dimensions de buffer per a fluxos de treball a gran escala.
Configureu la llicència a la startup per evitar advertiments d’avaluació.

Preguntes freqüents

**Quins modes d’extracció es donen suport?**Tres: extracció crua, plana i regional.

**Puc extreure text de PDFs protegits amb contrasenya?**Sí, proporcionant la contrasenya correcta, el text es pot extreure de forma segura.

**Suporta escripts de dreta a esquerra i complexos?**Sí, els escripts Unicode i RTL (per exemple, àrab, hebreu) estan completament recolzats.

**Com és aquest plugin diferent de la biblioteca completa Aspose.PDF?**Aquest plugin és lleuger i optimitzat només per a l’extracció de text, mentre que Aspose.PDF proporciona una API de manipulació PDF completa.

**És la extracció thread-safe?**Sí, les operacions són segures al nivell del document per al processament paral·lel.