Aspose.PDF Extractor de text per a .NET

Aspose.PDF Text Extractor per a .NET és un plug-in centrat que permet als desenvolupadors extreure text pur, cru o pla dels documents PDF. Es retira el format i els elements gràfics, proporcionant contingut textual net que es pot indexar, analitzar o transformar dins d’aplicacions .Net.

Per començar

Instal·lació i configuració

  • Install Aspose.PDF a través de NuGet o descarregar les assemblees directament.
  • Configuració de la llicència mesurada abans de l’extracció (vegeu Llicència Metrada ).

Característiques i funcionalitats

Extracció de text brut

  • Extrata el flux de caràcters inalterat de cada pàgina.
  • Conserva l’espai blanc, les pauses de línia i el text ocult.
  • Utilitzat per a la indexació o bulk text dumps.

Extracció de text pla

  • Normalitza l’espai blanc i les pauses de línia per a la lectura.
  • Unir-se al text adjacent funciona de manera intel·ligent.
  • Ignora fonts, gràfics i posicionament.

Pàgina i extracció basada en la gamma

  • Extreure text de tot el document o rànquers de pàgina específics.
  • Redueix l’ús de la memòria mitjançant la limitació d’àmbit.

Extracció regional

  • Especifica les regions rectangulars (x, y, amplada, alçada).
  • Extraure text de capçaleres, peus o columnes.
  • Ideal per a dissenys estructurats.

Filtració i neteja de text

  • Elimina les seqüències de control, els caràcters no impresos i l’espai blanc extra.
  • Opcionalment exclou el text de les anotacions, els camps o les cames ocultes.

Suport en PDF

  • Obre PDFs protegits amb contrasenya proporcionant credencials.
  • Les APIs d’extracció es descripturen automàticament durant el processament.

Unicode i codificació

  • Exportació en UTF-8 o codificadors especificats.
  • Suporta escripts complexos, llenguatges de dreta a esquerra i glyfs Unicode.

El rendiment i la competència

  • L’extracció basada en el flux minimitza les empremtes de la memòria.
  • Les API segures permeten el processament paral·lel de múltiples PDFs.

Exemple de codi: Extracció de text del PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Consells i millors pràctiques

  • Seleccioneu el mode d’extracció en funció de les necessitats: cru per a la indicació, pla per la lectura.
  • Limitar l’extracció a rangs o regions per millorar el rendiment.
  • Aplica els filtres aviat per simplificar el post-processament.
  • Cache instàncies descrites quan reutilitza PDFs segurs.
  • Tons de fil compta i les dimensions de buffer per a fluxos de treball a gran escala.
  • Configureu la llicència a la startup per evitar advertiments d’avaluació.

Preguntes freqüents

**Quins modes d’extracció es donen suport?**Tres: extracció crua, plana i regional.

**Puc extreure text de PDFs protegits amb contrasenya?**Sí, proporcionant la contrasenya correcta, el text es pot extreure de forma segura.

**Suporta escripts de dreta a esquerra i complexos?**Sí, els escripts Unicode i RTL (per exemple, àrab, hebreu) estan completament recolzats.

**Com és aquest plugin diferent de la biblioteca completa Aspose.PDF?**Aquest plugin és lleuger i optimitzat només per a l’extracció de text, mentre que Aspose.PDF proporciona una API de manipulació PDF completa.

**És la extracció thread-safe?**Sí, les operacions són segures al nivell del document per al processament paral·lel.

 Català