Aspose.PDF Text Extractor pre .NET

Aspose.PDF Text Extractor pre .NET je zameraný plugin, ktorý umožňuje vývojárom extrahovať čistý, surový alebo rovný text z PDF Odstráni formátovanie a grafické prvky, poskytuje čistý textový obsah, ktorý môže byť indexovaný, analyzovaný alebo transformovaný v rámci aplikácií .NET.

Začať sa

Inštalácia a nastavenie

inštalácia Aspose.PDF cez NuGet alebo stiahnuť zhromaždenia priamo.
Nastavenie meranej licencie pred extrakciou (pozri Metrické licencie ).

Funkcie a funkcie

extrakcia surového textu

Odstráni nezmenený tok charakteru z každej stránky.
Zachováva biely priestor, prerušenie riadkov a skryté texty.
Užitočné pre indexovanie alebo bulk text dumps.

Plynové textové extrakcie

Normalizuje biely priestor a líniové prerušenia pre čitateľnosť.
Pripojte sa k príslušnému textu, ktorý beží inteligentne.
Ignoruje písma, grafiku a umiestnenie.

Stránka a rozsahová extrakcia

Odstráňte text z celého dokumentu alebo špecifických strán.
Znižuje používanie pamäte obmedzením rozsahu.

Regionálna extrakcia

Určte rektangulárne oblasti (x, y, šírka, výška).
Odstráňte text z hlavy, nohy alebo stĺpcov.
Ideálne pre štruktúrované rozloženie.

Textové filtrovanie a čistenie

Odstráňte ovládacie sekvencie, netlačiteľné znaky a extra biely priestor.
Voliteľne vylúčiť text z poznámok, polí alebo skryté vrstvy.

Šifrovaná podpora PDF

Otvorte heslo chránené súbory PDF poskytnutím autentifikácií.
Extrakčné API sa automaticky dešifrujú počas spracovania.

Unicode a kódovanie

Výstup v UTF-8 alebo špecifikovaných kódov.
Podporuje komplexné skripty, pravicové jazyky a Unicode glyphs.

Výkon a konkurencia

Streamová extrakcia minimalizuje stopy pamäte.
Bezpečné API umožňujú paralelné spracovanie viacerých PDF.

Príklad kódu: Odstránenie textu z PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tipy a najlepšie postupy

Vyberte režim extrakcie na základe potrieb: surový pre indexovanie, rovný pre čitateľnosť.
Obmedziť extrakciu na reťazce alebo regióny na zlepšenie výkonu.
Aplikujte filtre skôr, aby sa zjednodušilo post-procesovanie.
Cache dešifrované príklady pri opätovnom používaní zabezpečených PDF.
Tune thread počítajú a buffer veľkosti pre veľké pracovné toky.
Nastavenie licencie na startup, aby sa zabránilo hodnotenie upozornenia.

Často kladené otázky

**Aké spôsoby extrakcie sú podporované?**Tri: surová, rovná a regionálna extrakcia.

**Môžem extrahovať text z chránených heslom PDF?**Áno, poskytnutím správneho hesla sa text môže bezpečne extrahovať.

**Podporuje pravicovo-ľavicové a komplexné skripty?**Áno, Unicode a RTL skripty (napr. arabčina, hebrejčina) sú plne podporované.

**Ako sa tento plugin líši od celej knižnice Aspose.PDF?**Tento plugin je ľahký a optimalizovaný len pre extrakciu textu, zatiaľ čo Aspose.PDF poskytuje plnú manipuláciu s PDF API.

**Je extrakcia thread-bezpečná?**Áno, operácie sú thread-safe na úrovni dokumentu pre paralelné spracovanie.