Aspose.PDF Text Extractor pre .NET

Aspose.PDF Text Extractor pre .NET je sústredený plugin, ktorý umožňuje vývojárom extrahovať čistý, surový alebo plochý text z PDF dokumentov. Odstráni formátovanie a grafické prvky, poskytuje čisté textové obsahy, ktoré môžu byť indexované, analyzované alebo transformované v rámci aplikácií .Net.

Začať sa

Inštalácia a nastavenie

  • inštalácia Aspose.PDF cez NuGet alebo stiahnuť zhromaždenia priamo.
  • Nastavenie meranej licencie pred extrakciou (pozri Metrické licencie ).

Funkcie a funkcie

extrakcia surového textu

  • Odstráni nezmenený tok charakteru z každej stránky.
  • Zachováva biely priestor, prerušenie riadkov a skryté texty.
  • Užitočné pre indexovanie alebo bulk text dumps.

Plynové textové extrakcie

  • Normalizuje biely priestor a líniové prerušenia pre čitateľnosť.
  • Pripojte sa k príslušnému textu, ktorý beží inteligentne.
  • Ignoruje písma, grafiku a umiestnenie.

Stránka a rozsahová extrakcia

  • Odstráňte text z celého dokumentu alebo špecifických strán.
  • Znižuje používanie pamäte obmedzením rozsahu.

Regionálna extrakcia

  • Určte rektangulárne oblasti (x, y, šírka, výška).
  • Odstráňte text z hlavy, nohy alebo stĺpcov.
  • Ideálne pre štruktúrované rozloženie.

Textové filtrovanie a čistenie

  • Odstráňte ovládacie sekvencie, netlačiteľné znaky a extra biely priestor.
  • Voliteľne vylúčiť text z poznámok, polí alebo skryté vrstvy.

Šifrovaná podpora PDF

  • Otvorte heslo chránené súbory PDF poskytnutím autentifikácií.
  • Extrakčné API sa automaticky dešifrujú počas spracovania.

Unicode a kódovanie

  • Výstup v UTF-8 alebo špecifikovaných kódov.
  • Podporuje komplexné skripty, pravicové jazyky a Unicode glyphs.

Výkon a konkurencia

  • Streamová extrakcia minimalizuje stopy pamäte.
  • Bezpečné API umožňujú paralelné spracovanie viacerých PDF.

Príklad kódu: Odstránenie textu z PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tipy a najlepšie postupy

  • Vyberte režim extrakcie na základe potrieb: surový pre indexovanie, rovný pre čitateľnosť.
  • Obmedziť extrakciu na reťazce alebo regióny na zlepšenie výkonu.
  • Aplikujte filtre skôr, aby sa zjednodušilo post-procesovanie.
  • Cache dešifrované príklady pri opätovnom používaní zabezpečených PDF.
  • Tune thread počítajú a buffer veľkosti pre veľké pracovné toky.
  • Nastavenie licencie na startup, aby sa zabránilo hodnotenie upozornenia.

Často kladené otázky

**Aké spôsoby extrakcie sú podporované?**Tri: surová, rovná a regionálna extrakcia.

**Môžem extrahovať text z chránených heslom PDF?**Áno, poskytnutím správneho hesla sa text môže bezpečne extrahovať.

**Podporuje pravicovo-ľavicové a komplexné skripty?**Áno, Unicode a RTL skripty (napr. arabčina, hebrejčina) sú plne podporované.

**Ako sa tento plugin líši od celej knižnice Aspose.PDF?**Tento plugin je ľahký a optimalizovaný len pre extrakciu textu, zatiaľ čo Aspose.PDF poskytuje plnú manipuláciu s PDF API.

**Je extrakcia thread-bezpečná?**Áno, operácie sú thread-safe na úrovni dokumentu pre paralelné spracovanie.

 Slovenčina