Aspose.PDF Text Extractor pre .NET
Aspose.PDF Text Extractor pre .NET je sústredený plugin, ktorý umožňuje vývojárom extrahovať čistý, surový alebo plochý text z PDF dokumentov. Odstráni formátovanie a grafické prvky, poskytuje čisté textové obsahy, ktoré môžu byť indexované, analyzované alebo transformované v rámci aplikácií .Net.
Začať sa
Inštalácia a nastavenie
- inštalácia
Aspose.PDF
cez NuGet alebo stiahnuť zhromaždenia priamo. - Nastavenie meranej licencie pred extrakciou (pozri Metrické licencie ).
Funkcie a funkcie
extrakcia surového textu
- Odstráni nezmenený tok charakteru z každej stránky.
- Zachováva biely priestor, prerušenie riadkov a skryté texty.
- Užitočné pre indexovanie alebo bulk text dumps.
Plynové textové extrakcie
- Normalizuje biely priestor a líniové prerušenia pre čitateľnosť.
- Pripojte sa k príslušnému textu, ktorý beží inteligentne.
- Ignoruje písma, grafiku a umiestnenie.
Stránka a rozsahová extrakcia
- Odstráňte text z celého dokumentu alebo špecifických strán.
- Znižuje používanie pamäte obmedzením rozsahu.
Regionálna extrakcia
- Určte rektangulárne oblasti (x, y, šírka, výška).
- Odstráňte text z hlavy, nohy alebo stĺpcov.
- Ideálne pre štruktúrované rozloženie.
Textové filtrovanie a čistenie
- Odstráňte ovládacie sekvencie, netlačiteľné znaky a extra biely priestor.
- Voliteľne vylúčiť text z poznámok, polí alebo skryté vrstvy.
Šifrovaná podpora PDF
- Otvorte heslo chránené súbory PDF poskytnutím autentifikácií.
- Extrakčné API sa automaticky dešifrujú počas spracovania.
Unicode a kódovanie
- Výstup v UTF-8 alebo špecifikovaných kódov.
- Podporuje komplexné skripty, pravicové jazyky a Unicode glyphs.
Výkon a konkurencia
- Streamová extrakcia minimalizuje stopy pamäte.
- Bezpečné API umožňujú paralelné spracovanie viacerých PDF.
Príklad kódu: Odstránenie textu z PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Tipy a najlepšie postupy
- Vyberte režim extrakcie na základe potrieb: surový pre indexovanie, rovný pre čitateľnosť.
- Obmedziť extrakciu na reťazce alebo regióny na zlepšenie výkonu.
- Aplikujte filtre skôr, aby sa zjednodušilo post-procesovanie.
- Cache dešifrované príklady pri opätovnom používaní zabezpečených PDF.
- Tune thread počítajú a buffer veľkosti pre veľké pracovné toky.
- Nastavenie licencie na startup, aby sa zabránilo hodnotenie upozornenia.
Často kladené otázky
**Aké spôsoby extrakcie sú podporované?**Tri: surová, rovná a regionálna extrakcia.
**Môžem extrahovať text z chránených heslom PDF?**Áno, poskytnutím správneho hesla sa text môže bezpečne extrahovať.
**Podporuje pravicovo-ľavicové a komplexné skripty?**Áno, Unicode a RTL skripty (napr. arabčina, hebrejčina) sú plne podporované.
**Ako sa tento plugin líši od celej knižnice Aspose.PDF?**Tento plugin je ľahký a optimalizovaný len pre extrakciu textu, zatiaľ čo Aspose.PDF poskytuje plnú manipuláciu s PDF API.
**Je extrakcia thread-bezpečná?**Áno, operácie sú thread-safe na úrovni dokumentu pre paralelné spracovanie.