Aspose.PDF Extraktor textu pro .NET

Aspose.PDF Text Extractor pro .NET je zaměřený plugin, který umožňuje vývojářům extrahovat čistý, surový nebo plochý text z PDF Odstraňuje formátování a grafické prvky, poskytuje čistý textový obsah, který lze indexovat, analyzovat nebo transformovat v rámci aplikací .NET.

Začínáme

Instalace a nastavení

Instalace Aspose.PDF prostřednictvím NuGet nebo stahování shromáždění přímo.
Nastavení měřené licence před extrakcí (viz Licencování na bázi měření ).a).

Funkce a funkce

extrakce surového textu

Odstraňuje nezměněný průtok znaků z každé stránky.
Udržuje bílý prostor, řádkové přerušení a skrytý text.
Užitečné pro indexování nebo bulk text dumps.

Textová extrakce

Normalizuje bílý prostor a lineové přerušení pro čitelnost.
Připojte se k přilehlému textu, který běží inteligentně.
Ignoruje písma, grafiku a pozici.

Stránka a rozsahová extrakce

Text extrahujte z celých dokumentů nebo konkrétních řad stránek.
Snižuje používání paměti omezením rozsahu.

Regionální extrakce

Určte rektangulární oblasti (x, y, šířka, výška).
Text extrahujte z hlav, nohou nebo sloupů.
Ideální pro strukturované rozložení.

Textové filtrování a čištění

Odstranit kontrolní sekvence, netiskovatelné znaky a extra bílý prostor.
Volitelně vyloučit text z poznámek, polí nebo skryté vrstvy.

Šifrovaná podpora PDF

Otevřete heslo chráněné PDF prostřednictvím poskytování autentifikací.
Extraktní API se během zpracování automaticky dešifrují.

Unicode a kódování

Výstup v UTF-8 nebo specifikovaných kódování.
Podporuje složité skripty, pravicově levé jazyky a Unicode glyphs.

Výkon a konkurence

Streamová extrakce minimalizuje stopy paměti.
Bezpečné API umožňují paralelní zpracování více PDF.

Příklad kódu: Odstraňování textu z PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tipy a nejlepší postupy

Výběr režimu extrakce na základě potřeb: surové pro indexování, rovné pro čitelnost.
Omezení extrakce na řady nebo regiony pro zlepšení výkonu.
Aplikujte filtry brzy, abyste zjednodušili post-procesování.
Cache dešifrované příklady při opětovném používání zabezpečených PDF.
Tune thread počítá a buffer velikosti pro rozsáhlé pracovní toky.
Nastavení licence na start-upu, aby se zabránilo hodnocení upozornění.

Často kladené otázky

**Které metody extrakce jsou podporovány?**Tři: surová, plochá a regionální extrakce.

**Můžu text extrahovat z chráněných heslem PDF?**Ano, poskytnutím správného hesla lze text bezpečně extrahovat.

**Podporuje to doprava a leva a složité skripty?**Ano, Unicode a RTL skripty (například arabština, hebrejština) jsou plně podporovány.

**Jak se tento plugin liší od celé knihovny Aspose.PDF?**Tento plugin je lehký a optimalizován pouze pro extrahování textu, zatímco Aspose.PDF poskytuje plnou API pro manipulaci s PDF.

**Je extrakce bezdrátová?**Ano, operace jsou bezdrátové na úrovni dokumentu pro paralelní zpracování.