Aspose.PDF Extraktor textu pro .NET
Aspose.PDF Text Extractor pro .NET je soustředěný plugin, který umožňuje vývojářům extrahovat čistý, surový nebo plochý text z PDF dokumentů. Odstraňuje formátování a grafické prvky, poskytuje čisté textové obsahy, které lze indexovat, analyzovat nebo transformovat v rámci aplikací .Net.
Začínáme
Instalace a nastavení
- Instalace
Aspose.PDF
prostřednictvím NuGet nebo stahování shromáždění přímo. - Nastavení měřené licence před extrakcí (viz Licencování na bázi měření ).a).
Funkce a funkce
extrakce surového textu
- Odstraňuje nezměněný průtok znaků z každé stránky.
- Udržuje bílý prostor, řádkové přerušení a skrytý text.
- Užitečné pro indexování nebo bulk text dumps.
Textová extrakce
- Normalizuje bílý prostor a lineové přerušení pro čitelnost.
- Připojte se k přilehlému textu, který běží inteligentně.
- Ignoruje písma, grafiku a pozici.
Stránka a rozsahová extrakce
- Text extrahujte z celých dokumentů nebo konkrétních řad stránek.
- Snižuje používání paměti omezením rozsahu.
Regionální extrakce
- Určte rektangulární oblasti (x, y, šířka, výška).
- Text extrahujte z hlav, nohou nebo sloupů.
- Ideální pro strukturované rozložení.
Textové filtrování a čištění
- Odstranit kontrolní sekvence, netiskovatelné znaky a extra bílý prostor.
- Volitelně vyloučit text z poznámek, polí nebo skryté vrstvy.
Šifrovaná podpora PDF
- Otevřete heslo chráněné PDF prostřednictvím poskytování autentifikací.
- Extraktní API se během zpracování automaticky dešifrují.
Unicode a kódování
- Výstup v UTF-8 nebo specifikovaných kódování.
- Podporuje složité skripty, pravicově levé jazyky a Unicode glyphs.
Výkon a konkurence
- Streamová extrakce minimalizuje stopy paměti.
- Bezpečné API umožňují paralelní zpracování více PDF.
Příklad kódu: Odstraňování textu z PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Tipy a nejlepší postupy
- Výběr režimu extrakce na základě potřeb: surové pro indexování, rovné pro čitelnost.
- Omezení extrakce na řady nebo regiony pro zlepšení výkonu.
- Aplikujte filtry brzy, abyste zjednodušili post-procesování.
- Cache dešifrované příklady při opětovném používání zabezpečených PDF.
- Tune thread počítá a buffer velikosti pro rozsáhlé pracovní toky.
- Nastavení licence na start-upu, aby se zabránilo hodnocení upozornění.
Často kladené otázky
**Které metody extrakce jsou podporovány?**Tři: surová, plochá a regionální extrakce.
**Můžu text extrahovat z chráněných heslem PDF?**Ano, poskytnutím správného hesla lze text bezpečně extrahovat.
**Podporuje to doprava a leva a složité skripty?**Ano, Unicode a RTL skripty (například arabština, hebrejština) jsou plně podporovány.
**Jak se tento plugin liší od celé knihovny Aspose.PDF?**Tento plugin je lehký a optimalizován pouze pro extrahování textu, zatímco Aspose.PDF poskytuje plnou API pro manipulaci s PDF.
**Je extrakce bezdrátová?**Ano, operace jsou bezdrátové na úrovni dokumentu pro paralelní zpracování.