Aspose.PDF Extraktor textu pro .NET

Aspose.PDF Text Extractor pro .NET je soustředěný plugin, který umožňuje vývojářům extrahovat čistý, surový nebo plochý text z PDF dokumentů. Odstraňuje formátování a grafické prvky, poskytuje čisté textové obsahy, které lze indexovat, analyzovat nebo transformovat v rámci aplikací .Net.

Začínáme

Instalace a nastavení

  • Instalace Aspose.PDF prostřednictvím NuGet nebo stahování shromáždění přímo.
  • Nastavení měřené licence před extrakcí (viz Licencování na bázi měření ).a).

Funkce a funkce

extrakce surového textu

  • Odstraňuje nezměněný průtok znaků z každé stránky.
  • Udržuje bílý prostor, řádkové přerušení a skrytý text.
  • Užitečné pro indexování nebo bulk text dumps.

Textová extrakce

  • Normalizuje bílý prostor a lineové přerušení pro čitelnost.
  • Připojte se k přilehlému textu, který běží inteligentně.
  • Ignoruje písma, grafiku a pozici.

Stránka a rozsahová extrakce

  • Text extrahujte z celých dokumentů nebo konkrétních řad stránek.
  • Snižuje používání paměti omezením rozsahu.

Regionální extrakce

  • Určte rektangulární oblasti (x, y, šířka, výška).
  • Text extrahujte z hlav, nohou nebo sloupů.
  • Ideální pro strukturované rozložení.

Textové filtrování a čištění

  • Odstranit kontrolní sekvence, netiskovatelné znaky a extra bílý prostor.
  • Volitelně vyloučit text z poznámek, polí nebo skryté vrstvy.

Šifrovaná podpora PDF

  • Otevřete heslo chráněné PDF prostřednictvím poskytování autentifikací.
  • Extraktní API se během zpracování automaticky dešifrují.

Unicode a kódování

  • Výstup v UTF-8 nebo specifikovaných kódování.
  • Podporuje složité skripty, pravicově levé jazyky a Unicode glyphs.

Výkon a konkurence

  • Streamová extrakce minimalizuje stopy paměti.
  • Bezpečné API umožňují paralelní zpracování více PDF.

Příklad kódu: Odstraňování textu z PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tipy a nejlepší postupy

  • Výběr režimu extrakce na základě potřeb: surové pro indexování, rovné pro čitelnost.
  • Omezení extrakce na řady nebo regiony pro zlepšení výkonu.
  • Aplikujte filtry brzy, abyste zjednodušili post-procesování.
  • Cache dešifrované příklady při opětovném používání zabezpečených PDF.
  • Tune thread počítá a buffer velikosti pro rozsáhlé pracovní toky.
  • Nastavení licence na start-upu, aby se zabránilo hodnocení upozornění.

Často kladené otázky

**Které metody extrakce jsou podporovány?**Tři: surová, plochá a regionální extrakce.

**Můžu text extrahovat z chráněných heslem PDF?**Ano, poskytnutím správného hesla lze text bezpečně extrahovat.

**Podporuje to doprava a leva a složité skripty?**Ano, Unicode a RTL skripty (například arabština, hebrejština) jsou plně podporovány.

**Jak se tento plugin liší od celé knihovny Aspose.PDF?**Tento plugin je lehký a optimalizován pouze pro extrahování textu, zatímco Aspose.PDF poskytuje plnou API pro manipulaci s PDF.

**Je extrakce bezdrátová?**Ano, operace jsou bezdrátové na úrovni dokumentu pro paralelní zpracování.

 Čeština