Aspose.PDF Text Extractor a .NET-hez

Aspose.PDF Text Extractor for .NET egy összpontosított plugin, amely lehetővé teszi a fejlesztők, hogy kivonja a tiszta, nyers, vagy egyenes szöveget a PDF dokumentumok. Ez eltávolítja a formázás és a grafikai elemek, biztosítja tisztán szöveges tartalmak, amelyek indexálható, elemezhető, illetve átalakítható a .NET alkalmazások.

Kezdődik a

Telepítés és telepítés

  • telepítés Aspose.PDF keresztül NuGet vagy letölteni gyűjtemények közvetlenül.
  • Állítsa be a mért engedélyt a kivonás előtt (lásd: Mérett licenc ).

Jellemzők és funkciók

A nyers szöveg kivonása

  • Kivonja a változatlan karakteráramlást minden oldalról.
  • Megőrzi a fehér helyet, a vonalak szakadásait és a rejtett szöveget.
  • Hasznos az indexeléshez vagy a tömeges szöveges buborékokhoz.

Tiszta szöveg kivonása

  • Normalizálja a fehér helyet és a vonal szakadékokat az olvashatóság érdekében.
  • A csatlakozó szöveg intelligensen fut.
  • Ignorálja a betűtípusokat, a grafikát és a pozícionálást.

Page és Range-Based Extraction

  • A szöveg egész dokumentumokból vagy egy adott oldal rangsorából származik.
  • Csökkenti a memória használatát a tartomány korlátozásával.

Regionális kivonatok

  • Határozza meg a rektanguláris régiókat (x, y, szélesség, magasság).
  • Szöveg kivonása fejjel, lábbal vagy oszlopokból.
  • Ideális a strukturált elrendezésekhez.

Szövegszűrés és tisztítás

  • Távolítsa el a vezérlősorozatokat, a nem nyomtatható karaktereket és az extra fehér helyet.
  • Opcionálisan kizárja a szöveget a jelölésekből, mezőkből vagy rejtett rétegekből.

titkosított PDF támogatás

  • Nyissa meg a jelszóval védett PDF-eket azáltal, hogy hitelesítést nyújt.
  • Az extrakciós API-k automatikusan dekódolnak a feldolgozás során.

Unicode és Encoding

  • UTF-8 vagy meghatározott kódolás.
  • Támogatja a komplex scripts, jobbra-balra nyelvek, és Unicode glyphs.

A teljesítmény és a verseny

  • Az áramalapú kivonás minimalizálja a memória lábnyomát.
  • A Thread-Safe APIs lehetővé teszi a több PDF párhuzamos feldolgozását.

Kód példa: A szöveg PDF-ből történő kivonása

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tippek és legjobb gyakorlatok

  • Válassza ki a kivonási módot az igények alapján: nyers indexeléshez, sík olvashatósághoz.
  • Korlátozza az extrakciót a tartományokra vagy régiókra, hogy javítsa a teljesítményt.
  • Korán alkalmazza a szűrőket a feldolgozás utáni egyszerűsítéshez.
  • A titkosított példák tárolása a biztonságos PDF-k újrahasznosításakor.
  • Tune szálak számolnak és buffer méreteket a nagyszabású munkafolyamatok.
  • Állítsa be a licencet a startupnál, hogy elkerülje az értékelési figyelmeztetéseket.

Gyakran feltett kérdések

**Milyen kivonási módokat támogatnak?**Három: nyers, tiszta és regionális kivonás.

**Lehet-e szövegeket kivonni a jelszóval védett PDF-kból?**Igen, a megfelelő jelszó biztosításával a szöveg biztonságosan kivonható.

**Támogatja a jobb-balra és a bonyolult írásokat?**Igen, az Unicode és az RTL írásokat (pl. arab, héber) teljes mértékben támogatják.

**Hogyan különbözik ez a plugin a teljes Aspose.PDF könyvtártól?**Ez a plugin könnyű és optimalizált csak a szöveges kivonás, míg Aspose.PDF biztosítja a teljes PDF manipulációs API.

*Az extrakció biztonságos?*Igen, a műveletek a dokumentum szintjén vezeték-biztonságosak a párhuzamos feldolgozáshoz.

 Magyar