Aspose.PDF Text Extractor a .NET-hez
Aspose.PDF Text Extractor for .NET egy összpontosított plugin, amely lehetővé teszi a fejlesztők, hogy kivonja a tiszta, nyers, vagy egyenes szöveget a PDF dokumentumok. Ez eltávolítja a formázás és a grafikai elemek, biztosítja tisztán szöveges tartalmak, amelyek indexálható, elemezhető, illetve átalakítható a .NET alkalmazások.
Kezdődik a
Telepítés és telepítés
- telepítés
Aspose.PDF
keresztül NuGet vagy letölteni gyűjtemények közvetlenül. - Állítsa be a mért engedélyt a kivonás előtt (lásd: Mérett licenc ).
Jellemzők és funkciók
A nyers szöveg kivonása
- Kivonja a változatlan karakteráramlást minden oldalról.
- Megőrzi a fehér helyet, a vonalak szakadásait és a rejtett szöveget.
- Hasznos az indexeléshez vagy a tömeges szöveges buborékokhoz.
Tiszta szöveg kivonása
- Normalizálja a fehér helyet és a vonal szakadékokat az olvashatóság érdekében.
- A csatlakozó szöveg intelligensen fut.
- Ignorálja a betűtípusokat, a grafikát és a pozícionálást.
Page és Range-Based Extraction
- A szöveg egész dokumentumokból vagy egy adott oldal rangsorából származik.
- Csökkenti a memória használatát a tartomány korlátozásával.
Regionális kivonatok
- Határozza meg a rektanguláris régiókat (x, y, szélesség, magasság).
- Szöveg kivonása fejjel, lábbal vagy oszlopokból.
- Ideális a strukturált elrendezésekhez.
Szövegszűrés és tisztítás
- Távolítsa el a vezérlősorozatokat, a nem nyomtatható karaktereket és az extra fehér helyet.
- Opcionálisan kizárja a szöveget a jelölésekből, mezőkből vagy rejtett rétegekből.
titkosított PDF támogatás
- Nyissa meg a jelszóval védett PDF-eket azáltal, hogy hitelesítést nyújt.
- Az extrakciós API-k automatikusan dekódolnak a feldolgozás során.
Unicode és Encoding
- UTF-8 vagy meghatározott kódolás.
- Támogatja a komplex scripts, jobbra-balra nyelvek, és Unicode glyphs.
A teljesítmény és a verseny
- Az áramalapú kivonás minimalizálja a memória lábnyomát.
- A Thread-Safe APIs lehetővé teszi a több PDF párhuzamos feldolgozását.
Kód példa: A szöveg PDF-ből történő kivonása
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Tippek és legjobb gyakorlatok
- Válassza ki a kivonási módot az igények alapján: nyers indexeléshez, sík olvashatósághoz.
- Korlátozza az extrakciót a tartományokra vagy régiókra, hogy javítsa a teljesítményt.
- Korán alkalmazza a szűrőket a feldolgozás utáni egyszerűsítéshez.
- A titkosított példák tárolása a biztonságos PDF-k újrahasznosításakor.
- Tune szálak számolnak és buffer méreteket a nagyszabású munkafolyamatok.
- Állítsa be a licencet a startupnál, hogy elkerülje az értékelési figyelmeztetéseket.
Gyakran feltett kérdések
**Milyen kivonási módokat támogatnak?**Három: nyers, tiszta és regionális kivonás.
**Lehet-e szövegeket kivonni a jelszóval védett PDF-kból?**Igen, a megfelelő jelszó biztosításával a szöveg biztonságosan kivonható.
**Támogatja a jobb-balra és a bonyolult írásokat?**Igen, az Unicode és az RTL írásokat (pl. arab, héber) teljes mértékben támogatják.
**Hogyan különbözik ez a plugin a teljes Aspose.PDF könyvtártól?**Ez a plugin könnyű és optimalizált csak a szöveges kivonás, míg Aspose.PDF biztosítja a teljes PDF manipulációs API.
*Az extrakció biztonságos?*Igen, a műveletek a dokumentum szintjén vezeték-biztonságosak a párhuzamos feldolgozáshoz.