Aspose.PDF teksta ekstraktors .NET
Aspose.PDF Teksta ekstraktors .NET ir fokusēts plugins, kas ļauj izstrādātājiem izrakstīt tīru, izejvielu vai plašu tekstu no PDF dokumentiem. tas novērš formatēšanu un grafiskus elementus, nodrošinot tīra teksta saturu, ko var indeksēt, analizēt vai pārveidot .Net lietojumprogrammās.
Sākums →
Instalācija un uzstādīšana
- Install
Aspose.PDF
caur NuGet vai lejupielādēt kolekcijas tieši. - Iestatīt mērītu licencēšanu pirms ekstrakcijas (skatīt Mērtēta licencēšana ).
Iezīmes un funkcionalitātes
Rauda teksta ekstrakcija
- Izņem neatkārtojamo rakstura plūsmu no katras lapas.
- Saglabā balto telpu, līnijas pārtraukumus un slēptu tekstu.
- Tas ir noderīgi indeksošanai vai bulk teksta dumps.
Plaša teksta ekstrakcija
- Normalizē balto telpu un līnijas pārtraukumus lasamībai.
- Pievienošanās blakus teksts darbojas gudri.
- ignorē burtus, grafiku un pozīciju.
Page un Range-Based ekstrakcija
- Izņemt tekstu no visām dokumentiem vai konkrētām lapas rindām.
- Samazina atmiņas izmantošanu, ierobežojot apjomu.
Reģionālā ekstrakcija
- Nosakiet taisnstūra reģionus (x, y, platums, augstums).
- Ekstrakts teksts no galvām, kājām vai kolonnām.
- Ideāli piemērots strukturētiem izkārtojumiem.
Teksta filtrēšana un tīrīšana
- Noņemiet kontroles sekas, neizdrukāmi rakstzīmes un papildu balto telpu.
- Opcionāli izslēdz tekstu no piezīmēm, laukiem vai slēptiem slāņiem.
Šifrēta PDF atbalsts
- Atvērt paroles aizsargātus PDF dokumentus, sniedzot apliecinājumus.
- Ekstrakcijas API automātiski izšifrē apstrādes laikā.
Unikode un kodēšana
- Izveidošana UTF-8 vai norādītajos kodos.
- Tas atbalsta sarežģītus skriptus, labās līdz kreisās valodās un Unicode grifus.
Darbība un konkurence
- Ekstrakcija, pamatojoties uz plūsmu, samazina atmiņas pēdas.
- Thread-safe API ļauj paralēli apstrādāt vairākus PDF failus.
Koda piemērs: teksta ekstrakcija no PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Padomi un labākās prakses
- Izvēlieties ekstrakcijas režīmu, pamatojoties uz vajadzībām: izejvielas indeksošanai, taisnība lasamībai.
- Ierobežo ekstrakciju līnijām vai reģioniem, lai uzlabotu veiktspēju.
- Pielietojiet filtri agrāk, lai vienkāršotu pēcapstrādi.
- Cache decrypted instances, kad atkārtoti izmanto drošu PDF.
- Tune grīdas aprēķina un buferu izmērus plašu darba plūsmu.
- Iestatīt licencēšanu start-up, lai izvairītos no novērtēšanas brīdinājumiem.
Bieži uzdotie jautājumi
**Kādi ekstrakcijas veidi tiek atbalstīti?**Trīs: izejvielas, plāna un reģionālā ekstrakcija.
**Vai es varu izņemt tekstu no paroles aizsargātiem PDF?**Jā, nodrošinot pareizo paroli, tekstu var droši izņemt.
** Vai tā atbalsta labās un kreisās skriptu?**Jā, Unicode un RTL skriptus (piemēram, arābu, ebreju) pilnībā atbalsta.
** Kā šis plugins atšķiras no pilnas Aspose.PDF bibliotēkas?**Šis plugins ir viegls un optimizēts tikai teksta ekstrakcijai, savukārt Aspose.PDF nodrošina pilnīgu PDF manipulācijas API.
- Vai ekstrakcija ir droša? *Jā, operācijas ir saknes drošas dokumentu līmenī paralēlai apstrādei.