Aspose.PDF teksta ekstraktors .NET

Aspose.PDF Teksta ekstraktors .NET ir fokusēts plugins, kas ļauj izstrādātājiem izrakstīt tīru, graudu vai plašu tekstu no PDF Tas noņem formātu un grafiskus elementus, nodrošinot tīru teksta saturu, ko var indeksēt, analizēt vai pārveidot .NET lietojumprogrammās.

Sākums

Instalācija un uzstādīšana

Install Aspose.PDF caur NuGet vai lejupielādēt kolekcijas tieši.
Iestatīt mērītu licencēšanu pirms ekstrakcijas (skatīt Mērtēta licencēšana ).

Iezīmes un funkcionalitātes

Rauda teksta ekstrakcija

Izņem neatkārtojamo rakstura plūsmu no katras lapas.
Saglabā balto telpu, līnijas pārtraukumus un slēptu tekstu.
Tas ir noderīgi indeksošanai vai bulk teksta dumps.

Plaša teksta ekstrakcija

Normalizē balto telpu un līnijas pārtraukumus lasamībai.
Pievienošanās blakus teksts darbojas gudri.
ignorē burtus, grafiku un pozīciju.

Page un Range-Based ekstrakcija

Izņemt tekstu no visām dokumentiem vai konkrētām lapas rindām.
Samazina atmiņas izmantošanu, ierobežojot apjomu.

Reģionālā ekstrakcija

Nosakiet taisnstūra reģionus (x, y, platums, augstums).
Ekstrakts teksts no galvām, kājām vai kolonnām.
Ideāli piemērots strukturētiem izkārtojumiem.

Teksta filtrēšana un tīrīšana

Noņemiet kontroles sekas, neizdrukāmi rakstzīmes un papildu balto telpu.
Opcionāli izslēdz tekstu no piezīmēm, laukiem vai slēptiem slāņiem.

Šifrēta PDF atbalsts

Atvērt paroles aizsargātus PDF dokumentus, sniedzot apliecinājumus.
Ekstrakcijas API automātiski izšifrē apstrādes laikā.

Unikode un kodēšana

Izveidošana UTF-8 vai norādītajos kodos.
Tas atbalsta sarežģītus skriptus, labās līdz kreisās valodās un Unicode grifus.

Darbība un konkurence

Ekstrakcija, pamatojoties uz plūsmu, samazina atmiņas pēdas.
Thread-safe API ļauj paralēli apstrādāt vairākus PDF failus.

Koda piemērs: teksta ekstrakcija no PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Padomi un labākās prakses

Izvēlieties ekstrakcijas režīmu, pamatojoties uz vajadzībām: izejvielas indeksošanai, taisnība lasamībai.
Ierobežo ekstrakciju līnijām vai reģioniem, lai uzlabotu veiktspēju.
Pielietojiet filtri agrāk, lai vienkāršotu pēcapstrādi.
Cache decrypted instances, kad atkārtoti izmanto drošu PDF.
Tune grīdas aprēķina un buferu izmērus plašu darba plūsmu.
Iestatīt licencēšanu start-up, lai izvairītos no novērtēšanas brīdinājumiem.

Bieži uzdotie jautājumi

**Kādi ekstrakcijas veidi tiek atbalstīti?**Trīs: izejvielas, plāna un reģionālā ekstrakcija.

**Vai es varu izņemt tekstu no paroles aizsargātiem PDF?**Jā, nodrošinot pareizo paroli, tekstu var droši izņemt.

**Vai tā atbalsta labās un kreisās skriptu?**Jā, Unicode un RTL skriptus (piemēram, arābu, ebreju) pilnībā atbalsta.

**Kā šis plugins atšķiras no pilnas Aspose.PDF bibliotēkas?**Šis plugins ir viegls un optimizēts tikai teksta ekstrakcijai, savukārt Aspose.PDF nodrošina pilnīgu PDF manipulācijas API.

**Vai ekstrakcija ir droša?**Jā, operācijas ir saknes drošas dokumentu līmenī paralēlai apstrādei.