Aspose.PDF Extractor de text pentru .NET

Aspose.PDF Text Extractor pentru .NET este un plugin focalizat care permite dezvoltatorilor să extragă text curat, crud sau plat din PDF El îndepărtează formatarea și elementele grafice, oferind conținut text curat care poate fi indexat, analizat sau transformat în cadrul aplicațiilor .NET.

să înceapă

Instalare și setare

Instalarea Aspose.PDF prin NuGet sau descărcați adunările direct.
Configurați licența măsurată înainte de extracție (a se vedea Licență măsurată ).

Caracteristici și funcții

Extracția textului brut

Extrage fluxul inalterat de caracter din fiecare pagină.
Conservă spațiul alb, rupturile liniilor și textul ascuns.
Util pentru indexarea sau bulk text dumps.

Extracție textă plină

Normalizează spațiul alb și pauzele de linie pentru readabilitate.
Alăturați-vă textului adiacent funcționează inteligent.
Ignoră fonturile, graficele și poziționarea.

Pagină și extracție pe bază de gamă

Extrageți textul din întregi documente sau secțiuni de pagină specifice.
Reduce utilizarea memoriei prin limitarea scalei.

Extracție bazată pe regiune

Specificați regiunile rectangulare (x, y, latitudine, înălțime).
Extrageți textul din capete, picioare sau coloane.
Ideal pentru layout-uri structurate.

Filtrarea și curățarea textului

Îndepărtați secvențele de control, caracterele neimprimabile și spațiul alb suplimentar.
Opțional exclude textul din anotații, câmpuri sau straturi ascunse.

Suport PDF criptat

Deschideți PDF-uri protejate cu parola prin furnizarea de credențiale.
API-urile de extracție sunt descărcate automat în timpul procesării.

Unicode și codare

Export în UTF-8 sau coduri specificate.
Susține scripturi complexe, limbi de dreapta spre stânga și glifuri Unicode.

Performanță și concurență

Extracția bazată pe flux minimizează amprenta memoriei.
API-urile Thread-Safe permit prelucrarea paralelă a mai multor PDF-uri.

Exemplu de cod: Extractarea textului din PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Sfaturi și cele mai bune practici

Alegeți modul de extracție în funcție de nevoi: crude pentru indexare, plain pentru citibilitate.
Limitați extracția la rânduri sau regiuni pentru a îmbunătăți performanța.
Aplicați filtre devreme pentru a simplifica post-procesarea.
Cache-uri descărcate în cazul reutilizării PDF-urilor securizate.
Tune thread numără și buffer mărimi pentru fluxurile de lucru pe scară largă.
Configurați licența la startup pentru a evita avertismentele de evaluare.

Întrebări frecvente

**Ce moduri de extracție sunt susținute?**Trei: extracția crudă, plină și bazată pe regiune.

**Pot extrage text din PDF-uri protejate cu parolă?**Da, prin furnizarea parolei corecte, textul poate fi extras în siguranță.

**Suportă de dreapta spre stânga și scripturi complexe?**Da, scripturile Unicode și RTL (de exemplu, arabă, ebraică) sunt complet susținute.

**Cum este acest plugin diferit de întreaga bibliotecă Aspose.PDF?**Acest plugin este ușor și optimizat numai pentru extracția textului, în timp ce Aspose.PDF oferă o API completă de manipulare PDF.

**Este extracția thread-safe?**Da, operațiunile sunt în siguranță la nivelul documentului pentru prelucrare paralelă.