Aspose.PDF Extractor de text pentru .NET
Aspose.PDF Text Extractor pentru .NET este un plugin focalizat care permite dezvoltatorilor să extragă text curat, crud sau net din documentele PDF. El îndepărtează formatarea și elementele grafice, furnizând conținut text pur care poate fi indexată, analizată sau transformată în cadrul aplicațiilor .Net.
să înceapă
Instalare și setare
- Instalarea
Aspose.PDF
prin NuGet sau descărcați adunările direct. - Configurați licența măsurată înainte de extracție (a se vedea Licență măsurată ).
Caracteristici și funcții
Extracția textului brut
- Extrage fluxul inalterat de caracter din fiecare pagină.
- Conservă spațiul alb, rupturile liniilor și textul ascuns.
- Util pentru indexarea sau bulk text dumps.
Extracție textă plină
- Normalizează spațiul alb și pauzele de linie pentru readabilitate.
- Alăturați-vă textului adiacent funcționează inteligent.
- Ignoră fonturile, graficele și poziționarea.
Pagină și extracție pe bază de gamă
- Extrageți textul din întregi documente sau secțiuni de pagină specifice.
- Reduce utilizarea memoriei prin limitarea scalei.
Extracție bazată pe regiune
- Specificați regiunile rectangulare (x, y, latitudine, înălțime).
- Extrageți textul din capete, picioare sau coloane.
- Ideal pentru layout-uri structurate.
Filtrarea și curățarea textului
- Îndepărtați secvențele de control, caracterele neimprimabile și spațiul alb suplimentar.
- Opțional exclude textul din anotații, câmpuri sau straturi ascunse.
Suport PDF criptat
- Deschideți PDF-uri protejate cu parola prin furnizarea de credențiale.
- API-urile de extracție sunt descărcate automat în timpul procesării.
Unicode și codare
- Export în UTF-8 sau coduri specificate.
- Susține scripturi complexe, limbi de dreapta spre stânga și glifuri Unicode.
Performanță și concurență
- Extracția bazată pe flux minimizează amprenta memoriei.
- API-urile Thread-Safe permit prelucrarea paralelă a mai multor PDF-uri.
Exemplu de cod: Extractarea textului din PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Sfaturi și cele mai bune practici
- Alegeți modul de extracție în funcție de nevoi: crude pentru indexare, plain pentru citibilitate.
- Limitați extracția la rânduri sau regiuni pentru a îmbunătăți performanța.
- Aplicați filtre devreme pentru a simplifica post-procesarea.
- Cache-uri descărcate în cazul reutilizării PDF-urilor securizate.
- Tune thread numără și buffer mărimi pentru fluxurile de lucru pe scară largă.
- Configurați licența la startup pentru a evita avertismentele de evaluare.
Întrebări frecvente
**Ce moduri de extracție sunt susținute?**Trei: extracția crudă, plină și bazată pe regiune.
**Pot extrage text din PDF-uri protejate cu parolă?**Da, prin furnizarea parolei corecte, textul poate fi extras în siguranță.
**Suportă de dreapta spre stânga și scripturi complexe?**Da, scripturile Unicode și RTL (de exemplu, arabă, ebraică) sunt complet susținute.
**Cum este acest plugin diferit de întreaga bibliotecă Aspose.PDF?**Acest plugin este ușor și optimizat numai pentru extracția textului, în timp ce Aspose.PDF oferă o API completă de manipulare PDF.
**Este extracția thread-safe?**Da, operațiunile sunt în siguranță la nivelul documentului pentru prelucrare paralelă.