Aspose.PDF tekstni ekstraktor za .NET

Aspose.PDF Text Extractor za .NET je fokusiran plugin koji omogućuje razvijalcima da izvlače čisti, sirovi ili ravni tekst iz PDF To uklanja formatiranje i grafičke elemente, pružajući čisti tekstualni sadržaj koji se može indeksirati, analizirati ili pretvoriti unutar .NET aplikacija.

Počeo je

Instaliranje i postavljanje

Instaliranje Aspose.PDF putem NuGet ili preuzimanje skupova izravno.
Konfigurirajte licenciranje prije uklanjanja (vidjeti Mjerena dozvola ).

Značajke i funkcionalnosti

ekstrakcija crvenog teksta

Iz svake stranice izvlači nepromijenjen tok znakova.
Održavaju bijeli prostor, linije pukotine i skriven tekst.
Korisna za indeksiranje ili masovni tekst.

Ekstrakcija teksta

Normalizira bijeli prostor i linije za čitljivost.
Prijavljivanje povezanog teksta funkcionira pametno.
Ignorira fontove, grafiku i pozicioniranje.

Stranica i razmjerna ekstrakcija

Izvlačite tekst iz cijelog dokumenta ili određenih rasponova stranice.
Smanjuje upotrebu pamćenja ograničavanjem opsega.

Ekstrakcija na bazi regije

Određivanje rektangularnih područja (x, y, širina, visina).
Izvadite tekst iz glave, stopala ili stolpca.
Idealno za strukturiranu rasporedu.

Filtriranje i čišćenje teksta

Uklonite kontrolne sekvencije, ne štampljive znakove i dodatni bijeli prostor.
Opcionalno isključite tekst iz anotacija, polja ili skrivenih slojeva.

Šifrirana podrška za PDF

Otvorite lozinku zaštićene PDF-ove pružajući autentifikacije.
API ekstrakcije automatski se dešifruje tijekom obrade.

Unicode i kodiranje

Izlazak u UTF-8 ili određenim kodiranjima.
Podržava složene skriptove, desno-levo jezike i Unicode glyphs.

Učinkovitost i konkurencija

Ekstrakcija na temelju struje smanjuje utisak pamćenja.
Thread-safe API omogućuje paralelnu obradu više PDF-a.

Primjer koda: ekstrakcija teksta iz PDF-a

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Savjeti i najbolje prakse

Izaberite način ekstrakcije na temelju potreba: sirovo za indeksiranje, ravno za čitljivost.
Ograničiti ekstrakciju na rasponima ili regijama kako bi se poboljšala učinkovitost.
Primijenite filtre rano kako biste pojednostavili post-procesiranje.
Cache dešifrirani primjeri prilikom ponovnog korištenja zaštićenih PDF-a.
Tune thread broji i buffer veličine za velike radne tokove.
Konfigurirajte licenciranje na startup-u kako biste izbjegli upozorenja o ocjeni.

Često postavljana pitanja

**Koji se načini ekstrakcije podržavaju?**Tri: sirova, ravna i regionalna ekstrakcija.

**Mogu li izvući tekst iz lozinke zaštićenih PDF?**Da, pružajući ispravnu lozinku, tekst se može sigurno izvući.

**Podržava li to desno-levo i složene skriptove?**Da, Unicode i RTL skriptovi (na primjer, arapski, hebrejski) su u potpunosti podržani.

**Kako se ovaj plugin razlikuje od cijele knjižnice Aspose.PDF?**Ovaj plugin je lagan i optimiziran samo za ekstrakciju teksta, dok Aspose.PDF pruža punu API za manipulaciju PDF-om.

**Je li ekstrakcija bezbedna?**Da, operacije su bezbedne na razini dokumenta za paralelnu obradu.