Aspose.PDF tekstni ekstraktor za .NET

Aspose.PDF Text Extractor za .NET je fokusiran plugin koji omogućuje razvijalcima da izvlače čisti, sirovi ili ravni tekst iz PDF dokumenata. uklanja formiranje i grafičke elemente, pružajući čistu tekstualnu sadržaj koji se može indeksirati, analizirati ili pretvoriti unutar aplikacija.

Počeo je

Instaliranje i postavljanje

  • Instaliranje Aspose.PDF putem NuGet ili preuzimanje skupova izravno.
  • Konfigurirajte licenciranje prije uklanjanja (vidjeti Mjerena dozvola ).

Značajke i funkcionalnosti

ekstrakcija crvenog teksta

  • Iz svake stranice izvlači nepromijenjen tok znakova.
  • Održavaju bijeli prostor, linije pukotine i skriven tekst.
  • Korisna za indeksiranje ili masovni tekst.

Ekstrakcija teksta

  • Normalizira bijeli prostor i linije za čitljivost.
  • Prijavljivanje povezanog teksta funkcionira pametno.
  • Ignorira fontove, grafiku i pozicioniranje.

Stranica i razmjerna ekstrakcija

  • Izvlačite tekst iz cijelog dokumenta ili određenih rasponova stranice.
  • Smanjuje upotrebu pamćenja ograničavanjem opsega.

Ekstrakcija na bazi regije

  • Određivanje rektangularnih područja (x, y, širina, visina).
  • Izvadite tekst iz glave, stopala ili stolpca.
  • Idealno za strukturiranu rasporedu.

Filtriranje i čišćenje teksta

  • Uklonite kontrolne sekvencije, ne štampljive znakove i dodatni bijeli prostor.
  • Opcionalno isključite tekst iz anotacija, polja ili skrivenih slojeva.

Šifrirana podrška za PDF

  • Otvorite lozinku zaštićene PDF-ove pružajući autentifikacije.
  • API ekstrakcije automatski se dešifruje tijekom obrade.

Unicode i kodiranje

  • Izlazak u UTF-8 ili određenim kodiranjima.
  • Podržava složene skriptove, desno-levo jezike i Unicode glyphs.

Učinkovitost i konkurencija

  • Ekstrakcija na temelju struje smanjuje utisak pamćenja.
  • Thread-safe API omogućuje paralelnu obradu više PDF-a.

Primjer koda: ekstrakcija teksta iz PDF-a

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Savjeti i najbolje prakse

  • Izaberite način ekstrakcije na temelju potreba: sirovo za indeksiranje, ravno za čitljivost.
  • Ograničiti ekstrakciju na rasponima ili regijama kako bi se poboljšala učinkovitost.
  • Primijenite filtre rano kako biste pojednostavili post-procesiranje.
  • Cache dešifrirani primjeri prilikom ponovnog korištenja zaštićenih PDF-a.
  • Tune thread broji i buffer veličine za velike radne tokove.
  • Konfigurirajte licenciranje na startup-u kako biste izbjegli upozorenja o ocjeni.

Često postavljana pitanja

**Koji se načini ekstrakcije podržavaju?**Tri: sirova, ravna i regionalna ekstrakcija.

**Mogu li izvući tekst iz lozinke zaštićenih PDF?**Da, pružajući ispravnu lozinku, tekst se može sigurno izvući.

**Podržava li to desno-levo i složene skriptove?**Da, Unicode i RTL skriptovi (na primjer, arapski, hebrejski) su u potpunosti podržani.

**Kako se ovaj plugin razlikuje od cijele knjižnice Aspose.PDF?**Ovaj plugin je lagan i optimiziran samo za ekstrakciju teksta, dok Aspose.PDF pruža punu API za manipulaciju PDF-om.

**Je li ekstrakcija bezbedna?**Da, operacije su bezbedne na razini dokumenta za paralelnu obradu.

 Hrvatski