Aspose.PDF tekstni ekstraktor za .NET
Aspose.PDF Text Extractor za .NET je fokusiran plugin koji omogućuje razvijalcima da izvlače čisti, sirovi ili ravni tekst iz PDF dokumenata. uklanja formiranje i grafičke elemente, pružajući čistu tekstualnu sadržaj koji se može indeksirati, analizirati ili pretvoriti unutar aplikacija.
Počeo je
Instaliranje i postavljanje
- Instaliranje
Aspose.PDF
putem NuGet ili preuzimanje skupova izravno. - Konfigurirajte licenciranje prije uklanjanja (vidjeti Mjerena dozvola ).
Značajke i funkcionalnosti
ekstrakcija crvenog teksta
- Iz svake stranice izvlači nepromijenjen tok znakova.
- Održavaju bijeli prostor, linije pukotine i skriven tekst.
- Korisna za indeksiranje ili masovni tekst.
Ekstrakcija teksta
- Normalizira bijeli prostor i linije za čitljivost.
- Prijavljivanje povezanog teksta funkcionira pametno.
- Ignorira fontove, grafiku i pozicioniranje.
Stranica i razmjerna ekstrakcija
- Izvlačite tekst iz cijelog dokumenta ili određenih rasponova stranice.
- Smanjuje upotrebu pamćenja ograničavanjem opsega.
Ekstrakcija na bazi regije
- Određivanje rektangularnih područja (x, y, širina, visina).
- Izvadite tekst iz glave, stopala ili stolpca.
- Idealno za strukturiranu rasporedu.
Filtriranje i čišćenje teksta
- Uklonite kontrolne sekvencije, ne štampljive znakove i dodatni bijeli prostor.
- Opcionalno isključite tekst iz anotacija, polja ili skrivenih slojeva.
Šifrirana podrška za PDF
- Otvorite lozinku zaštićene PDF-ove pružajući autentifikacije.
- API ekstrakcije automatski se dešifruje tijekom obrade.
Unicode i kodiranje
- Izlazak u UTF-8 ili određenim kodiranjima.
- Podržava složene skriptove, desno-levo jezike i Unicode glyphs.
Učinkovitost i konkurencija
- Ekstrakcija na temelju struje smanjuje utisak pamćenja.
- Thread-safe API omogućuje paralelnu obradu više PDF-a.
Primjer koda: ekstrakcija teksta iz PDF-a
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Savjeti i najbolje prakse
- Izaberite način ekstrakcije na temelju potreba: sirovo za indeksiranje, ravno za čitljivost.
- Ograničiti ekstrakciju na rasponima ili regijama kako bi se poboljšala učinkovitost.
- Primijenite filtre rano kako biste pojednostavili post-procesiranje.
- Cache dešifrirani primjeri prilikom ponovnog korištenja zaštićenih PDF-a.
- Tune thread broji i buffer veličine za velike radne tokove.
- Konfigurirajte licenciranje na startup-u kako biste izbjegli upozorenja o ocjeni.
Često postavljana pitanja
**Koji se načini ekstrakcije podržavaju?**Tri: sirova, ravna i regionalna ekstrakcija.
**Mogu li izvući tekst iz lozinke zaštićenih PDF?**Da, pružajući ispravnu lozinku, tekst se može sigurno izvući.
**Podržava li to desno-levo i složene skriptove?**Da, Unicode i RTL skriptovi (na primjer, arapski, hebrejski) su u potpunosti podržani.
**Kako se ovaj plugin razlikuje od cijele knjižnice Aspose.PDF?**Ovaj plugin je lagan i optimiziran samo za ekstrakciju teksta, dok Aspose.PDF pruža punu API za manipulaciju PDF-om.
**Je li ekstrakcija bezbedna?**Da, operacije su bezbedne na razini dokumenta za paralelnu obradu.