Aspose.PDF Text Extractor for .NET

Aspose.PDF Text Extractor for .NET er en fokusert plugin som gjør det mulig for utviklere å ekstrakte ren, rå eller flat tekst fra PDF Det fjerner formatering og grafiske elementer, og gir ren tekstinnhold som kan indekseres, analyseres eller transformeres i .NET-applikasjoner.

Å bli startet

Installasjon og installasjon

Install Aspose.PDF via NuGet eller laste ned assemblies direkte.
Konfigurere målt lisens før ekstraksjon (se målt lisens ).

Egenskaper og funksjoner

Rød tekstekstraksjon

Utvider den uendrede karakterstrømmen fra hver side.
Oppbevarer hvitplass, linjebrudd og skjult tekst.
Nyttig for indeksering eller bulk tekst dumps.

Platt tekstekstraksjon

Normaliserer hvit plass og linje brudd for lesbarhet.
Bli med vedkommende tekst kjører intelligent.
Ignorerer bokstaver, grafikk og posisjonering.

Page og Range-Based Extraction

Utveksle tekst fra hele dokumenter eller spesifikke siden ranger.
Reduserer hukommelsesbruk ved å begrense omfanget.

Regionbasert ekstraksjon

Angi rektangulære regioner (x, y, bredde, høyde).
Ekstrakter tekst fra header, føtter eller kolonner.
Ideell for strukturerte layouter.

Tekstfiltrering og rengjøring

Fjern kontrollsekvenser, ikke-skrivbare tegn og ekstra hvitespace.
Alternativt utelukke tekst fra notater, felt eller skjulte lag.

Kryptert PDF-støtte

Åpne passordbeskyttet PDF-er ved å levere akkrediteringer.
Extraction APIs dekrypteres automatisk under prosessering.

Unicode og koding

Utgang i UTF-8 eller spesifiserte kodinger.
Støtter komplekse skript, høyre til venstre språk og Unicode glyphs.

Performance og konkurranse

Strømbasert ekstraksjon minimerer hukommelsesspor.
Thread-Safe APIs tillater parallell behandling av flere PDF-er.

Code Example: Utvinning av tekst fra PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tips og beste praksis

Velg ekstraksjonsmodus basert på behov: rå for indeksering, flat for lesbarhet.
Begrense ekstraksjon til ranger eller regioner for å forbedre ytelsen.
Anvend filtre tidlig for å forenkle post-prosessering.
Cache dekrypterte instanser når du gjenbruker sikrede PDF-er.
Tune tråd teller og buffer størrelser for store arbeidsflyter.
Konfigurer lisens på startups for å unngå evalueringsvarslinger.

Ofte stillede spørsmål

**Hvilke former for ekstraksjon støttes?**Tre: rå, flat og regionbasert ekstraksjon.

**Kan jeg trekke ut tekst fra passordbeskyttet PDF-er?**Ja, ved å gi riktig passord, kan teksten utvinnes trygt.

**Han støtter høyre-til- venstre og komplekse skrifter?**Ja, Unicode og RTL-skript (f.eks. arabisk, hebraisk) er fullt støttet.

**Hvordan er denne plugin forskjellig fra den fulle Aspose.PDF-biblioteket?**Denne plugin er mild og optimalisert bare for tekst ekstraksjon, mens Aspose.PDF gir en full PDF manipulasjon API.

**Er ekstraksjon tråd-sikker?**Ja, operasjoner er trådsikre på dokumentnivå for parallell behandling.