Aspose.PDF Text Extractor for .NET

Aspose.PDF Text Extractor for .NET er en fokusert plugin som gjør det mulig for utviklere å ekstrakte ren, rå eller flat tekst fra PDF-dokumenter. Det fjerner formatering og grafiske elementer, gir ren tekstinnhold som kan indekseres, analyseres eller transformeres i .Net-applikasjoner.

Å bli startet

Installasjon og installasjon

  • Install Aspose.PDF via NuGet eller laste ned assemblies direkte.
  • Konfigurere målt lisens før ekstraksjon (se målt lisens ).

Egenskaper og funksjoner

Rød tekstekstraksjon

  • Utvider den uendrede karakterstrømmen fra hver side.
  • Oppbevarer hvitplass, linjebrudd og skjult tekst.
  • Nyttig for indeksering eller bulk tekst dumps.

Platt tekstekstraksjon

  • Normaliserer hvit plass og linje brudd for lesbarhet.
  • Bli med vedkommende tekst kjører intelligent.
  • Ignorerer bokstaver, grafikk og posisjonering.

Page og Range-Based Extraction

  • Utveksle tekst fra hele dokumenter eller spesifikke siden ranger.
  • Reduserer hukommelsesbruk ved å begrense omfanget.

Regionbasert ekstraksjon

  • Angi rektangulære regioner (x, y, bredde, høyde).
  • Ekstrakter tekst fra header, føtter eller kolonner.
  • Ideell for strukturerte layouter.

Tekstfiltrering og rengjøring

  • Fjern kontrollsekvenser, ikke-skrivbare tegn og ekstra hvitespace.
  • Alternativt utelukke tekst fra notater, felt eller skjulte lag.

Kryptert PDF-støtte

  • Åpne passordbeskyttet PDF-er ved å levere akkrediteringer.
  • Extraction APIs dekrypteres automatisk under prosessering.

Unicode og koding

  • Utgang i UTF-8 eller spesifiserte kodinger.
  • Støtter komplekse skript, høyre til venstre språk og Unicode glyphs.

Performance og konkurranse

  • Strømbasert ekstraksjon minimerer hukommelsesspor.
  • Thread-Safe APIs tillater parallell behandling av flere PDF-er.

Code Example: Utvinning av tekst fra PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tips og beste praksis

  • Velg ekstraksjonsmodus basert på behov: rå for indeksering, flat for lesbarhet.
  • Begrense ekstraksjon til ranger eller regioner for å forbedre ytelsen.
  • Anvend filtre tidlig for å forenkle post-prosessering.
  • Cache dekrypterte instanser når du gjenbruker sikrede PDF-er.
  • Tune tråd teller og buffer størrelser for store arbeidsflyter.
  • Konfigurer lisens på startups for å unngå evalueringsvarslinger.

Ofte stillede spørsmål

** Hvilke former for ekstraksjon støttes?**Tre: rå, flat og regionbasert ekstraksjon.

** Kan jeg trekke ut tekst fra passordbeskyttet PDF-er?**Ja, ved å gi riktig passord, kan teksten utvinnes trygt.

**Han støtter høyre-til- venstre og komplekse skrifter?**Ja, Unicode og RTL-skript (f.eks. arabisk, hebraisk) er fullt støttet.

**Hvordan er denne plugin forskjellig fra den fulle Aspose.PDF-biblioteket?**Denne plugin er mild og optimalisert bare for tekst ekstraksjon, mens Aspose.PDF gir en full PDF manipulasjon API.

** Er ekstraksjon tråd-sikker?**Ja, operasjoner er trådsikre på dokumentnivå for parallell behandling.

 Norsk