Aspose.PDF Text Extractor til .NET

Aspose.PDF Text Extractor for .NET er et fokuseret plugin, der gør det muligt for udviklere at udveksle ren, rå eller plain tekst fra PDF-dokumenter. Det fjerner formatering og grafiske elementer, hvilket giver ren tekstindhold, som kan indekseres, analyseres eller omdannes i .Net-applikationer.

At blive begyndt

Installation og installation

  • Installation Aspose.PDF via NuGet eller download assemblies direkte.
  • Konfigurer målt licens før udvinding (se Målt licens ).

Funktioner og funktioner

Rå tekstudvinding

  • Udveksler den uændrede karakterstrøm fra hver side.
  • Bevarer hvidplads, linjebrud og skjult tekst.
  • Nyttig til indeksling eller bulk tekst dumps.

Plain tekstekstraktion

  • Normaliserer hvidrum og linjebryder for læsbarhed.
  • Tilslut til den tilstødende tekst kører intelligent.
  • Ignorerer font, grafik og positionering.

Page og Range-Based Extraction

  • Ekstrakter tekst fra hele dokumenter eller specifikke side rækker.
  • Reducerer hukommelsesforbruget ved at begrænse omfanget.

Regionbaseret udvinding

  • Angiv rektangulære regioner (x, y, bredde, højde).
  • Ekstrakter tekst fra hoved, foder eller kolumner.
  • Ideel til strukturerede layouter.

Filtrering og rengøring af tekst

  • Fjern kontrol sekvenser, ikke-printbare tegn og ekstra hvid plads.
  • Optionelt udelukke tekst fra noter, felter eller skjulte lag.

Krypteret PDF-støtte

  • Åbn adgangskode-beskyttede PDF’er ved at levere akkrediteringer.
  • Extraction APIs dekrypteres automatisk under behandlingen.

Unicode og kodning

  • Udgang i UTF-8 eller specifikke koder.
  • Det understøtter komplekse skript, højre-til- venstre sprog og Unicode glyphs.

Performance og konkurrence

  • Strømbaseret ekstraktion minimerer hukommelsesspor.
  • Thread-Safe APIs giver mulighed for parallel behandling af flere PDF’er.

Kodeeksempel: Udvinding af tekst fra PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tips og bedste praksis

  • Vælg ekstraktionsmodus baseret på behov: rå til indeksering, plain til læsbarhed.
  • Begræns udvinding til rækker eller regioner for at forbedre ydeevnen.
  • Anvend filtre tidligt for at forenkle post-processering.
  • Cache dekrypterede instanser ved genanvendelse af sikrede PDF’er.
  • Tune thread tæller og buffer størrelser for store arbejdsprocesser.
  • Konfigurer licens på startups for at undgå evalueringsvarslinger.

Ofte stillede spørgsmål

**Hvilke former for ekstraktion støttes?**Tre: rå, plan og regionbaseret ekstraktion.

Kan jeg udveksle tekst fra password-beskyttede PDF’er?**Ja, ved at give det korrekte adgangskode, kan teksten udveksles sikkert.

**Er det understøttelse af højre-til- venstre og komplekse skrifter?**Ja, Unicode og RTL scripts (f.eks. arabisk, hebraisk) er fuldt støttet.

**Hvordan er denne plugin forskellig fra den fulde Aspose.PDF-bibliotek?**Denne plugin er let og kun optimeret til tekstudvinding, mens Aspose.PDF giver en fuld PDF-manipulation API.

**Er ekstraktionen tråd-sikker?**Ja, operationer er tråd-sikre på dokumentniveau for parallel behandling.

 Dansk