Aspose.PDF Text Extractor for .NET
Aspose.PDF Text Extractor for .NET er en fokusert plugin som gjør det mulig for utviklere å ekstrakte ren, rå eller flat tekst fra PDF-dokumenter. Det fjerner formatering og grafiske elementer, gir ren tekstinnhold som kan indekseres, analyseres eller transformeres i .Net-applikasjoner.
Å bli startet
Installasjon og installasjon
- Install
Aspose.PDF
via NuGet eller laste ned assemblies direkte. - Konfigurere målt lisens før ekstraksjon (se målt lisens ).
Egenskaper og funksjoner
Rød tekstekstraksjon
- Utvider den uendrede karakterstrømmen fra hver side.
- Oppbevarer hvitplass, linjebrudd og skjult tekst.
- Nyttig for indeksering eller bulk tekst dumps.
Platt tekstekstraksjon
- Normaliserer hvit plass og linje brudd for lesbarhet.
- Bli med vedkommende tekst kjører intelligent.
- Ignorerer bokstaver, grafikk og posisjonering.
Page og Range-Based Extraction
- Utveksle tekst fra hele dokumenter eller spesifikke siden ranger.
- Reduserer hukommelsesbruk ved å begrense omfanget.
Regionbasert ekstraksjon
- Angi rektangulære regioner (x, y, bredde, høyde).
- Ekstrakter tekst fra header, føtter eller kolonner.
- Ideell for strukturerte layouter.
Tekstfiltrering og rengjøring
- Fjern kontrollsekvenser, ikke-skrivbare tegn og ekstra hvitespace.
- Alternativt utelukke tekst fra notater, felt eller skjulte lag.
Kryptert PDF-støtte
- Åpne passordbeskyttet PDF-er ved å levere akkrediteringer.
- Extraction APIs dekrypteres automatisk under prosessering.
Unicode og koding
- Utgang i UTF-8 eller spesifiserte kodinger.
- Støtter komplekse skript, høyre til venstre språk og Unicode glyphs.
Performance og konkurranse
- Strømbasert ekstraksjon minimerer hukommelsesspor.
- Thread-Safe APIs tillater parallell behandling av flere PDF-er.
Code Example: Utvinning av tekst fra PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Tips og beste praksis
- Velg ekstraksjonsmodus basert på behov: rå for indeksering, flat for lesbarhet.
- Begrense ekstraksjon til ranger eller regioner for å forbedre ytelsen.
- Anvend filtre tidlig for å forenkle post-prosessering.
- Cache dekrypterte instanser når du gjenbruker sikrede PDF-er.
- Tune tråd teller og buffer størrelser for store arbeidsflyter.
- Konfigurer lisens på startups for å unngå evalueringsvarslinger.
Ofte stillede spørsmål
** Hvilke former for ekstraksjon støttes?**Tre: rå, flat og regionbasert ekstraksjon.
** Kan jeg trekke ut tekst fra passordbeskyttet PDF-er?**Ja, ved å gi riktig passord, kan teksten utvinnes trygt.
**Han støtter høyre-til- venstre og komplekse skrifter?**Ja, Unicode og RTL-skript (f.eks. arabisk, hebraisk) er fullt støttet.
**Hvordan er denne plugin forskjellig fra den fulle Aspose.PDF-biblioteket?**Denne plugin er mild og optimalisert bare for tekst ekstraksjon, mens Aspose.PDF gir en full PDF manipulasjon API.
** Er ekstraksjon tråd-sikker?**Ja, operasjoner er trådsikre på dokumentnivå for parallell behandling.