Aspose.PDF Text Extractor til .NET
Aspose.PDF Text Extractor for .NET er et fokuseret plugin, der gør det muligt for udviklere at udveksle ren, rå eller plain tekst fra PDF-dokumenter. Det fjerner formatering og grafiske elementer, hvilket giver ren tekstindhold, som kan indekseres, analyseres eller omdannes i .Net-applikationer.
At blive begyndt
Installation og installation
- Installation
Aspose.PDF
via NuGet eller download assemblies direkte. - Konfigurer målt licens før udvinding (se Målt licens ).
Funktioner og funktioner
Rå tekstudvinding
- Udveksler den uændrede karakterstrøm fra hver side.
- Bevarer hvidplads, linjebrud og skjult tekst.
- Nyttig til indeksling eller bulk tekst dumps.
Plain tekstekstraktion
- Normaliserer hvidrum og linjebryder for læsbarhed.
- Tilslut til den tilstødende tekst kører intelligent.
- Ignorerer font, grafik og positionering.
Page og Range-Based Extraction
- Ekstrakter tekst fra hele dokumenter eller specifikke side rækker.
- Reducerer hukommelsesforbruget ved at begrænse omfanget.
Regionbaseret udvinding
- Angiv rektangulære regioner (x, y, bredde, højde).
- Ekstrakter tekst fra hoved, foder eller kolumner.
- Ideel til strukturerede layouter.
Filtrering og rengøring af tekst
- Fjern kontrol sekvenser, ikke-printbare tegn og ekstra hvid plads.
- Optionelt udelukke tekst fra noter, felter eller skjulte lag.
Krypteret PDF-støtte
- Åbn adgangskode-beskyttede PDF’er ved at levere akkrediteringer.
- Extraction APIs dekrypteres automatisk under behandlingen.
Unicode og kodning
- Udgang i UTF-8 eller specifikke koder.
- Det understøtter komplekse skript, højre-til- venstre sprog og Unicode glyphs.
Performance og konkurrence
- Strømbaseret ekstraktion minimerer hukommelsesspor.
- Thread-Safe APIs giver mulighed for parallel behandling af flere PDF’er.
Kodeeksempel: Udvinding af tekst fra PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Tips og bedste praksis
- Vælg ekstraktionsmodus baseret på behov: rå til indeksering, plain til læsbarhed.
- Begræns udvinding til rækker eller regioner for at forbedre ydeevnen.
- Anvend filtre tidligt for at forenkle post-processering.
- Cache dekrypterede instanser ved genanvendelse af sikrede PDF’er.
- Tune thread tæller og buffer størrelser for store arbejdsprocesser.
- Konfigurer licens på startups for at undgå evalueringsvarslinger.
Ofte stillede spørgsmål
**Hvilke former for ekstraktion støttes?**Tre: rå, plan og regionbaseret ekstraktion.
Kan jeg udveksle tekst fra password-beskyttede PDF’er?**Ja, ved at give det korrekte adgangskode, kan teksten udveksles sikkert.
**Er det understøttelse af højre-til- venstre og komplekse skrifter?**Ja, Unicode og RTL scripts (f.eks. arabisk, hebraisk) er fuldt støttet.
**Hvordan er denne plugin forskellig fra den fulde Aspose.PDF-bibliotek?**Denne plugin er let og kun optimeret til tekstudvinding, mens Aspose.PDF giver en fuld PDF-manipulation API.
**Er ekstraktionen tråd-sikker?**Ja, operationer er tråd-sikre på dokumentniveau for parallel behandling.