Aspose.PDF Text Extractor til .NET
Aspose.PDF Text Extractor for .NET er et fokuseret plugin, der giver udviklere mulighed for at udveksle ren, rå eller plain tekst fra PDF Det fjerner formatering og grafiske elementer, der giver ren tekstindhold, som kan indekseres, analyseres eller omdannes inden for .NET-applikationer.
At blive begyndt
Installation og installation
- Installation
Aspose.PDFvia NuGet eller download assemblies direkte. - Konfigurer målt licens før udvinding (se Målt licens ).
Funktioner og funktioner
Rå tekstudvinding
- Udveksler den uændrede karakterstrøm fra hver side.
- Bevarer hvidplads, linjebrud og skjult tekst.
- Nyttig til indeksling eller bulk tekst dumps.
Plain tekstekstraktion
- Normaliserer hvidrum og linjebryder for læsbarhed.
- Tilslut til den tilstødende tekst kører intelligent.
- Ignorerer font, grafik og positionering.
Page og Range-Based Extraction
- Ekstrakter tekst fra hele dokumenter eller specifikke side rækker.
- Reducerer hukommelsesforbruget ved at begrænse omfanget.
Regionbaseret udvinding
- Angiv rektangulære regioner (x, y, bredde, højde).
- Ekstrakter tekst fra hoved, foder eller kolumner.
- Ideel til strukturerede layouter.
Filtrering og rengøring af tekst
- Fjern kontrol sekvenser, ikke-printbare tegn og ekstra hvid plads.
- Optionelt udelukke tekst fra noter, felter eller skjulte lag.
Krypteret PDF-støtte
- Åbn adgangskode-beskyttede PDF’er ved at levere akkrediteringer.
- Extraction APIs dekrypteres automatisk under behandlingen.
Unicode og kodning
- Udgang i UTF-8 eller specifikke koder.
- Det understøtter komplekse skript, højre-til- venstre sprog og Unicode glyphs.
Performance og konkurrence
- Strømbaseret ekstraktion minimerer hukommelsesspor.
- Thread-Safe APIs giver mulighed for parallel behandling af flere PDF’er.
Kodeeksempel: Udvinding af tekst fra PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);Tips og bedste praksis
- Vælg ekstraktionsmodus baseret på behov: rå til indeksering, plain til læsbarhed.
- Begræns udvinding til rækker eller regioner for at forbedre ydeevnen.
- Anvend filtre tidligt for at forenkle post-processering.
- Cache dekrypterede instanser ved genanvendelse af sikrede PDF’er.
- Tune thread tæller og buffer størrelser for store arbejdsprocesser.
- Konfigurer licens på startups for at undgå evalueringsvarslinger.
Ofte stillede spørgsmål
**Hvilke former for ekstraktion støttes?**Tre: rå, plan og regionbaseret ekstraktion.
**Kan jeg udveksle tekst fra password-beskyttede PDF’er?**Ja, ved at give det korrekte adgangskode, kan teksten udveksles sikkert.
**Er det understøttelse af højre-til- venstre og komplekse skrifter?**Ja, Unicode og RTL scripts (f.eks. arabisk, hebraisk) er fuldt støttet.
**Hvordan er denne plugin forskellig fra den fulde Aspose.PDF-bibliotek?**Denne plugin er let og kun optimeret til tekstudvinding, mens Aspose.PDF giver en fuld PDF-manipulation API.
**Er ekstraktionen tråd-sikker?**Ja, operationer er tråd-sikre på dokumentniveau for parallel behandling.