Aspose.PDF Text Extractor für .NET

Aspose.PDF Text Extractor für .NET ist ein fokussiertes Plugin, das Entwicklern erlaubt, reine, raue oder platene Texte aus PDF Es entfernt Formatierung und grafische Elemente und bietet saubere textliche Inhalte, die innerhalb von .NET-Anwendungen indexiert, analysiert oder transformiert werden können.

Einstieg

Installation und Setup

  • Install Aspose.PDF über NuGet oder download assemblies direkt.
  • Konfigurieren Sie die messende Lizenz vor der Extraktion (siehe Metered Licensing ).).

Eigenschaften und Funktionen

Roh Text Extraction

  • Entfernen Sie den unveränderten Charakterstrom aus jeder Seite.
  • Er bewahrt Weißraum, Linienbrechen und verborgenen Text.
  • Nützlich für Indexing oder Bulk Text Dumps.

Platten Text Extraction

  • Normalisiert Weißraum und Linebrechen für Lesbarkeit.
  • Mit dem angrenzenden Text geht es intelligent.
  • Ignorieren Sie Schriften, Grafik und Positionierung.

Page und Range-Based Extraction

  • Text aus ganzem Dokument oder spezifischen Seitenräumen extrahieren.
  • Reduziert die Speicherverwendung durch die Einschränkung der Reichweite.

Regionbasierte Extraktion

  • Angeben Sie rechteckige Regionen (x, y, Breite, Höhe).
  • Text aus Header, Füßen oder Spalten extrahieren.
  • Ideal für strukturierte Layouts.

Textfilterung und Reinigung

  • Entfernen Sie Steuerungssektionen, nicht druckbare Zeichen und zusätzliche Weißfläche.
  • Wählen Sie Text aus Ankündigungen, Feldern oder versteckten Schichten aus.

Verschlüsselte PDF-Support

  • Öffnen Sie Passwort geschützte PDFs, indem Sie Credentials bereitstellen.
  • Extraction APIs wird während der Verarbeitung automatisch verschlüsselt.

Unicode und Encoding

  • Ausgang in UTF-8 oder angegebenen Codern.
  • Unterstützt komplexe Skripte, rechts- linken Sprachen und Unicode Glyphs.

Leistung und Wettbewerb

  • Stream-basierte Extraktion minimiert Gedächtnisabdruck.
  • Thread-Safe APIs ermöglichen die parallele Verarbeitung von mehreren PDFs.

Code Example: Text aus PDF zu extrahieren

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tipps und Best Practices

  • Wählen Sie den Extraction-Modus auf der Grundlage der Bedürfnisse aus: Roh für Indexierung, Platte für Lesbarkeit.
  • Beschränken Sie die Extraktion auf Rangen oder Regionen, um die Leistung zu verbessern.
  • Anwenden Sie Filter früh, um die Nachverarbeitung zu vereinfachen.
  • Cache verschlüsselte Beispiele bei der Wiederverwendung von sicheren PDFs.
  • Tune Thread berechnet und buffergrößen für große Arbeitsflüsse.
  • Konfigurieren Sie die Lizenz bei Startup, um Bewertungswarnungen zu vermeiden.

Häufige Fragen

**Welche Extraction-Modes werden unterstützt?**Drei: Roh, reines und regionbasiertes Extraktion.

**Kann ich Text aus Passwortgeschützten PDFs extrahieren?**Ja, indem Sie das richtige Passwort bereitstellen, kann der Text sicher extrahiert werden.

**Unterstützt es rechts- linken und komplexen Schriften?**Ja, Unicode und RTL Skripte (z. B. Arabisch, Hebräisch) sind vollständig unterstützt.

**Wie unterscheidet sich dieser Plugin von der gesamten Aspose.PDF-Bibliothek?**Dieses Plugin ist leicht und optimiert nur für Text-Extraktion, während Aspose.PDF eine vollständige PDF-Manipulation API bietet.

**Ist die Extraction Thread-Safe?**Ja, die Operationen sind thread-safe auf der Dokumentebene für die parallele Verarbeitung.

 Deutsch