Aspose.PDF Text Extractor για το .NET

Το Aspose.PDF Text Extractor για το .NET είναι ένα εστιασμένο plugin που επιτρέπει στους προγραμματιστές να εξάγουν καθαρό, πρώιμο ή απλό κείμενο από τα έγγραφα PDF. Απομακρύνει τη διαμόρφωση και τα γραφικά στοιχεία, παρέχοντας καθαρά κειμενικό περιεχόμενο που μπορεί να ενσωματωθεί, να αναλυθεί ή να μετατραπεί μέσα σε εφαρμογές .Net.

מתחילים

Εισαγωγή και εγκατάσταση

  • Εγκατάσταση Aspose.PDF μέσω NuGet ή κατεβάστε τις συλλογές απευθείας.
  • Προσαρμόστε τη μετρημένη άδεια πριν από την εξόρυξη (βλέπε רישוי מדוד ).

Χαρακτηριστικά και λειτουργίες

Ακατέργαστη εκχύλιση κειμένου

  • Απομακρύνει την αμετάβλητη ροή χαρακτήρα από κάθε σελίδα.
  • Διατηρεί λευκό χώρο, γραμμές διακοπές και κρυμμένο κείμενο.
  • Χρησιμοποιείται για την ανίχνευση ή τα μαζικά κείμενα.

Πλήρης εκχύλισμα κειμένου

  • Κανονικοποιεί τον λευκό χώρο και τις γραμμικές διακοπές για την ανάγνωση.
  • Η σύνδεση με το πλησιέστερο κείμενο τρέχει έξυπνα.
  • Αγνοεί γραμματοσειρά, γραφικά και τοποθέτηση.

Σελίδα και εκχύλισμα με βάση το εύρος

  • Εξαγωγή κειμένου από ολόκληρα έγγραφα ή συγκεκριμένες γραμμές σελίδας.
  • Μειώνει τη χρήση μνήμης περιορίζοντας το εύρος.

Περιφερειακή εξόρυξη

  • Προσδιορίστε τις ορθογώνιες περιοχές (x, y, πλάτος, ύψος).
  • Αποκτήστε κείμενο από κεφαλές, πόδια ή στήλες.
  • Ιδανικό για διαρθρωμένες εγκαταστάσεις.

Φιλτράρισμα και καθαρισμός κειμένου

  • Απομακρύνετε τις ακολουθίες ελέγχου, τους χαρακτήρες που δεν μπορούν να εκτυπωθούν και το επιπλέον λευκό χώρο.
  • Εναλλακτικά, αποκλείστε το κείμενο από σημειώσεις, πεδία ή κρυμμένα στρώματα.

Κρυπτογραφημένη υποστήριξη PDF

  • Ανοίξτε τα προστατευμένα με κωδικό πρόσβασης PDF με την παροχή πιστοποιητικών.
  • Οι APIs εξόρυξης αποκρυπτογραφούνται αυτόματα κατά τη διάρκεια της επεξεργασίας.

Unicode και κωδικοποίηση

  • Εισαγωγή σε UTF-8 ή καθορισμένες κωδικοποιήσεις.
  • Υποστηρίζει σύνθετα σενάρια, δεξιά προς αριστερά γλώσσες και Unicode glyphs.

Αποδοτικότητα και ανταγωνισμός

  • Η εξόρυξη με βάση το ρεύμα ελαχιστοποιεί τις αποτυπώσεις μνήμης.
  • Τα Thread-Safe APIs επιτρέπουν παράλληλη επεξεργασία πολλαπλών PDF.

Παράδειγμα κώδικα: Εξαγωγή κειμένου από το PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Συμβουλές και καλύτερες πρακτικές

  • Επιλέξτε τη λειτουργία εξόρυξης με βάση τις ανάγκες: ακατέργαστη για τον δείκτη, ομαλή για την ανάγνωση.
  • Περιορίστε την εξόρυξη σε κλάδους ή περιοχές για τη βελτίωση της απόδοσης.
  • Εφαρμόστε φίλτρα νωρίς για να απλοποιήσετε την επεξεργασία.
  • Αποθήκευση αποκρυπτογραφημένων παραδείξεων όταν επαναχρησιμοποιείτε ασφαλείς PDFs.
  • Tune thread υπολογίζει και τα μεγέθη του buffer για τις ροές εργασίας μεγάλης κλίμακας.
  • Ρυθμίστε την άδεια στο startup για να αποφύγετε τις προειδοποιήσεις αξιολόγησης.

Συχνές ερωτήσεις

**Ποιες μορφές εξόρυξης υποστηρίζονται;**Τρία: πρώιμη, επίπεδη και περιφερειακή εξόρυξη.

**Μπορώ να εξαγάξω κείμενο από τα προστατευόμενα με κωδικό πρόσβασης PDF;**Ναι, παρέχοντας το σωστό κωδικό πρόσβασης, το κείμενο μπορεί να αφαιρεθεί με ασφάλεια.

**Υποστηρίζει δεξιά προς αριστερά και σύνθετα κείμενα;**Ναι, τα κείμενα Unicode και RTL (π.χ. Αραβικά, Εβραϊκά) υποστηρίζονται πλήρως.

**Πώς διαφέρει αυτό το plugin από την πλήρη βιβλιοθήκη Aspose.PDF;**Αυτό το plugin είναι ελαφρύ και βελτιστοποιείται μόνο για εξόρυξη κειμένου, ενώ το Aspose.PDF παρέχει ένα πλήρες API χειρισμού PDF.

*Είναι η εξόρυξη ασφαλής;*Ναι, οι εργασίες είναι ασφαλείς στο επίπεδο του εγγράφου για παράλληλη επεξεργασία.

 Ελληνικά