Aspose.PDF Text Extractor για το .NET
Το Aspose.PDF Text Extractor για το .NET είναι ένα εστιασμένο plugin που επιτρέπει στους προγραμματιστές να εξάγουν καθαρό, πρώιμο ή απλό κείμενο από τα έγγραφα PDF. Απομακρύνει τη διαμόρφωση και τα γραφικά στοιχεία, παρέχοντας καθαρά κειμενικό περιεχόμενο που μπορεί να ενσωματωθεί, να αναλυθεί ή να μετατραπεί μέσα σε εφαρμογές .Net.
מתחילים
Εισαγωγή και εγκατάσταση
- Εγκατάσταση
Aspose.PDF
μέσω NuGet ή κατεβάστε τις συλλογές απευθείας. - Προσαρμόστε τη μετρημένη άδεια πριν από την εξόρυξη (βλέπε רישוי מדוד ).
Χαρακτηριστικά και λειτουργίες
Ακατέργαστη εκχύλιση κειμένου
- Απομακρύνει την αμετάβλητη ροή χαρακτήρα από κάθε σελίδα.
- Διατηρεί λευκό χώρο, γραμμές διακοπές και κρυμμένο κείμενο.
- Χρησιμοποιείται για την ανίχνευση ή τα μαζικά κείμενα.
Πλήρης εκχύλισμα κειμένου
- Κανονικοποιεί τον λευκό χώρο και τις γραμμικές διακοπές για την ανάγνωση.
- Η σύνδεση με το πλησιέστερο κείμενο τρέχει έξυπνα.
- Αγνοεί γραμματοσειρά, γραφικά και τοποθέτηση.
Σελίδα και εκχύλισμα με βάση το εύρος
- Εξαγωγή κειμένου από ολόκληρα έγγραφα ή συγκεκριμένες γραμμές σελίδας.
- Μειώνει τη χρήση μνήμης περιορίζοντας το εύρος.
Περιφερειακή εξόρυξη
- Προσδιορίστε τις ορθογώνιες περιοχές (x, y, πλάτος, ύψος).
- Αποκτήστε κείμενο από κεφαλές, πόδια ή στήλες.
- Ιδανικό για διαρθρωμένες εγκαταστάσεις.
Φιλτράρισμα και καθαρισμός κειμένου
- Απομακρύνετε τις ακολουθίες ελέγχου, τους χαρακτήρες που δεν μπορούν να εκτυπωθούν και το επιπλέον λευκό χώρο.
- Εναλλακτικά, αποκλείστε το κείμενο από σημειώσεις, πεδία ή κρυμμένα στρώματα.
Κρυπτογραφημένη υποστήριξη PDF
- Ανοίξτε τα προστατευμένα με κωδικό πρόσβασης PDF με την παροχή πιστοποιητικών.
- Οι APIs εξόρυξης αποκρυπτογραφούνται αυτόματα κατά τη διάρκεια της επεξεργασίας.
Unicode και κωδικοποίηση
- Εισαγωγή σε UTF-8 ή καθορισμένες κωδικοποιήσεις.
- Υποστηρίζει σύνθετα σενάρια, δεξιά προς αριστερά γλώσσες και Unicode glyphs.
Αποδοτικότητα και ανταγωνισμός
- Η εξόρυξη με βάση το ρεύμα ελαχιστοποιεί τις αποτυπώσεις μνήμης.
- Τα Thread-Safe APIs επιτρέπουν παράλληλη επεξεργασία πολλαπλών PDF.
Παράδειγμα κώδικα: Εξαγωγή κειμένου από το PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Συμβουλές και καλύτερες πρακτικές
- Επιλέξτε τη λειτουργία εξόρυξης με βάση τις ανάγκες: ακατέργαστη για τον δείκτη, ομαλή για την ανάγνωση.
- Περιορίστε την εξόρυξη σε κλάδους ή περιοχές για τη βελτίωση της απόδοσης.
- Εφαρμόστε φίλτρα νωρίς για να απλοποιήσετε την επεξεργασία.
- Αποθήκευση αποκρυπτογραφημένων παραδείξεων όταν επαναχρησιμοποιείτε ασφαλείς PDFs.
- Tune thread υπολογίζει και τα μεγέθη του buffer για τις ροές εργασίας μεγάλης κλίμακας.
- Ρυθμίστε την άδεια στο startup για να αποφύγετε τις προειδοποιήσεις αξιολόγησης.
Συχνές ερωτήσεις
**Ποιες μορφές εξόρυξης υποστηρίζονται;**Τρία: πρώιμη, επίπεδη και περιφερειακή εξόρυξη.
**Μπορώ να εξαγάξω κείμενο από τα προστατευόμενα με κωδικό πρόσβασης PDF;**Ναι, παρέχοντας το σωστό κωδικό πρόσβασης, το κείμενο μπορεί να αφαιρεθεί με ασφάλεια.
**Υποστηρίζει δεξιά προς αριστερά και σύνθετα κείμενα;**Ναι, τα κείμενα Unicode και RTL (π.χ. Αραβικά, Εβραϊκά) υποστηρίζονται πλήρως.
**Πώς διαφέρει αυτό το plugin από την πλήρη βιβλιοθήκη Aspose.PDF;**Αυτό το plugin είναι ελαφρύ και βελτιστοποιείται μόνο για εξόρυξη κειμένου, ενώ το Aspose.PDF παρέχει ένα πλήρες API χειρισμού PDF.
*Είναι η εξόρυξη ασφαλής;*Ναι, οι εργασίες είναι ασφαλείς στο επίπεδο του εγγράφου για παράλληλη επεξεργασία.