Αντιγραφή OCR μετατρέπει PDF σε κείμενο για το .NET
Σύνδεσμος.OCR Scanned PDF To Text for .NET επιτρέπει στους προγραμματιστές να εξαγάγουν κείμενο από σαρωμένα αρχεία PDF ή να τα μετατρέψουν σε πλήρως αναζησιμα έγγραφα. Διαβάζει οποιαδήποτε διάταξη και στυλ, καθορίζει με ακρίβεια τη δομή του κειμένου και των πίνακων και διατηρεί πρωτότυπες εικόνες στο υπόβαθρο για πλήρη διατήρηση περιεχομένου.
Εισαγωγή και εγκατάσταση
Για να ξεκινήσετε, εγκαταστήστε το πακέτο Aspose.OCR στο έργο .NET σας μέσω του NuGet ή από ένα τοπικά κατεβάσιμο αρχείο התקנה Οδηγός.Πριν καλέσετε οποιαδήποτε μέθοδο OCR, ρυθμίστε τη μετρημένη άδεια όπως περιγράφεται στο רישוי מדוד Η τεκμηρίωση.
Χαρακτηριστικά και λειτουργίες
Εξαγωγή κειμένου από σαρωμένα PDFs
- Διαβάζει σελίδες με βάση bitmap και εφαρμόζει OCR για να εξάγει αναγνωρίσιμο κείμενο.
- Υποστηρίζει τόσο την ενιαία και την πολλαπλή σελίδα εισαγωγή PDF.
- Εμφανίζει τα κομμάτια κειμένου μαζί με τη θέση τους, τα χαρακτηριστικά γραμματοσειράς και τις βαθμολογίες εμπιστοσύνης.
OCR ακρίβεια και διατήρηση διάταξης
- Παρέχει προηγμένους κινητήρες OCR για να μεγιστοποιήσει την ακρίβεια αναγνώρισης σε σάρωση χαμηλής ποιότητας.
- Διατηρεί τη ροή του εγγράφου: παραγράφους, στήλες και γραμμικές διακοπές παραμένουν συνεπείς με τη διάταξη της πηγής.
- Παρέχει λεπτομερείς μεταδεδομένα διάταξης έτσι ώστε οι προγραμματιστές να μπορούν να ανακαταστήσουν ή να επαναφέρετε το περιεχόμενο.
Πίνακας αναγνώρισης και εξαγωγής
- Ανακαλύπτει αυτόματα τις δομές του πίνακα μέσα σε σαρωμένες σελίδες.
- Απορρίπτει το περιεχόμενο του πίνακα ως δομημένες γραμμές και κύτταρα με συντονισμούς συνδέσμων.
- Επιτρέπει την εξαγωγή προς τα κάτω σε CSV, Excel ή προσαρμοσμένα σχήματα.
Αναζητήσιμη μετατροπή εγγράφων
- Ενσωματώνει αναγνωρισμένο κείμενο πίσω σε PDFs ως αόρατο στρώμα, καθιστώντας το αναζησιμό χωρίς αλλαγή εμφάνισης.
- Διατηρεί πρωτότυπη σαρωμένη εικόνα για να διατηρήσει την οπτική πιστότητα.
Διατήρηση εικόνας υπόβαθρου
- Κέιπς σάρωση εικόνες ατέλειωτη στο υπόβαθρο.
- Οι θέσεις αναγνωρισμένου κειμένου τοποθετούνται στην κορυφή για αδιάβροχη ανάγνωση και εκτύπωση.
Προσαρμοσμένες παραμέτρους αναγνώρισης
- Προσαρμόστε τις ρυθμίσεις κατακερματισμού για διατάξεις μεμονωμένων / πολλαπλών στήλων.
- Καθορίστε τον χαρακτήρα λευκό / μαύρο κατάλογο για την αναγνώριση ειδικού τομέα.
- Η ανάλυση ελέγχου, το DPI και οι φίλτρα προεπεξεργασίας (αποκοπή, απομάκρυνση θορύβου, οριοθέτηση).
Πολυγλωσσική υποστήριξη και σενάριο
- Αναγνωρίζει τη λατινική, κυριλική, ελληνική, κινέζικη, ινδική και πολλά άλλα.
- Επιτρέπει τη δυναμική φόρτιση των γλωσσικών πακέτων.
- Οι APIs σας επιτρέπουν να προσδιορίσετε τις γλώσσες πρωτογενής και δευτερογενούς αναγνώρισης ανά σελίδα.
Αποτελεσματικότητα και διαχείριση πόρων
- Υποστηρίζει την επεξεργασία PDF πολλών σελίδων.
- Οι APIs Async επιτρέπουν παράλληλη επεξεργασία για τα φορτία εργασίας συσκευών.
- Παρέχει επιλογές τόνωσης για τη χρήση thread και τα μεγέθη του buffer.
Παράδειγμα: Εξαγωγή κειμένου από σαρωμένα PDFs
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Συμβουλές και καλύτερες πρακτικές
- Προεπεξεργασία PDFs (αποκοπή, αποσυναρμολόγηση, όριο) για βελτιωμένη ακρίβεια.
- Χρησιμοποιήστε την ανάλυση διάταξης για να εντοπίσετε κείμενο και πίνακες πριν από την εξόρυξη.
- Εφαρμόστε όρια εμπιστοσύνης για να επικυρώσετε το κρίσιμο περιεχόμενο.
- Περιορίστε τους συναγωνιστικούς κινητήρες OCR στις θέσεις εργασίας για να αποφύγετε τη συρρίκνωση πόρων.
- Τα πακέτα γλώσσας cache και η επαναχρησιμοποίηση των παραδείξεων κινητήρα OCR σε πολλές σελίδες.
Με τον συνδυασμό της ακρίβειας του OCR, της ανίχνευσης του πίνακα και της αναζητήσιμης γενιάς PDF, Aspose.OCR Scanned PDF to Text for .NET παρέχει μια ολοκληρωμένη λύση για την ψηφιοποίηση και την εξόρυξη κειμένου από τα σάρωση PDF ενώ διατηρεί τις αρχικές διατάξεις.