Aspose.OCR Gescannte PDF in Text für .NET
ASPOSE.OCR Scannen PDF Text für .NET ermöglicht es Entwicklern, Text aus skannierten PDF-Dateien zu extrahieren oder sie in vollständig suchtbare Dokumente zu konvertieren. Es liest jede Layout und Stil, definiert genau die Struktur von Text und Tabellen und bewahrt ursprüngliche Bilder im Hintergrund für eine vollständige Inhaltsbehaltung.
Installation und Setup
Um anfangen zu können, installieren Sie das Aspose.OCR-Paket in Ihr .NET-Projekt über NuGet oder aus einem lokalen Download-Datei Installation Der Führer.Bevor Sie alle OCR-Methoden anrufen, konfigurieren Sie gemessene Lizenzen wie in der Metered Licensing Die Dokumentation.
Eigenschaften und Funktionen
Text-Extraktion aus Scanned PDFs
- Es liest Bitmap-basierte Seiten und verwendet OCR, um erkennbares Text zu extrahieren.
- Unterstützt sowohl einseitige als auch mehrseiten PDF-Einträge.
- Es zeigt Textfragmente zusammen mit ihrer Position, Schriftattributen und Vertrauen-Score.
OCR Präzision und Layout Retention
- Versorgt erweiterte OCR-Motoren, um die Erkennungsgenauigkeit bei niedrigen Qualitätsscannungen zu maximieren.
- Er bewahrt den Dokumentfluss: Paragrafen, Spalten und Linienbrechen bleiben mit der Quelllayout konsistent.
- Er bietet detaillierte Layout-Metadaten, so dass Entwickler Inhalte rekonstruieren oder neu fließen können.
Tischerkennung und Extraction
- Automatisch erkennt die Tabellenstrukturen innerhalb von geschkanten Seiten.
- Die Tabelle enthält als strukturierte Zeilen und Zellen mit Grenzkorrenten.
- Erlaubt Downstream-Export zu CSV, Excel oder angepassten Schemata.
Suchbare Dokumentkonvertierung
- Erinnert erkannte Text zurück in PDFs als unsichtbare Schicht, so dass sie ohne Veränderung des Aussehens gesucht werden können.
- Es behält ursprüngliche scannen Bilder, um die visuelle Treue zu bewahren.
Hintergrundbild bewahrt
- Keeps scannen Bilder intakt im Hintergrund.
- Orte erkannte Text überlaufen auf der Spitze für unbequeme Lesung und Druck.
Anpassungsfähige Anerkennungsparameter
- Anpassung von Segmentationsmodus für Single/Multi-Column-Layouts.
- Konfigurieren Sie die Charakter-Whitelist/Blacklist für Domain-spezifische Anerkennung.
- Kontrolle Auflösung, DPI und vorverarbeitende Filter (Deskw, Lärm entfernen, Grenzwert).
Mehrsprachige und Script-Support
- Erkennt Latin, Cyrillic, Griechisch, Chinesen, Hindi und mehr.
- Erlaubt die dynamische Ladung von Sprachpaketen.
- APIs ermöglichen es Ihnen, Primär- und Sekundärerkennungssprachen pro Seite anzuzeigen.
Leistung und Ressourcenmanagement
- Unterstützt mehrseiten PDF-Verarbeitung.
- Async APIs ermöglichen die parallele Verarbeitung für die Workloads.
- Es bietet Tuning-Optionen für Thread-Nutzung und Buffergrößen.
Beispiel: Text aus Scanned PDFs zu extrahieren
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Tipps und Best Practices
- Vorverarbeitung von PDFs (Deskw, Despeckle, Frontierung) für eine verbesserte Genauigkeit.
- Verwenden Sie Layout-Analyse, um Text und Tabellen vor der Extraction zu erkennen.
- Verwenden Sie Vertrauensgrenzen, um kritische Inhalte zu validieren.
- Begrenzen Sie die konkurrenzfähigen OCR-Motoren in der Bandarbeit, um Ressourcenkontraktion zu verhindern.
- Cache-Sprachpakete und Wiederverwendung von OCR-Engine-Instanzen über mehrere Seiten.
Durch die Kombination von OCR-Genauigkeit, Tisch-Detektion und Suchbare PDF-Erzeugung bietet Aspose.OCR Scanned PDF to Text for .NET eine vollständige Lösung für die Digitalisierung und Ausnahme von Text aus scannen PDFs während der Erhaltung der ursprünglichen Layouts.