Aspose.OCR Tabelle zu Text für .NET

Aspose.OCR Table to Text for .NET ist ein leistungsstarkes Plugin, das Entwickler ermöglicht, Text aus scannen oder fotografierten Tabellen mit hoher Genauigkeit zu extrahieren. Durch die Entfernung fortschrittlicher Maschinenlern-Algorithmen und Neural-Netzwerke erkennt es Tischstrukturen, zieht Zell-Level-Text und organisiert alles in suchtbare, bearbeitbare Spreadsheets oder Tabel-Daten Strukturen.

Installation und Setup

Um anfangen zu können, installieren Sie das Aspose.OCR Table to Text-Package über NuGet oder herunterladen Sie die Assembly von den Server von Asposa Installation Leitfaden für detaillierte Schritte.Erlaubt die volle Funktionalität durch die Konfiguration der gemessenen Lizenzierung, wie in der Metered Licensing Die Dokumentation.

Eigenschaften und Funktionen

Tischdetektion und Strukturerkennung

  • Automatisch erkennt die Tabellengrenzen in scanierten oder fotografierten Bildern, auch wenn Zellen verschleiert, rotiert oder ungleichmäßig beleuchtet sind.
  • Unterstützt Multi-Round und Multicolumn-Layouts, Nested-Tabels und unterschiedliche Zellgrößen.
  • Er bietet eine hierarchische Darstellung von Zeilen und Zellen für vereinfachte Post-Verarbeitung.

Zelltext Extraction

  • Er erkennt Text innerhalb jeder Zelle mit fortschrittlichen OCR-Algorithmen an, bewahrt Liniebrechen, Kapitalisierung und numerische Formatierung.
  • Verwalten Sie mehrere Sprachen in einer einzelnen Tabelle mit konfigurierbaren Sprachprioritäten.
  • Korrekt Verzerrungen wie Schweiß, niedriger Kontrast oder Bildgeräusche, um die Genauigkeit zu erhöhen.

Rekonstruktion und Export

  • Rekonstruiert erkannte Tabellen in .NET-Datenstrukturen (z. B. DataTable) oder exportiert sie in CSV/TSV-Formate.
  • Erzeugt editierbare Spreadsheetdateien (XLSX), die in Excel oder anderen Tools geöffnet werden können.
  • Es behält die Basiszellformate (Alignment, Grenzen) und Exportkoordinate für fortgeschrittene Arbeitsflüsse.

Suchbar und Editierbar Ausgang

  • Erzeugt Suchbare Textschichten in PDF Ausfuhren, wodurch die Tabelleindizierbar ist.
  • Sie integriert sich unbequeme mit Aspose.Cells für fortschrittliche Spreadsheet-Dienstleistungen wie Formeln und Diagrammen.
  • Erlaubt die Einbindung von extrahierten Inhalten in Datenbanken oder Downstream-Verarbeitungsleitungen.

Leistung und Scalability

  • Optimiert für die Batchverarbeitung großer Datensätze mit konfigurierbarem Streaming und Gedächtnismanagement.
  • Sie streamen Bilddaten direkt auf den OCR-Motor und minimieren den I/O-Disk.
  • Es bietet Fortschritte Callbacks und Cancellation Tokens für langfristige Operationen.

Fortgeschrittene Customisierung

  • Region-of-Interest (ROI) unterstützt die Erkennung auf bestimmte Bereiche zu beschränken, um die Verarbeitung schneller zu ermöglichen.
  • Konfigurierbare Vertrauensgrenzen zum Filtern von Ergebnissen mit niedriger Vertrauen.
  • Hooks für Vor- und Nachverarbeitung (Anpassungsfilter, Deskew-Algorithmen oder Validatoren).

Beispiel: Text aus Scanned oder Photographed Tables extrahieren

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");

// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;

// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Häufige Anwendungsfälle

  • Strukturierte Daten aus finanziellen Berichten zu extrahieren.
  • Umwandeln von scannen Formulare und Anwendungen in Spreadsheets.
  • Automatisierung von Dateninnahme Aufgaben durch die Umwandlung von Tabellenbildern in bearbeitbare Formate.

Tipps und Best Practices

  • Verwenden Sie Bilder mit mindestens 300 DPI und gutem Kontrast für die besten Ergebnisse.
  • Pre-crop oder deskew Bilder, um die Tischregionen zu isolieren.
  • Laden Sie nur die notwendigen Sprachpakete auf, um den Speicherverbrauch zu reduzieren.
  • Geben Sie Vertrauensgrenzen, um Präzision und Erinnerung zu balansieren.
  • Validieren Sie rekonstruierte Tabellen gegen erwartete Schemata, bevor sie in Datenbanken importiert werden.

Durch die Einhaltung dieser Leitlinien und die Nutzung ihrer Tabellerkennungskapazitäten bietet Aspose.OCR Tabelle zum Text für .NET Entwicklern eine zuverlässige Lösung für die Umwandlung von scanierten Tabellen in strukturiertes, bearbeitbares und suchtbare Text.

 Deutsch