Converti la tabella Aspose.OCR in testo per .NET

Aspose.OCR Table to Text pour .NET est un puissant plug-in qui permet aux développeurs d’extraire le texte des tables scannées ou photographiées avec une précision élevée. Livrant des algorithmes avancés de l’apprentissage automatique et des réseaux neuronaux, il détecte les structures de la table, pousse du texte à niveau cellulaire et organise tout dans des panneaux de données recherchables, modifiables ou tabulaires.

Installation et configuration

Pour commencer, installez le package Aspose.OCR Table to Text via NuGet ou téléchargez l’assemblage des serveurs d’Aspouse インストール Guide pour les étapes détaillées.Permettre une fonctionnalité complète en configurant la licence mesurée comme décrit dans le Licenza a consumo la documentation.

Caractéristiques et fonctionnalités

Détection de table et reconnaissance structurelle

  • Il détecte automatiquement les limites de la table dans les images scanées ou photographiées, même si les cellules sont éclipsés, tournées ou illuminées inégalement.
  • Il prend en charge les réglages multi-rous et multicolumbres, les tables nestées et les tailles cellulaires variées.
  • Il fournit une représentation hiérarchique des lignes et des cellules pour un post-traitement simplifié.

Extraction de texte cellulaire

  • Il reconnaît le texte à l’intérieur de chaque cellule en utilisant des algorithmes OCR avancés, en préservant les ruptures de ligne, la capitalisation et le formatage numérique.
  • Traite plusieurs langues dans une seule table avec des priorités linguistiques configurables.
  • Correction des distorsions telles que le sceau, le faible contraste ou le bruit d’image pour augmenter l’exactitude.

La reconstruction et l’exportation

  • Reconstruit les tables détectées en structures de données .NET (par exemple, DataTable) ou les exporte dans les formats CSV/TSV.
  • Il génère des fichiers de feuille d’écran (XLSX) qui peuvent être ouverts dans Excel ou autres outils.
  • Il maintient le formatage cellulaire de base (alignement, frontières) et les coordonnées d’exportation pour les flux de travail avancés.

Résultats recherchables et édifiables

  • Produit des couches de texte recherchables en PDF les exportations, ce qui rend le contenu de table indexable.
  • Integre sans fil avec Aspose.Cells pour les opérations de feuille de passe avancées telles que les formules et le dessin.
  • Il permet d’incorporer le contenu extrait dans les bases de données ou les pipelines de traitement à bas.

Performance et scalabilité

  • Optimisé pour le traitement de lots de grands groupes de données avec la configuration et la gestion de la mémoire.
  • Streaming des données d’image directement au moteur OCR, minimisant le disque I/O.
  • Il fournit des appels de progrès et des tokens d’annulation pour les opérations à long terme.

La personnalisation avancée

  • Région-de-intérêt (ROI) soutien pour limiter la détection à des zones spécifiques pour un traitement plus rapide.
  • Limites de confiance configurables pour filtrer les résultats de faible confiance.
  • Hooks pour pré- et post-traitement (filtres personnalisés, algorithmes de déchets ou validateurs).

Exemple : extraire du texte des tables scanées ou photographiées

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");

// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;

// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Casi d’uso comuni

  • extraire des données structurées des rapports financiers.
  • Convertir les formulaires et les applications scanées en panneaux.
  • Automatiser les tâches d’entrée de données en transformant les images de tableaux en formats édifiables.

Conseils et meilleures pratiques

  • Utilisez des images avec au moins 300 DPI et un bon contraste pour les meilleurs résultats.
  • Pré-crop ou découpage des images pour isoler les régions de table.
  • Remplissez uniquement les paquets de langue nécessaires pour réduire l’utilisation de la mémoire.
  • Tonnez les seuils de confiance pour équilibrer la précision et la mémoire.
  • Valider les tables reconstruites contre les schémas attendus avant d’importer dans les bases de données.

En suivant ces lignes directrices et en exploitant ses capacités de reconnaissance de table, Aspose.OCR Table to Text for .NET fournit aux développeurs une solution fiable pour convertir les tables scannées en texte structuré, éditable et recherchable.

 Français