Convertire PDF acquisiti in testo con Aspose.OCR per .NET

Téléchargement.OCR Scanné PDF To Text for .NET permet aux développeurs d’extraire le texte des fichiers PDF scannés ou de les convertir en documents entièrement recherchables. Il lit n’importe quel layout et style, définit avec précision la structure du texte et des tables, et conserve les images originales dans le fond pour la conservation complète du contenu.

Installation et configuration

Pour commencer, installez le pack Aspose.OCR dans votre projet .NET via NuGet ou à partir d’un fichier téléchargé localement インストール Le guide.Avant d’appeler les méthodes OCR, configurez la licence mesurée comme décrit dans le Licenza a consumo la documentation.

Caractéristiques et fonctionnalités

Extraction de texte des PDF scanés

  • Il lit les pages basées sur le bitmap et applique l’OCR pour extraire un texte reconnaissable.
  • Il prend en charge les entrées PDF à plusieurs pages et à une page unique.
  • Expose les fragments de texte ainsi que leur position, les attributs de caractère et les scores de confiance.

OCR Exactitude et Retention de Layout

  • Il fournit des moteurs OCR avancés pour maximiser l’exactitude de la reconnaissance sur les scans de faible qualité.
  • Il maintient le flux de document : les paragraphes, les colonnes et les bris de ligne restent cohérents avec le layout source.
  • Il fournit des métadonnées détaillées de layout afin que les développeurs puissent reconstruire ou réfléchir le contenu.

Table de reconnaissance et d’extraction

  • Il détecte automatiquement les structures de table dans les pages scannées.
  • Il sort du contenu de table en tant que lignes structurées et des cellules avec des coordonnées de boîte de bord.
  • Permet l’exportation en dessous vers CSV, Excel ou des schémas personnalisés.

Conversion de documents recherchables

  • Il insère le texte reconnu dans les PDFs comme une couche invisible, ce qui les rend recherchables sans changer l’apparence.
  • Il conserve l’image scanée originale pour préserver la fidélité visuelle.

Conservation d’image de fond

  • Keeps scanne les images intactes dans le fond.
  • Les lieux de texte reconnu sont placés au sommet pour la lecture et l’impression sans fil.

Paramètres de reconnaissance personnalisables

  • Ajuster les modes de segmentation pour les layouts single/multi-column.
  • Configurez la liste blanche/blacklist de caractères pour la reconnaissance spécifique au domaine.
  • Résolution de contrôle, DPI, et filtres de pré-traitement (découvrement, élimination du bruit, limitation).

Support multilingue et scripts

  • Il reconnaît la langue latine, cyrillienne, grecque, chinoise, hindoue et plus encore.
  • Il permet le chargement dynamique des paquets de langue.
  • APIs vous permettent de spécifier les langues de reconnaissance primaire et secondaire par page.

Performance et gestion des ressources

  • Soutient le traitement de PDF multi-page.
  • Les APIs Async permettent le traitement parallèle pour les charges de travail de groupe.
  • Fournit des options de tuning pour l’utilisation du fil et les tailles de buffer.

Exemple : extraire du texte des PDF scanés

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Conseils et meilleures pratiques

  • PDFs de pré-procédure (découvre, détecle, limite) pour une meilleure précision.
  • Utilisez une analyse de layout pour détecter le texte et les tables avant l’extraction.
  • Appliquer les seuils de confiance pour valider le contenu critique.
  • Limitez les moteurs concurrentiels de l’OCR dans les emplois de groupe afin d’éviter la contentie des ressources.
  • Les paquets de langage de cache et la réutilisation des instances de moteur OCR sur plusieurs pages.

En combinant l’exactitude OCR, la détection de table et la génération de PDF recherchable, Aspose.OCR Scanned PDF to Text for .NET fournit une solution complète pour le numérisation et l’extraction du texte des PDF scannés tout en préservant les layouts originaux.

 Français