Extrator de Texto Aspose.PDF para .NET

Aspose.PDF Text Extractor pour .NET est un plug-in focalisé qui permet aux développeurs d’extraire du texte pur, brut ou plain des documents PDF. Il élimine le formatage et les éléments graphiques, fournissant un contenu texte propre qui peut être indexé, analysé ou transformé dans les applications .Net.

Iniziare

Installation et configuration

  • Installation Aspose.PDF via NuGet ou télécharger les assemblées directement.
  • Configurez la licence mesurée avant l’extraction (voir Licenza a consumo ).

Caractéristiques et fonctionnalités

Extraction de texte brut

  • Extrait le flux de caractère inalteré de chaque page.
  • Il conserve l’espace blanc, les ruptures de lignes et le texte caché.
  • Utile pour l’indexation ou le bulletin de texte.

Extraction de texte

  • Normaliser l’espace blanc et les interruptions de ligne pour la lecture.
  • Le texte adjacent fonctionne intelligemment.
  • Il ignore les fonctions, les graphiques et la positionnement.

Page et extraction basée sur la gamme

  • Extrait de texte à partir de documents entiers ou de rangs de page spécifiques.
  • Réduit l’usage de la mémoire en limitant la portée.

Extraction basée sur la région

  • Déterminer les régions rectangulaires (x, y, largeur, hauteur).
  • Extrait du texte des têtes, des pieds ou des colonnes.
  • Idéal pour les layouts structurés.

Filter et nettoyer

  • Supprimez les séquences de contrôle, les caractères non imprimables et l’espace blanc supplémentaire.
  • Optionnellement, exclure le texte des annotations, des champs ou des couches cachées.

Soutien en PDF crypté

  • Ouvrez des PDF protégés par mot de passe en fournissant des certificats.
  • Les APIs d’extraction sont automatiquement décryptés pendant le traitement.

Unicode et Encodage

  • Utilisation en UTF-8 ou en codes spécifiés.
  • Il prend en charge des scripts complexes, des langues de droite à gauche et des glyphes Unicode.

Performance et concurrence

  • L’extraction basée sur le courant minimise l’empreinte mémoire.
  • Les API Thread-Safe permettent le traitement parallèle de plusieurs PDF.

Exemple de code : extraire le texte de PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Conseils et meilleures pratiques

  • Choisissez le mode d’extraction en fonction des besoins: cru pour l’indexation, plain pour la lecture.
  • Limitez l’extraction à des rangs ou des régions pour améliorer les performances.
  • Appliquer les filtres tôt pour simplifier la post-traitement.
  • Cache des exemples décryptés lors de la réutilisation de PDF sécurisés.
  • Tune chaînes comptent et les taches de buffer pour les flux de travail à grande échelle.
  • Configurez la licence au start-up pour éviter les alertes d’évaluation.

Questions fréquentes posées

**Quels modes d’extraction sont soutenus ?**Trois : extraction crude, plate et régionale.

**Puis-je extraire du texte des PDF protégés par mot de passe ?**Oui, en fournissant le mot de passe correct, le texte peut être extrait en toute sécurité.

**Supporte-t-il des scripts de droite à gauche et complexes ?**Oui, les scripts Unicode et RTL (par exemple, arabe, hébreu) sont entièrement soutenus.

**Comment ce plugin diffère-t-il de la bibliothèque complète Aspose.PDF ?**Ce plugin est léger et optimisé uniquement pour l’extraction de texte, tandis que Aspose.PDF fournit une API de manipulation PDF complète.

  • Est-ce que l’extraction est sécurisée ?Oui, les opérations sont sans fil au niveau du document pour le traitement parallèle.
 Français