Extrator de Texto Aspose.PDF para .NET

Aspose.PDF Text Extractor per .NET è un plugin focalizzato che consente agli sviluppatori di estrarre testo puro, crudo o piatto dai documenti PDF. rimuove la formattazione e gli elementi grafici, fornendo contenuti tessuti puliti che possono essere indexati, analizzati o trasformati all’interno delle applicazioni .Net.

Iniziare

Installazione e Setup

  • Installazione Aspose.PDF via NuGet o download assemblies direttamente.
  • Configurare la licenza misurata prima dell’estrazione (vedere Licenza a consumo ).

Caratteristiche e funzionalità

Extrazione di testo crudo

  • Rimuove il flusso di carattere invariato da ogni pagina.
  • Conserva lo spazio bianco, le interruzioni di linea e il testo nascosto.
  • Utile per l’indicazione o il bulk text dumps.

L’estrazione del testo

  • Normalizza lo spazio bianco e le interruzioni di linea per la lettura.
  • Il testo adiacente funziona intelligentemente.
  • Ignorare font, grafica e posizionamento.

Pagine ed estrazione basata sulla gamma

  • Estratto di testo da tutti i documenti o rami di pagina specifici.
  • Riduce l’utilizzo della memoria limitando la portata.

L’estrazione basata sulla regione

  • Determinare le regioni rettangolari (x, y, larghezza, altezza).
  • Estratto di testo da capolavori, piedi o colonne.
  • Ideale per layout strutturati.

Filtrare e pulire il testo

  • Rimuovere sequenze di controllo, caratteri non stampabili e spazio bianco extra.
  • È opzionale escludere il testo da annotazioni, campi o strati nascosti.

Supporto PDF crittografato

  • Apri i file PDF protetti da password fornendo credenziali.
  • Gli API di estrazione vengono automaticamente decodificati durante il trattamento.

Unicode e codifica

  • Scrivi una recensione su UTF-8 o codifica specifica.
  • Supporta script complessi, lingue da destra a sinistra e gliff Unicode.

Performance e concorrenza

  • L’estrazione basata sul flusso minimizza le impronte di memoria.
  • Le API Thread-Safe consentono il trattamento parallelo di più PDF.

Esempio di codice: estrazione del testo dal PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Suggerimenti e migliori pratiche

  • Scegli il modo di estrazione in base alle esigenze: crudo per l’indicazione, piatto per la lettura.
  • Limitare l’estrazione a rami o regioni per migliorare le prestazioni.
  • Applicare i filtri in anticipo per semplificare il post-processing.
  • Cache esempi decritturati quando riutilizzo di PDF sicuri.
  • Tune thread conta e dimensioni di buffer per flussi di lavoro su larga scala.
  • Configurare la licenza in startup per evitare avvertimenti di valutazione.

Domande frequenti

**Quali modi di estrazione sono supportati?**Tre: estrazione cruda, piatta e basata sulla regione.

**Posso estrarre testo da PDF protetti da password?**Sì, fornendo la password corretta, il testo può essere estratto in modo sicuro.

**Supporta scrittura di destra a sinistra e complessa?**Sì, gli script Unicode e RTL (ad esempio, arabo, ebraico) sono pienamente supportati.

**Come questo plugin è diverso dalla libreria completa di Aspose.PDF?**Questo plugin è leggero e ottimizzato solo per l’estrazione di testo, mentre Aspose.PDF fornisce un completo API di manipolazione PDF.

*L’estrazione è thread-safe?Sì, le operazioni sono thread-safe al livello del documento per il trattamento parallelo.

 Italiano