Extrator de Texto Aspose.PDF para .NET

Aspose.PDF Text Extractor per .NET è un plugin focalizzato che consente agli sviluppatori di estrarre testo puro, crudo o piatto da Il PDF Rimuove il formato e gli elementi grafici, fornendo contenuti tessuti puliti che possono essere indexati, analizzati o trasformati all’interno delle applicazioni .NET.

Iniziare

Installazione e Setup

Installazione Aspose.PDF via NuGet o download assemblies direttamente.
Configurare la licenza misurata prima dell’estrazione (vedere Licenza a consumo ).

Caratteristiche e funzionalità

Extrazione di testo crudo

Rimuove il flusso di carattere invariato da ogni pagina.
Conserva lo spazio bianco, le interruzioni di linea e il testo nascosto.
Utile per l’indicazione o il bulk text dumps.

L’estrazione del testo

Normalizza lo spazio bianco e le interruzioni di linea per la lettura.
Il testo adiacente funziona intelligentemente.
Ignorare font, grafica e posizionamento.

Pagine ed estrazione basata sulla gamma

Estratto di testo da tutti i documenti o rami di pagina specifici.
Riduce l’utilizzo della memoria limitando la portata.

L’estrazione basata sulla regione

Determinare le regioni rettangolari (x, y, larghezza, altezza).
Estratto di testo da capolavori, piedi o colonne.
Ideale per layout strutturati.

Filtrare e pulire il testo

Rimuovere sequenze di controllo, caratteri non stampabili e spazio bianco extra.
È opzionale escludere il testo da annotazioni, campi o strati nascosti.

Supporto PDF crittografato

Apri i file PDF protetti da password fornendo credenziali.
Gli API di estrazione vengono automaticamente decodificati durante il trattamento.

Unicode e codifica

Scrivi una recensione su UTF-8 o codifica specifica.
Supporta script complessi, lingue da destra a sinistra e gliff Unicode.

Performance e concorrenza

L’estrazione basata sul flusso minimizza le impronte di memoria.
Le API Thread-Safe consentono il trattamento parallelo di più PDF.

Esempio di codice: estrazione del testo dal PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Suggerimenti e migliori pratiche

Scegli il modo di estrazione in base alle esigenze: crudo per l’indicazione, piatto per la lettura.
Limitare l’estrazione a rami o regioni per migliorare le prestazioni.
Applicare i filtri in anticipo per semplificare il post-processing.
Cache esempi decritturati quando riutilizzo di PDF sicuri.
Tune thread conta e dimensioni di buffer per flussi di lavoro su larga scala.
Configurare la licenza in startup per evitare avvertimenti di valutazione.

Domande frequenti

**Quali modi di estrazione sono supportati?**Tre: estrazione cruda, piatta e basata sulla regione.

**Posso estrarre testo da PDF protetti da password?**Sì, fornendo la password corretta, il testo può essere estratto in modo sicuro.

**Supporta scrittura di destra a sinistra e complessa?**Sì, gli script Unicode e RTL (ad esempio, arabo, ebraico) sono pienamente supportati.

**Come questo plugin è diverso dalla libreria completa di Aspose.PDF?**Questo plugin è leggero e ottimizzato solo per l’estrazione di testo, mentre Aspose.PDF fornisce un completo API di manipolazione PDF.

**L’estrazione è thread-safe?**Sì, le operazioni sono thread-safe al livello del documento per il trattamento parallelo.