Extrator de Texto Aspose.PDF para .NET
Aspose.PDF Text Extractor per .NET è un plugin focalizzato che consente agli sviluppatori di estrarre testo puro, crudo o piatto dai documenti PDF. rimuove la formattazione e gli elementi grafici, fornendo contenuti tessuti puliti che possono essere indexati, analizzati o trasformati all’interno delle applicazioni .Net.
Iniziare
Installazione e Setup
- Installazione
Aspose.PDF
via NuGet o download assemblies direttamente. - Configurare la licenza misurata prima dell’estrazione (vedere Licenza a consumo ).
Caratteristiche e funzionalità
Extrazione di testo crudo
- Rimuove il flusso di carattere invariato da ogni pagina.
- Conserva lo spazio bianco, le interruzioni di linea e il testo nascosto.
- Utile per l’indicazione o il bulk text dumps.
L’estrazione del testo
- Normalizza lo spazio bianco e le interruzioni di linea per la lettura.
- Il testo adiacente funziona intelligentemente.
- Ignorare font, grafica e posizionamento.
Pagine ed estrazione basata sulla gamma
- Estratto di testo da tutti i documenti o rami di pagina specifici.
- Riduce l’utilizzo della memoria limitando la portata.
L’estrazione basata sulla regione
- Determinare le regioni rettangolari (x, y, larghezza, altezza).
- Estratto di testo da capolavori, piedi o colonne.
- Ideale per layout strutturati.
Filtrare e pulire il testo
- Rimuovere sequenze di controllo, caratteri non stampabili e spazio bianco extra.
- È opzionale escludere il testo da annotazioni, campi o strati nascosti.
Supporto PDF crittografato
- Apri i file PDF protetti da password fornendo credenziali.
- Gli API di estrazione vengono automaticamente decodificati durante il trattamento.
Unicode e codifica
- Scrivi una recensione su UTF-8 o codifica specifica.
- Supporta script complessi, lingue da destra a sinistra e gliff Unicode.
Performance e concorrenza
- L’estrazione basata sul flusso minimizza le impronte di memoria.
- Le API Thread-Safe consentono il trattamento parallelo di più PDF.
Esempio di codice: estrazione del testo dal PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Suggerimenti e migliori pratiche
- Scegli il modo di estrazione in base alle esigenze: crudo per l’indicazione, piatto per la lettura.
- Limitare l’estrazione a rami o regioni per migliorare le prestazioni.
- Applicare i filtri in anticipo per semplificare il post-processing.
- Cache esempi decritturati quando riutilizzo di PDF sicuri.
- Tune thread conta e dimensioni di buffer per flussi di lavoro su larga scala.
- Configurare la licenza in startup per evitare avvertimenti di valutazione.
Domande frequenti
**Quali modi di estrazione sono supportati?**Tre: estrazione cruda, piatta e basata sulla regione.
**Posso estrarre testo da PDF protetti da password?**Sì, fornendo la password corretta, il testo può essere estratto in modo sicuro.
**Supporta scrittura di destra a sinistra e complessa?**Sì, gli script Unicode e RTL (ad esempio, arabo, ebraico) sono pienamente supportati.
**Come questo plugin è diverso dalla libreria completa di Aspose.PDF?**Questo plugin è leggero e ottimizzato solo per l’estrazione di testo, mentre Aspose.PDF fornisce un completo API di manipolazione PDF.
*L’estrazione è thread-safe?Sì, le operazioni sono thread-safe al livello del documento per il trattamento parallelo.