Pengekstrak Teks Aspose.PDF untuk .NET
Aspose.PDF Text Extractor untuk .NET adalah plugin fokus yang memungkinkan pengembang untuk mengekstrak teks murni, mentah, atau rata dari dokumen PDF. Ini memotong format dan elemen grafis, memberikan konten tekstur bersih yang dapat diindeks, dianalisis atau diubah dalam aplikasi .Net.
Memulai
Instalasi dan Setup
- Instalasi
Aspose.PDF
melalui NuGet atau download assemblies langsung. - Mengkonfigurasi lisensi yang diukur sebelum ekstraksi (lihat Lisensi Terukur ).
Fitur dan Fungsi
Ekstraksi teks mentah
- Mengeluarkan arus karakter yang tidak berubah dari setiap halaman.
- Menyimpan ruang putih, garis pecah, dan teks tersembunyi.
- berguna untuk mengindeks atau bulk text dumps.
Ekstraksi teks rata
- Normalisasi ruang putih dan garis breaks untuk pembacaan.
- Menyertai teks yang berdekatan berjalan dengan bijak.
- Mengabaikan font, grafis, dan penempatan.
Page dan Range-Based Extraction
- Mengekstrak teks dari seluruh dokumen atau rangkaian halaman tertentu.
- Mengurangi penggunaan memori dengan membatasi jangkauan.
Ekstraksi berbasis wilayah
- Tentukan daerah rektangular (x, y, lebar, ketinggian).
- Mengekstrak teks dari kepala, kaki, atau kolom.
- Ideal untuk layout terstruktur.
Filter dan pembersihan teks
- Menghapus urutan kontrol, karakter yang tidak dapat dicetak, dan ruang putih tambahan.
- Secara optional, mengecualikan teks dari catatan, medan, atau lapisan tersembunyi.
Dukungan PDF Terkripsi
- Membuka PDF yang dilindungi kata sandi dengan menyediakan pengesahan.
- APIs ekstraksi secara otomatis dikodifikasi selama pemrosesan.
Unicode dan Encoding
- Pengeluaran dalam UTF-8 atau kode yang ditentukan.
- Menyokong skrip yang kompleks, bahasa kanan ke kiri, dan Unicode glyphs.
Performa dan Konversi
- Ekstraksi berbasis arus meminimalisir jejak memori.
- Thread-safe APIs memungkinkan pemrosesan paralel dari beberapa PDF.
Contoh kode: Mengekstrak teks dari PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Tips dan Praktik Terbaik
- Pilih mode ekstraksi berdasarkan kebutuhan: mentah untuk indeks, rata untuk pembacaan.
- Mengurangi ekstraksi ke ranting atau wilayah untuk meningkatkan kinerja.
- Gunakan filter lebih awal untuk memudahkan post-processing.
- Cache decrypted instans ketika menggunakan ulang PDF yang aman.
- Tune thread menghitung dan ukuran buffer untuk aliran kerja berskala besar.
- Konfigurasi lisensi di startup untuk menghindari peringatan evaluasi.
Pertanyaan yang sering ditanya
**Mode ekstraksi apa yang disokong?**Tiga: ekstraksi mentah, rata, dan berbasis wilayah.
**Bolehkah saya mengekstrak teks dari PDF yang dilindungi kata sandi?**Ya, dengan memberikan kata sandi yang benar, teks dapat dikeluarkan dengan aman.
**Adakah ia mendukung skrip kanan-kanan dan kompleks?**Ya, skrip Unicode dan RTL (misalnya, bahasa Arab, Ibrani) disokong sepenuhnya.
**Bagaimana plugin ini berbeda dari perpustakaan penuh Aspose.PDF?**Plugin ini ringan dan dioptimalkan hanya untuk ekstraksi teks, sementara Aspose.PDF menyediakan API manipulasi PDF penuh.
**Apakah ekstraksi thread aman?**Ya, operasi adalah thread-safe di level dokumen untuk pemrosesan paralel.