Aspose.PDF Pengekstrak teks untuk .NET
Aspose.PDF Text Extractor untuk .NET adalah plugin berfokus yang membolehkan pemaju untuk mengekstrak teks tulen, mentah, atau rata daripada dokumen PDF. Ia memotong format dan unsur-unsur grafik, menyediakan kandungan teks yang bersih yang boleh diindeks, dianalisis atau diubah suai dalam aplikasi .Net.
Memulakan
Pemasangan dan Setup
- Install
Aspose.PDF
melalui NuGet atau muat turun koleksi secara langsung. - Mengesetkan lesen yang diukur sebelum pengekstrakan (lihat Lisensi Pengukuran ).
Ciri-ciri dan fungsi
Pengeluaran teks mentah
- Mengeluarkan aliran watak yang tidak berubah dari setiap halaman.
- Mengekalkan ruang putih, garis pecah, dan teks tersembunyi.
- berguna untuk pengindeksan atau bulk teks dumps.
Ekstraksi teks rata
- Menormalkan ruang putih dan garis brek untuk kebolehbacaan.
- Menyertai teks berdekatan berjalan dengan bijak.
- Mengabaikan fon, grafik, dan kedudukan.
Page dan Range-Based Extraction
- Mengekstrak teks daripada keseluruhan dokumen atau julat halaman tertentu.
- Mengurangkan penggunaan memori dengan membatasi jangkauan.
Pengeluaran berasaskan rantau
- Menentukan kawasan rektangular (x, y, lebar, ketinggian).
- Mengekstrak teks daripada kepala, kaki, atau lajur.
- Ideal untuk layout yang terstruktur.
Filter dan pembersihan teks
- Menghapuskan urutan kawalan, aksara yang tidak boleh dicetak, dan ruang putih tambahan.
- Secara opsional, mengecualikan teks daripada nota, medan, atau lapisan tersembunyi.
Sokongan PDF yang disulitkan
- Membuka PDF yang dilindungi kata laluan dengan menyediakan pengesahan.
- APIs pengekstrakan dikodkan secara automatik semasa pemprosesan.
Unicode dan Encoding
- Pengeluaran dalam UTF-8 atau kod yang ditentukan.
- Menyokong skrip yang kompleks, bahasa kanan-kiri, dan glyph Unicode.
prestasi dan persaingan
- Ekstraksi berasaskan aliran meminimumkan jejak memori.
- API yang selamat membolehkan pemprosesan serentak pelbagai PDF.
Contoh kod: Mengekstrak teks daripada PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Tips dan Amalan Terbaik
- Pilih mod pengekstrakan berdasarkan keperluan: mentah untuk indeks, rata untuk kebolehbacaan.
- Mengehadkan ekstraksi kepada ranting atau rantau untuk meningkatkan prestasi.
- Gunakan penapis awal untuk memudahkan pemprosesan selepas.
- Cache disulitkan contoh apabila menggunakan semula PDF yang selamat.
- Tune thread mengira dan saiz buffer untuk aliran kerja skala besar.
- Mengesetkan lesen di startup untuk mengelakkan amaran penilaian.
Soalan-soalan yang kerap ditanya
** Apakah kaedah pengekstrakan yang disokong?**Ketiga: ekstrak mentah, rata, dan berasaskan rantau.
** Bolehkah saya mengekstrak teks daripada PDF yang dilindungi kata laluan?**Ya, dengan memberikan kata laluan yang betul, teks boleh dikeluarkan dengan selamat.
**Adakah ia menyokong skrip kanan-kiri dan kompleks?**Ya, skrip Unicode dan RTL (contohnya, bahasa Arab, Ibrani) disokong sepenuhnya.
**Bagaimana plugin ini berbeza daripada perpustakaan penuh Aspose.PDF?**Plugin ini ringan dan dioptimumkan hanya untuk pengekstrakan teks, manakala Aspose.PDF menyediakan API manipulasi PDF penuh.
** Adakah ekstraksi thread selamat?**Ya, operasi adalah thread-safe pada tahap dokumen untuk pemprosesan serentak.