Aspose.PDF Pengekstrak teks untuk .NET

Aspose.PDF Text Extractor untuk .NET adalah plugin berfokus yang membolehkan pemaju untuk mengekstrak teks murni, mentah, atau rata daripada Perkhidmatan PDF Ia memotong format dan elemen grafik, menyediakan kandungan teks yang bersih yang boleh diindeks, dianalisis, atau diubah suai dalam aplikasi .NET.

Memulakan

Pemasangan dan Setup

Install Aspose.PDF melalui NuGet atau muat turun koleksi secara langsung.
Mengesetkan lesen yang diukur sebelum pengekstrakan (lihat Lisensi Pengukuran ).

Ciri-ciri dan fungsi

Pengeluaran teks mentah

Mengeluarkan aliran watak yang tidak berubah dari setiap halaman.
Mengekalkan ruang putih, garis pecah, dan teks tersembunyi.
berguna untuk pengindeksan atau bulk teks dumps.

Ekstraksi teks rata

Menormalkan ruang putih dan garis brek untuk kebolehbacaan.
Menyertai teks berdekatan berjalan dengan bijak.
Mengabaikan fon, grafik, dan kedudukan.

Page dan Range-Based Extraction

Mengekstrak teks daripada keseluruhan dokumen atau julat halaman tertentu.
Mengurangkan penggunaan memori dengan membatasi jangkauan.

Pengeluaran berasaskan rantau

Menentukan kawasan rektangular (x, y, lebar, ketinggian).
Mengekstrak teks daripada kepala, kaki, atau lajur.
Ideal untuk layout yang terstruktur.

Filter dan pembersihan teks

Menghapuskan urutan kawalan, aksara yang tidak boleh dicetak, dan ruang putih tambahan.
Secara opsional, mengecualikan teks daripada nota, medan, atau lapisan tersembunyi.

Sokongan PDF yang disulitkan

Membuka PDF yang dilindungi kata laluan dengan menyediakan pengesahan.
APIs pengekstrakan dikodkan secara automatik semasa pemprosesan.

Unicode dan Encoding

Pengeluaran dalam UTF-8 atau kod yang ditentukan.
Menyokong skrip yang kompleks, bahasa kanan-kiri, dan glyph Unicode.

prestasi dan persaingan

Ekstraksi berasaskan aliran meminimumkan jejak memori.
API yang selamat membolehkan pemprosesan serentak pelbagai PDF.

Contoh kod: Mengekstrak teks daripada PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Tips dan Amalan Terbaik

Pilih mod pengekstrakan berdasarkan keperluan: mentah untuk indeks, rata untuk kebolehbacaan.
Mengehadkan ekstraksi kepada ranting atau rantau untuk meningkatkan prestasi.
Gunakan penapis awal untuk memudahkan pemprosesan selepas.
Cache disulitkan contoh apabila menggunakan semula PDF yang selamat.
Tune thread mengira dan saiz buffer untuk aliran kerja skala besar.
Mengesetkan lesen di startup untuk mengelakkan amaran penilaian.

Soalan-soalan yang kerap ditanya

**Apakah kaedah pengekstrakan yang disokong?**Ketiga: ekstrak mentah, rata, dan berasaskan rantau.

**Bolehkah saya mengekstrak teks daripada PDF yang dilindungi kata laluan?**Ya, dengan memberikan kata laluan yang betul, teks boleh dikeluarkan dengan selamat.

**Adakah ia menyokong skrip kanan-kiri dan kompleks?**Ya, skrip Unicode dan RTL (contohnya, bahasa Arab, Ibrani) disokong sepenuhnya.

**Bagaimana plugin ini berbeza daripada perpustakaan penuh Aspose.PDF?**Plugin ini ringan dan dioptimumkan hanya untuk pengekstrakan teks, manakala Aspose.PDF menyediakan API manipulasi PDF penuh.

**Adakah ekstraksi thread selamat?**Ya, operasi adalah thread-safe pada tahap dokumen untuk pemprosesan serentak.