Aspose.OCR Mengonversi PDF yang discan menjadi Teks untuk .NET
Keterangan.OCR Scanned PDF to Text for .NET memungkinkan pengembang untuk mengekstrak teks dari file PDF yang dipindai atau mengubahnya menjadi dokumen yang dapat dicari sepenuhnya. ia membaca setiap tataletak dan gaya, dengan tepat menentukan struktur teks dan tabel, dan menyimpan gambar asli di latar belakang untuk penyimpanan konten lengkap.
Instalasi dan Setup
Untuk memulai, instal paket Aspose.OCR ke dalam proyek .NET Anda melalui NuGet atau dari file yang diunduh secara lokal Instalasi Panduan yang.Sebelum memanggil metode OCR, mengkonfigurasi lisensi yang diukur seperti yang dijelaskan dalam Lisensi Terukur dan dokumentasi.
Fitur dan Fungsi
Mengekstrak teks dari PDF yang dipindai
- Membaca halaman berbasis bitmap dan menerapkan OCR untuk mengekstrak teks yang dapat dikenali.
- Menyokong input PDF satu halaman dan berbilang halaman.
- Mengeksposkan fragmen teks bersama dengan posisi mereka, atribut font, dan skor kepercayaan.
OCR Ketepatan dan Pemeliharaan Layout
- Pengiriman mesin OCR canggih untuk memaksimalkan ketepatan pengenalan pada pemindaian berkualitas rendah.
- Mengekalkan aliran dokumen: paragraf, kolom, dan garis breaks tetap konsisten dengan tataletak sumber.
- Menyediakan metadata tataletak terperinci sehingga pengembang dapat memodifikasi atau mengalir kembali konten.
Pengenalan dan ekstraksi tabel
- Secara otomatis mengidentifikasi struktur tabel di dalam halaman yang dipindai.
- Mengeluarkan konten tabel sebagai baris terstruktur dan sel dengan koordinat kotak pembatasan.
- Memungkinkan ekspor downstream ke CSV, Excel, atau skema tersuai.
Konversi dokumen yang dapat dicari
- Mengintegrasikan teks yang dikenal kembali ke PDF sebagai lapisan yang tidak terlihat, membuatnya dapat dicari tanpa mengubah penampilan.
- Mengekalkan gambar asli yang dipindai untuk menjaga kesetiaan visual.
Memelihara gambar latar belakang
- Keeps memindai gambar tak terbatas di latar belakang.
- Tempat-tempat teks yang diakui diletakkan di atas untuk bacaan dan cetak tanpa batas.
Parameter pengenalan yang dapat disesuaikan
- Menyesuaikan mode segmen untuk layout single/multi-column.
- Konfigurasi karakter whitelist/blacklist untuk pengenalan spesifik domain.
- Resolusi kontrol, DPI, dan preprocessing filter (deskew, penghapusan kebisingan, ambang).
Multi-bahasa dan Script Support
- Mengidentifikasi Latin, Cyrillic, Yunani, Cina, Hindi, dan banyak lagi.
- Memungkinkan pengisian paket bahasa yang dinamis.
- APIs memungkinkan Anda menentukan bahasa pengenalan primer dan sekunder per halaman.
Performance dan Resource Management
- Mendukung pemrosesan PDF multi-page.
- Async APIs memungkinkan pemrosesan paralel untuk beban kerja batch.
- Menyediakan opsi tuning untuk penggunaan thread dan ukuran buffer.
Contoh: Mengekstrak teks dari PDF yang dipindai
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Tips dan Praktik Terbaik
- Preprocess PDF (deskew, despeckle, threshold) untuk ketepatan yang lebih baik.
- Gunakan analisis layout untuk mengidentifikasi teks dan tabel sebelum ekstraksi.
- Gunakan batas kepercayaan untuk validasi konten kritis.
- Mengehadkan mesin OCR yang bersaing dalam pekerjaan batch untuk mencegah kontemporan sumber daya.
- Pembungkusan bahasa cache dan penggunaan ulang instans mesin OCR di berbagai halaman.
Dengan menggabungkan ketepatan OCR, deteksi tabel, dan pembuatan PDF yang dapat dicari, Aspose.OCR Scanned PDF to Text for .NET menyediakan solusi lengkap untuk digitalisasi dan pengekstrakan teks dari PDF-PDF yang dipancarkan sambil mempertahankan tataletak asli.