Aspose.OCR Mengimbas PDF ke teks untuk .NET

Rujukan.OCR disemak Perkhidmatan PDF untuk teks untuk .NET membolehkan pemaju untuk mengekstrak teks daripada fail PDF yang disemak atau menukarnya kepada dokumen yang boleh dicari sepenuhnya. ia membaca mana-mana tataletak dan gaya, dengan tepat menentukan struktur teks dan jadual, dan menyimpan imej asal dalam latar belakang untuk penyimpanan kandungan yang lengkap.

Pemasangan dan Setup

Untuk memulakan, memasang pakej Aspose.OCR ke dalam projek .NET anda melalui NuGet atau daripada fail yang dimuat turun secara tempatan Installation panduan yang.Sebelum memanggil mana-mana kaedah OCR, tetapkan lesen yang diukur seperti yang diterangkan dalam Lisensi Pengukuran Dokumen yang.

Ciri-ciri dan fungsi

Pengekstrakan teks daripada PDF yang disemak

  • Membaca halaman berasaskan bitmap dan menggunakan OCR untuk mengekstrak teks yang boleh dikenalpasti.
  • Menyokong kedua-dua satu halaman dan pelbagai halaman input PDF.
  • Ia mendedahkan fragmen teks bersama-sama dengan kedudukan mereka, atribut fon, dan skor kepercayaan.

OCR Ketepatan dan Penyimpanan Layout

  • Menyediakan enjin OCR canggih untuk memaksimumkan ketepatan pengenalan pada pemindaian berkualiti rendah.
  • Mengekalkan aliran dokumen: perenggan, lajur, dan pecahan baris kekal konsisten dengan tataletak sumber.
  • Menyediakan metadata tataletak terperinci supaya pemaju boleh membina semula atau mengalir semula kandungan.

Jadual Pengenalan dan Pengekstrakan

  • Ia secara automatik mengesan struktur jadual dalam halaman yang disemak.
  • Mengeluarkan kandungan jadual sebagai baris berstruktur dan sel dengan koordinat kotak sempadan.
  • Membolehkan eksport downstream ke CSV, Excel, atau skema tersuai.

Konversi dokumen yang boleh dicari

  • Ia memasukkan teks yang diiktiraf kembali ke dalam PDF sebagai lapisan yang tidak kelihatan, menjadikannya boleh dicari tanpa perubahan penampilan.
  • Mengekalkan imej yang disemak asal untuk mengekalkannya secara visual.

Penyimpanan imej latar belakang

  • Keeps memindai imej intact dalam latar belakang.
  • Tempat-tempat teks yang diiktiraf meletakkan di atas untuk bacaan dan percetakan tanpa wayar.

parameter pengenalan yang boleh disesuaikan

  • Menyesuaikan mod segmen untuk tataletak single/multi-column.
  • Mengesetkan senarai putih/hitam watak untuk pengiktirafan spesifik domain.
  • Resolusi kawalan, DPI, dan penapis pra-proses (deskw, penghapusan bunyi bising, sempadan).

Sokongan Multi-bahasa dan Script

  • Mengiktiraf Latin, Cyrillic, Yunani, Cina, Hindi, dan banyak lagi.
  • Membolehkan pengecasan dinamik pakej bahasa.
  • APIs membolehkan anda menentukan bahasa pengiktirafan utama dan sekunder per halaman.

prestasi dan pengurusan sumber

  • Menyokong pemprosesan PDF pelbagai halaman.
  • Async API membolehkan pemprosesan paralel untuk beban kerja batch.
  • Menyediakan pilihan tuning untuk kegunaan thread dan saiz buffer.

Contoh: Mengekstrak teks daripada PDF yang disemak

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tips dan Amalan Terbaik

  • PDF pra-pemasangan (deskew, despeckle, threshold) untuk ketepatan yang lebih baik.
  • Gunakan analisis tataletak untuk mengesan teks dan jadual sebelum pengekstrakan.
  • Gunakan had kepercayaan untuk mengesahkan kandungan kritikal.
  • Mengehadkan enjin OCR yang bersaing dalam kerja-kerja batch untuk mengelakkan penyelewengan sumber.
  • Pembungkusan bahasa cache dan penggunaan semula instans enjin OCR di pelbagai halaman.

Dengan menggabungkan ketepatan OCR, pengesanan jadual, dan penciptaan PDF yang boleh dicari, Aspose.OCR Scanned PDF to Text for .NET menyediakan penyelesaian lengkap untuk digitalisasi dan pengekstrakan teks daripada PDF-PDF yang disemak sambil mengekalkan tataletak asal.

 Melayu