Aspose.OCR แปลง PDF ที่สแกนเป็นข้อความสำหรับ .NET

Aspose.OCR สแกน คู่มือ PDF to Text for .NET ช่วยให้ผู้พัฒนาสามารถ استخراجข้อความจากไฟล์ PDF ที่สแกนหรือแปลงพวกเขาเป็นเอกสารที่สามารถค้นหาได้ทั้งหมด มันอ่านการจัดระเบียบและรูปแบบใด ๆ การกําหนดโครงสร้างของข้อความและตารางอย่างแม่นยําและรักษาภาพเดิมในพื้นหลังเพื่อการรักษาเนื้อหาที่สมบูรณ.

การติดตั้งและการตั้งค่า

ในการเริ่มต้นติดตั้งแพคเกจ Aspose.OCR ในโครงการ .NET ของคุณผ่าน NuGet หรือจากไฟล์ที่ดาวน์โหลดในท้องถิ่น สําหรับขั้นตอนที่รายละเอียดให้ด การติดตั้ง คู่มือ.ก่อนที่จะเรียกวิธีการ OCR ใด ๆ ให้กําหนดใบอนุญาตที่วัดตามที่อธิบายไว้ใน การให้ใบอนุญาตที่มีการวัด การทําเอกสาร.

คุณสมบัติและฟังก์ชั่น

การสกัดข้อความจาก PDFs ที่สแกน

  • อ่านหน้าบนพื้นฐาน bitmap และใช้ OCR เพื่อสกัดข้อความที่สามารถรับรู้ได.
  • สนับสนุนทั้งรายหน้าเดียวและหลายหน้าป้อน PDF.
  • แสดงชิ้นส่วนข้อความพร้อมกับตําแหน่งตัวอักษรและคะแนนความไว้วางใจ.

การรักษาความแม่นยํา OCR และ Layout

  • ส่งเครื่องยนต์ OCR แบบขั้นสูงเพื่อเพิ่มความแม่นยําในการรับรู้ในการสแกนที่มีคุณภาพต่ํา.
  • รักษาการไหลของเอกสาร: paragraphs, columns, and line breaks remain consistent with the source layout.
  • ให้ข้อมูลการจัดระเบียบรายละเอียดเพื่อให้ผู้พัฒนาสามารถสร้างใหม่หรือไหลใหม่เนื้อหา.

ตารางการรับรู้และการสกัด

  • การตรวจจับโครงสร้างตารางภายในหน้าสแกนโดยอัตโนมัต.
  • ผลลัพธ์เนื้อหาตารางเป็นเส้นที่โครงสร้างและเซลล์ที่มีแนวตั้งกล่อง.
  • ช่วยให้การส่งออก downstream ไปยัง CSV, Excel หรือแผนที่กําหนดเอง.

การแปลงเอกสารที่สามารถค้นหาได

  • เข้าร่วมข้อความที่ได้รับการยอมรับลงในไฟล์ PDF เป็นชั้นที่ไม่สามารถมองเห็นได้ทําให้สามารถค้นหาได้โดยไม่ต้องเปลี่ยนรูปร่าง.
  • รักษาภาพสแกนเดิมเพื่อรักษาความซื่อสัตย์ภาพ.

การรักษาภาพพื้นหลัง

  • Keeps scan images intact ในพื้นหลัง.
  • ตําแหน่งข้อความที่ได้รับการยอมรับจะถูกวางไว้บนด้านบนสําหรับการอ่านและพิมพ์แบบไร้รอยต่อ.

พารามิเตอร์การรับรู้ที่กําหนดเอง

  • การปรับโหมดการแบ่งแบบเดียว / มัลติคอลัมน.
  • การตั้งค่าตัวอักษรแถบสีขาว / บล็อกสีดําเพื่อการรับรู้เฉพาะโดเมน.
  • โซลูชั่นควบคุม DPI และกรองการประมวลผลก่อน (การลบเสียงรบกวนการขัดขวาง).

สนับสนุนหลายภาษาและ Script

  • เรียนรู้ภาษาลาติน, ซิริลิ, กรีก, จีน, อินเดีย, และอื่น ๆ.
  • ช่วยให้บรรจุภาษาแบบไดนามิก.
  • APIs ช่วยให้คุณระบุภาษาการรับรู้หลักและ secondary ต่อหน้า.

ประสิทธิภาพและการจัดการทรัพยากร

  • รองรับการประมวลผล PDF แบบหลายหน้า.
  • APIs Async ช่วยให้การประมวลผลแบบด้ายสําหรับการโหลดงานชุด.
  • มีตัวเลือกการท่อสําหรับการใช้งาน thread และขนาด buffer.

ตัวอย่าง: การสกัดข้อความจากไฟล์ PDF ที่สแกน

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

เคล็ดลับและการปฏิบัติที่ดีที่สุด

  • การประมวลผลก่อน PDFs (deskew, despeckle, threshold) สําหรับความแม่นยําที่ดีขึ้น.
  • ใช้วิเคราะห์การจัดตั้งเพื่อตรวจจับข้อความและตารางก่อนการสกัด.
  • ใช้ข้อ จํากัด ความน่าเชื่อถือเพื่อยืนยันเนื้อหาที่สําคัญ.
  • จํากัด มอเตอร์ OCR ที่แข่งขันในงานชุดเพื่อป้องกันการระงับทรัพยากร.
  • แพคเกจภาษา cache และใช้ใหม่ตัวอย่าง OCR มอเตอร์ผ่านหลายหน้า.

โดยการรวมความแม่นยําของ OCR, การตรวจจับตารางและการสร้าง PDF ที่สามารถค้นหาได้ Aspose.OCR Scanned PDF to Text for .NET ให้โซลูชันที่สมบูรณ์แบบสําหรับการดิจิตอลและสกัดข้อความจาก PDFs ที่สแกนในขณะที่รักษาการจัดตั้งเดิม.

 แบบไทย