Aspose.OCR แปลง PDF ที่สแกนเป็นข้อความสำหรับ .NET
Aspose.OCR สแกน คู่มือ PDF to Text for .NET ช่วยให้ผู้พัฒนาสามารถ استخراجข้อความจากไฟล์ PDF ที่สแกนหรือแปลงพวกเขาเป็นเอกสารที่สามารถค้นหาได้ทั้งหมด มันอ่านการจัดระเบียบและรูปแบบใด ๆ การกําหนดโครงสร้างของข้อความและตารางอย่างแม่นยําและรักษาภาพเดิมในพื้นหลังเพื่อการรักษาเนื้อหาที่สมบูรณ.
การติดตั้งและการตั้งค่า
ในการเริ่มต้นติดตั้งแพคเกจ Aspose.OCR ในโครงการ .NET ของคุณผ่าน NuGet หรือจากไฟล์ที่ดาวน์โหลดในท้องถิ่น สําหรับขั้นตอนที่รายละเอียดให้ด การติดตั้ง คู่มือ.ก่อนที่จะเรียกวิธีการ OCR ใด ๆ ให้กําหนดใบอนุญาตที่วัดตามที่อธิบายไว้ใน การให้ใบอนุญาตที่มีการวัด การทําเอกสาร.
คุณสมบัติและฟังก์ชั่น
การสกัดข้อความจาก PDFs ที่สแกน
- อ่านหน้าบนพื้นฐาน bitmap และใช้ OCR เพื่อสกัดข้อความที่สามารถรับรู้ได.
- สนับสนุนทั้งรายหน้าเดียวและหลายหน้าป้อน PDF.
- แสดงชิ้นส่วนข้อความพร้อมกับตําแหน่งตัวอักษรและคะแนนความไว้วางใจ.
การรักษาความแม่นยํา OCR และ Layout
- ส่งเครื่องยนต์ OCR แบบขั้นสูงเพื่อเพิ่มความแม่นยําในการรับรู้ในการสแกนที่มีคุณภาพต่ํา.
- รักษาการไหลของเอกสาร: paragraphs, columns, and line breaks remain consistent with the source layout.
- ให้ข้อมูลการจัดระเบียบรายละเอียดเพื่อให้ผู้พัฒนาสามารถสร้างใหม่หรือไหลใหม่เนื้อหา.
ตารางการรับรู้และการสกัด
- การตรวจจับโครงสร้างตารางภายในหน้าสแกนโดยอัตโนมัต.
- ผลลัพธ์เนื้อหาตารางเป็นเส้นที่โครงสร้างและเซลล์ที่มีแนวตั้งกล่อง.
- ช่วยให้การส่งออก downstream ไปยัง CSV, Excel หรือแผนที่กําหนดเอง.
การแปลงเอกสารที่สามารถค้นหาได
- เข้าร่วมข้อความที่ได้รับการยอมรับลงในไฟล์ PDF เป็นชั้นที่ไม่สามารถมองเห็นได้ทําให้สามารถค้นหาได้โดยไม่ต้องเปลี่ยนรูปร่าง.
- รักษาภาพสแกนเดิมเพื่อรักษาความซื่อสัตย์ภาพ.
การรักษาภาพพื้นหลัง
- Keeps scan images intact ในพื้นหลัง.
- ตําแหน่งข้อความที่ได้รับการยอมรับจะถูกวางไว้บนด้านบนสําหรับการอ่านและพิมพ์แบบไร้รอยต่อ.
พารามิเตอร์การรับรู้ที่กําหนดเอง
- การปรับโหมดการแบ่งแบบเดียว / มัลติคอลัมน.
- การตั้งค่าตัวอักษรแถบสีขาว / บล็อกสีดําเพื่อการรับรู้เฉพาะโดเมน.
- โซลูชั่นควบคุม DPI และกรองการประมวลผลก่อน (การลบเสียงรบกวนการขัดขวาง).
สนับสนุนหลายภาษาและ Script
- เรียนรู้ภาษาลาติน, ซิริลิ, กรีก, จีน, อินเดีย, และอื่น ๆ.
- ช่วยให้บรรจุภาษาแบบไดนามิก.
- APIs ช่วยให้คุณระบุภาษาการรับรู้หลักและ secondary ต่อหน้า.
ประสิทธิภาพและการจัดการทรัพยากร
- รองรับการประมวลผล PDF แบบหลายหน้า.
- APIs Async ช่วยให้การประมวลผลแบบด้ายสําหรับการโหลดงานชุด.
- มีตัวเลือกการท่อสําหรับการใช้งาน thread และขนาด buffer.
ตัวอย่าง: การสกัดข้อความจากไฟล์ PDF ที่สแกน
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
เคล็ดลับและการปฏิบัติที่ดีที่สุด
- การประมวลผลก่อน PDFs (deskew, despeckle, threshold) สําหรับความแม่นยําที่ดีขึ้น.
- ใช้วิเคราะห์การจัดตั้งเพื่อตรวจจับข้อความและตารางก่อนการสกัด.
- ใช้ข้อ จํากัด ความน่าเชื่อถือเพื่อยืนยันเนื้อหาที่สําคัญ.
- จํากัด มอเตอร์ OCR ที่แข่งขันในงานชุดเพื่อป้องกันการระงับทรัพยากร.
- แพคเกจภาษา cache และใช้ใหม่ตัวอย่าง OCR มอเตอร์ผ่านหลายหน้า.
โดยการรวมความแม่นยําของ OCR, การตรวจจับตารางและการสร้าง PDF ที่สามารถค้นหาได้ Aspose.OCR Scanned PDF to Text for .NET ให้โซลูชันที่สมบูรณ์แบบสําหรับการดิจิตอลและสกัดข้อความจาก PDFs ที่สแกนในขณะที่รักษาการจัดตั้งเดิม.