Aspose.OCR กับภาพสแกนเป็นข้อความสำหรับ .NET
Aspose.OCR Scanned Image to Text for .NET ช่วยให้ผู้พัฒนาสามารถ استخراجข้อความจากภาพที่มีเนื้อหาที่โครงสร้างจํานวนมาก - ข้อตกลงการสแกนหน้าหนังสือบทความจดหมายและอื่น ๆ ในขณะที่รักษาความซื่อสัตย์ในการจัดระเบียบ (รวมถึงการไหลหลายคอลัมน์) สร้างขึ้นบนเครื่องยนต์ที่เชื่อถือได้ Asposa.ocR ปลั๊กอินนี้มุ่งเน้นเพียงแค่ในการแปลงเอกสารตามภาพเป็นข้อความจัดการรูปแบบการเข้าที่แตกต่างกันและการจัดวางที่ซับซ้อนด้วยความแม่นยําสูง.
การติดตั้งและการตั้งค่า
เพื่อเพิ่ม Aspose.OCR Scanned Image to Text for .NET ไปยังโครงการของคุณติดตั้งแพคเกจ NuGet และตั้งค่าใบอนุญาตวัด:
- ติดตั้งผ่าน NuGet (ดูขั้นตอนรายละเอียด): การติดตั้ง
- เปิดใช้งานใบอนุญาตวัดก่อนการใช้งานครั้งแรก: การให้ใบอนุญาตที่มีการวัด ไม่จําเป็นต้องมีการเสถียรภาพอื่น ๆ หลังจากติดตั้งเพียงแค่ระบุ Aspose.OCR nameespace ในไฟล์รหัสของคุณ.
คุณสมบัติและฟังก์ชั่น
การสกัดข้อความที่แม่นยํา
มอเตอร์ OCR หลักใช้อัลกอริทึมการรับรู้ขั้นสูงสําหรับเอกสารที่สแกน มันวิเคราะห์พิกเซลระบุรูปแบบของตัวละครกับรูปแบบที่ได้รับการฝึกอบรมและผลิตการส่งออกข้อความ Unicode ความแม่นยําได้รับการปรับปรุงสําหรับการส่งเข้าที่มีความละเอียดสูงและการสํารวจที่สะอาด.
การวิเคราะห์การจัดตั้งเอกสารแบบโครงสร้าง
นอกเหนือจากการถ่ายภาพข้อความตามเส้นปลั๊กอินพาร์เซสองค์ประกอบทางโครงสร้าง - พารามิเตอร์หัวข้อขาและตาราง - โดยการแบ่งปันภูมิภาคของภาพ บล็อกที่ได้รับการยอมรับรักษาความสัมพันธ์พื้นที่ช่วยให้ผู้พัฒนาสามารถสร้างใหม่กระแสเอกสารหรือใช้การประมวลผลหลังที่กําหนดเอง.
การยอมรับ Layout Multi-Column
หน้าที่สแกนมักจะใช้รูปแบบสองหรือสามคอลัมน์ มอเตอร์ OCR อัตโนมัติตรวจจับข้อ จํากัด คอลูมิเนียมอ่านพวกเขาในคําสั่งตามธรรมชาติและยึดส่วนข้อความกลับไปสู่กระแสการส่งออกเดียวที่สั่งซื้ออย่างถูกต้อง.
การประมวลผลและปรับปรุงภาพ
ขั้นตอนการประมวลผลก่อนแบบบูรณาการช่วยเพิ่มความสําเร็จในการรับรู้ในการสแกนที่ท้าทาย:
- การตรวจจับ Skew และการลบอัตโนมัต
- Binarization (ข้อ จํากัด ที่ปรับได)
- ฟิล์มลดเสียง (เกลือและกระเป๋าสตางค)
- การปรับความต้านทานและความสว่าง ขั้นตอนเหล่านี้สามารถตรวจสอบหรือกําหนดเองเพื่อตอบสนองสถานการณ์คุณภาพภาพที่เฉพาะเจาะจง.
ภาษาและตัวละคร Set สนับสนุน
แม้จะมุ่งเน้นไปที่ข้อความภาษาอังกฤษโครงสร้างเครื่องยนต์รองรับหลายภาษาและชุดตัวอักษรที่เกี่ยวข้องกับเนื้อหาทางกฎหมายวิทยาศาสตร์หรือทางเทคนิคที่สแกน แพคเกจภาษาสามารถโหลดได้เพื่อปรับปรุงการรับรู้ของสคริปต์ที่ไม่ใช่ลาตินหรือสัญลักษณ์เฉพาะ.
การตั้งค่าการรับรู้แบบกําหนดเอง
ตัวเลือก Fine-tuning ช่วยให้ผู้พัฒนาสมดุลความเร็วต่อความแม่นยํา:
- ข้อ จํากัด ความไว้วางใจสําหรับตัวละครและการยอมรับคํา
- โหมดการแบ่งปันหน้า (บล็อกเดียว, อัตโนมัติ, หมายเลขที่แตกต่างกัน)
- พารามิเตอร์โซลูชันเพื่อสแกนภาพที่มา
- คําอธิบายที่กําหนดโดยผู้ใช้เพื่อเพิ่มการรับรู้ของข้อกําหนดเฉพาะโดเมน
รูปแบบการส่งออกและการจัดการข้อมูล
ข้อความที่สกัดสามารถนํามาใช้เป็นเส้น Unicode หรือส่งไปยังไฟล์ข้อความ สําหรับสถานการณ์ขั้นสูง metadata การจัดตั้ง (กล่องข้อ จํากัด หมายเลขความไว้วางใจ) จะถูกแสดงเพื่อให้แอพพลิเคชันสามารถเน้นหรือตรวจสอบภูมิภาคที่ได้รับการยอมรับ.
ประสิทธิภาพและการจัดการทรัพยากร
ออกแบบมาสําหรับการประมวลผลชุดภาพขนาดใหญ่ปลั๊กอิน:
- minimizes memory overhead โดย streaming pages
- นําเสนอ APIs การรับรู้แบบไม่ซิงโครนเพื่อให้โหลดการทํางานร่วมกัน
- แสดงพารามิเตอร์การสั่นสะเทือนสําหรับคํานวณ thread และขนาด buffer
Thread ความปลอดภัยและสกุลเงิน
หลักสูตรการรับรู้ทั้งหมดมีความปลอดภัยต่อสายซึ่งช่วยให้งาน OCR ในเวลาเดียวกันผ่านสายหลายสายหรือการเรียกร้องที่ไม่ซับซ้อนโดยไม่ต้องล็อคความขัดแย้ง สิ่งนี้เหมาะสําหรับการจัดตั้งเซิร์ฟเวอร์ด้านข้างหรือบริการที่มีประสิทธิภาพสูง.
การสนับสนุนใบอนุญาตมาตรฐาน
Aspose.OCR Scanned Image to Text for .NET ใช้รูปแบบใบอนุญาตที่วัดเดียวกันกับผลิตภัณฑ์ aspose Call the Metered.InitiateLicensing method at application startup to bind consumption to your subscription meter.
เคล็ดลับและการปฏิบัติที่ดีที่สุด
- เริ่มต้นด้วยการสแกนที่มีคุณภาพสูง (300 DPI หรือมากกว่า) เพื่อเพิ่มความแม่นยําสูงสุด.
- การประมวลผลภาพก่อนที่จะกําจัดเสียงรบกวนและสกรูที่ถูกต้องก่อนการให้อาหารใน OCR.
- ใช้การตั้งค่าการแบ่งปันหน้าที่ตรงกับความซับซ้อนของ layout ของคุณ.
- การโหลดเฉพาะแพคเกจภาษาที่จําเป็น; รูปแบบต่างชาติสามารถรับรู้ช้า.
- ช่วยให้การรับรู้แบบไม่ซิงโครเมื่อประมวลผลชิ้นส่วนขนาดใหญ่เพื่อให้ UI ที่ตอบสนอง.
- ตรวจสอบคะแนนความไว้วางใจและใช้การยืนยันตามข้อ จํากัด หรือการตรวจสอบคู่มือสําหรับเอกสารที่สําคัญ.
- มีวัตถุมอเตอร์ OCR ได้อย่างรวดเร็วเพื่อปล่อยทรัพยากรที่ไม่ได้จัดการ.
- การติดตามและการใช้เครื่องวัดบันทึกเพื่อหลีกเลี่ยงการละเมิดข้อกําหนดที่ไม่คาดหวัง.