Aspose.OCR .NET के लिए छवि को पाठ में स्कैन करता ह
Aspose.OCR Scanned Image to Text for .NET डिजाइनरों को बड़ी मात्रा में संरचित सामग्री - स्कैन किए गए अनुबंध, समझौतों, किताब पृष्ठ, लेख, अखबार और अधिक - के साथ छवियों से पाठ निकालने की अनुमति देता है, जबकि लेआउट वफादारी बनाए रखता है (अधिक स्तंभ प्रवाह सहित.
स्थापना और स्थापन
अपने प्रोजेक्ट में Aspose.OCR Scanned Image को .NET के लिए पाठ में जोड़ें, NuGet पैकेज स्थापित करें और मापा लाइसेंस सेट कर:
- NuGet के माध्यम से स्थापित करें (विवरण चरणों को देख): Installation
- पहला उपयोग करने से पहले माप लाइसेंस की अनुमत: मेट्रिक लाइसेंस स्थापित करने के बाद, बस अपने कोड फ़ाइलों में Aspose.OCR नामस्पेस को संदर्भित कर.
विशेषताओं और कार्य
सटीक पाठ निष्कर्षण
कोर ओसीआर इंजन स्कैन किए गए दस्तावेजों के लिए उन्नत पहचान एल्गोरिथ्म लागू करता है. यह पिक्सेल का विश्लेषण करती है, अंतर्निहित प्रशिक्षित मॉडलों के खिलाफ चरित्र आकृतियों को पहचानें, और यूनिकोड टेक्स्ट आउटपुट का उत्पादन करती हैं. सटीकता उच्च रिज़ॉल्यूशन प्रविष्टियों और साफ स्कैनिंग में अनुकूलित होती ह.
संरचनात्मक दस्तावेज़ लेआउट विश्लेषण
लाइन-दर-लाइन पाठ रिकॉर्डिंग से परे, प्लगइन संरचनात्मक तत्वों - पैराग्राफ, शीर्षक, पैर और तालिकाओं को विभाजित करके छवि क्षेत्रों को जोड़ता है. मान्यता प्राप्त ब्लॉक अंतरिक्ष संबंध बनाए रखते हैं, डेवलपर्स को दस्तावेज़ प्रवाह को पुनर्निर्माण करने या अनुकूलित पोस्ट-प्रसंस्करण लागू करने की अनुमति देते ह.
Multi-Column Layout पहचान
स्कैन किए गए पृष्ठ अक्सर दो या तीन स्तंभ प्रारूपों का उपयोग करते हैं. ओसीआर इंजन स्वचालित रूप से कॉलम की सीमाओं का पता लगाता है, उन्हें प्राकृतिक क्रम में पढ़ें, और पाठ सेगमेंट को एक एकल, सही ढंग से आदेशित आउटपुट प्रवाह में वापस टाइप करता ह.
Image Preprocessing और सुधार
एकीकृत प्री-प्रोसेसिंग रूटीन चुनौतीपूर्ण स्कैन पर पहचान सफलता में सुधार करता ह:
- स्केव डिटेक्शन और स्वचालित डिस्क
- बाइनरीकरण (adaptive thresholding)
- शोर कम करने वाले फ़िल्टर (सॉल्ट-एंड-पेपर, गैसियन स्लाइडिंग)
- विरोधाभास और चमक समायोजन ये कदम विशिष्ट छवि गुणवत्ता परिदृश्यों के अनुरूप देखने या अनुकूलित किया जा सकता ह.
भाषा और चरित्र सेट समर्थन
हालांकि संरचित अंग्रेजी पाठों पर ध्यान केंद्रित किया गया है, इंजन कई भाषाओं और चरित्र सेट का समर्थन करता है जो स्कैन किए गए कानूनी, शैक्षणिक या तकनीकी सामग्री के लिए प्रासंगिक हैं. भाषा पैकेज गैर-लैटिन स्क्रिप्ट या विशेष प्रतीकों की पहचान को बेहतर बनाने में सक्षम हो सकते ह.
अनुकूलित पहचान सेटिंग्स
Fine-tuning विकल्प डेवलपर्स को सटीकता के खिलाफ संतुलन गति की अनुमति देते ह:
- व्यक्तित्व और शब्द स्वीकृति के लिए आत्मविश्वास की सीमाए
- पृष्ठ विभाजन मोड (सिंगल ब्लॉक, ऑटो, स्पारस टेक्स्ट)
- आने वाली छवियों को स्केल करने के लिए रिज़ॉल्यूशन पैरामीटर
- उपयोगकर्ता-निर्धारित शब्दकोश डोमेन-विशिष्ट शब्दों की पहचान बढ़ाने के लिए
आउटपुट प्रारूप और डेटा प्रसंस्करण
निकाले गए पाठ को सीधे यूनिकोड तारों के रूप में प्राप्त किया जा सकता है या टेक्स्ट फ़ाइलों में स्ट्रीमिंग की जा सकती है. उन्नत परिदृश्य के लिए, लेआउट मेटाडेटा (बॉंडिंग बॉक्स, विश्वसनीयता स्कोर) को उजागर किया जाता है ताकि अनुप्रयोगों को पहचाने गए क्षेत्रों पर जोर दिया जा सके या सत्यापित कर सक.
प्रदर्शन और संसाधन प्रबंधन
बड़े छवि सेट के बैच प्रसंस्करण के लिए डिज़ाइन किया गया है, प्लगइन:
- स्ट्रीमिंग पृष्ठों के माध्यम से स्मृति को कम कर
- काम के लोड को समानांतर करने के लिए असेंक्रोनिक पहचान एपीआई प्रदान करता ह
- तारों की गिनती और बफर आकार के लिए ट्यूनिंग पैरामीटर प्रदर्शित करता ह
ट्रेड सुरक्षा और मुद्र
सभी पहचान कक्षाएं तार-सुरक्षित हैं, जिससे एक ही समय में ओसीआर कार्यों की अनुमति मिलती है, बिना किसी लकड़ी के संघर्षों के, या असेंक्रोन कॉल.
मेटर लाइसेंस समर्थन
Aspose.OCR Scanned Image to Text for .NET aspose उत्पादों के समान मापा लाइसेंस मॉडल का उपयोग करता है. अपने सदस्यता मीटर से उपभोग को जोड़ने के लिए एप्लिकेशन स्टार्टअप पर Metered.InitiateLicensing विधि को कॉल कर.
टिप्स और सर्वश्रेष्ठ अभ्यास
- सटीकता को अधिकतम करने के लिए उच्च गुणवत्ता वाले स्कैन (300 डीपीआई या उससे ऊपर) के साथ शुरू कर.
- ओसीआर में भोजन करने से पहले शोर और सही स्केच को हटाने के लिए पूर्व-प्रसंस्करण छविय.
- पृष्ठ विभाजन सेटिंग्स का उपयोग करें जो आपके लेआउट की जटिलता के अनुरूप ह.
- केवल आवश्यक भाषा पैकेज लोड करें; विदेशी मॉडल धीरे-धीरे पहचान कर सकते ह.
- बड़ी बैट्स को संसाधित करते समय असेंक्रोनिक पहचान की अनुमति देता है ताकि यूआई प्रतिक्रियाशील रह.
- विश्वसनीयता स्कोर की निगरानी करें और महत्वपूर्ण दस्तावेजों के लिए सीमा आधारित वैधता या मैनुअल समीक्षा लागू कर.
- OCR इंजन वस्तुओं को जल्दी से अनियंत्रित संसाधनों को मुक्त करने के लिए उपलब्ध कराए.
- ट्रैक और लॉग मीटर का उपयोग अप्रत्याशित शुल्क उल्लंघन से बचने के लिए.