Aspose.OCR .NET के लिए पाठ में PDF स्कैन किया गया ह
ओसीआर स्कैन किया गय पीडीएफ NET के लिए पाठ, डेवलपर्स को स्कैन किए गए पीडीएफ फ़ाइलों से पाठ निकालने या उन्हें पूरी तरह से खोज योग्य दस्तावेजों में परिवर्तित करने की अनुमति देता है. यह किसी भी व्यवस्था और शैली को पढ़ता है, पाठ और तालिकाओं की संरचना को सटीक रूप से परिभाषित करता है और मूल छवियों को पूर्ण सामग्री रखने के बाद पृष्ठभूमि में रखा जाता ह.
स्थापना और स्थापन
शुरू करने के लिए, NuGet के माध्यम से या स्थानीय रूप से डाउनलोड किए गए फ़ाइल से अपने .NET परियोजना में Aspose.OCR पैकेज स्थापित कर Installation मार्गदर्शक.किसी भी OCR विधियों को कॉल करने से पहले, वर्णित के रूप में मापा लाइसेंस सेट कर मेट्रिक लाइसेंस दस्तावेज ह.
विशेषताओं और कार्य
स्कैन किए गए पीडीएफ से पाठ निकालन
- यह बिटकॉइन-आधारित पृष्ठों को पढ़ता है और पहचान योग्य पाठ निकालने के लिए OCR लागू करता ह.
- यह दोनों एकल-पृष्ठ और बहु पृष्ठ पीडीएफ इनपुट का समर्थन करता ह.
- उनके स्थान के साथ-साथ पाठ टुकड़ों को प्रदर्शित करता है, फ़ॉन्ट attributes, और आत्मविश्वास स्कोर.
OCR सटीकता और लेआउट रखरखाव
- उन्नत OCR इंजनों को कम गुणवत्ता वाले स्कैन पर पहचान सटीकता को अधिकतम करने के लिए वितरित करता ह.
- दस्तावेज़ प्रवाह को बनाए रखता है: पैराग्राफ, स्तंभ और लाइन ब्रेक स्रोत व्यवस्था के साथ संगत रहते ह.
- यह विस्तृत लेआउट मेटाडेटा प्रदान करता है ताकि डेवलपर्स सामग्री को पुनर्निर्माण या पुन: प्रवाह कर सक.
टेबल पहचान और निष्कर्षण
- स्वचालित रूप से स्कैन किए गए पृष्ठों के भीतर तालिका संरचनाओं का पता लगाता ह.
- आउटपुट तालिका सामग्री के रूप में संरचित पंक्तियों और कोशिकाओं के साथ सीमा बॉक्स निर्देशांक.
- डाउनलोड प्रवाह को CSV, Excel, या अनुकूलित योजनाओं में निर्यात करने की अनुमति देता ह.
खोज योग्य दस्तावेज़ रूपांतरण
- यह एक अदृश्य परत के रूप में पीडीएफ में वापस पहचाने गए पाठ को शामिल करता है, जिससे उन्हें बिना किसी परिवर्तन के खोजा जा सकता ह.
- यह दृश्य वफादारी को बनाए रखने के लिए मूल स्कैन छवि रखता ह.
पृष्ठभूमि छवि संरक्षण
- Keeps पृष्ठभूमि में अंतर्निहित छवियों को स्कैन करता ह.
- स्थानों को पहचाना गया पाठ शीर्ष पर सीधे पढ़ने और प्रिंट करने के लिए ह.
अनुकूलित पहचान पैरामीटर
- एकल / कई स्तंभों के लिए विभाजन मोड को समायोजित कर.
- डोमेन-विशिष्ट पहचान के लिए वर्ण सफेद / ब्लैकलिस्ट सेट कर.
- नियंत्रण रिज़ॉल्यूशन, डीपीआई, और प्री-प्रसंस्करण फ़िल्टर (डिस्केव, शोर हटाने, सीमा निवारण).
बहुभाषी और स्क्रिप्ट समर्थन
- लैटिन, सिरीली, ग्रीक, चीनी, हिंदू और अधिक को पहचानता ह.
- भाषा पैकेजों का गतिशील लोड करने की अनुमति देता ह.
- एपीआई आपको पृष्ठ के लिए प्राथमिक और माध्यमिक पहचान भाषाओं को निर्दिष्ट करने की अनुमति देता ह.
प्रदर्शन और संसाधन प्रबंधन
- कई पृष्ठों के पीडीएफ प्रसंस्करण का समर्थन करता ह.
- Async APIs बैच कार्य भार के लिए समानांतर प्रसंस्करण की अनुमति देता ह.
- तार उपयोग और बफर आकार के लिए ट्यूनिंग विकल्प प्रदान करता ह.
उदाहरण: स्कैन किए गए पीडीएफ से पाठ निकालन
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
टिप्स और सर्वश्रेष्ठ अभ्यास
- बेहतर सटीकता के लिए प्रारंभिक प्रसंस्करण पीडीएफ (डिस्केव, डेस्कले, सीम.
- लेआउट विश्लेषण का उपयोग निकालने से पहले पाठ और तालिकाओं का पता लगाने के लिए किया जाता ह.
- महत्वपूर्ण सामग्री की पुष्टि करने के लिए आत्मविश्वास सीमाओं को लागू कर.
- संसाधन संकुचन को रोकने के लिए बैच नौकरियों में प्रतिस्पर्धी OCR इंजनों को सीमित कर.
- कैश भाषा पैक और कई पृष्ठों पर ओसीआर इंजन उदाहरणों का पुन: उपयोग कर.
OCR सटीकता, तालिका पहचान और खोज योग्य पीडीएफ जनरेटिंग को जोड़कर, Aspose.OCR Scanned PDF to Text for .NET एक पूर्ण समाधान प्रदान करता है डिजिटल और स्कैन किए गए PDFs से पाठ निकालने के लिए, जबकि मूल लेआउट को बनाए रखते ह.