NET के लिए Aspose.OCR तालिका से पाठ तक
NET के लिए Aspose.OCR टेबल-टू-टेक्स्ट एक शक्तिशाली प्लगइन है जो डेवलपर्स को उच्च सटीकता के साथ स्कैन किए गए या चित्रित तालिकाओं से पाठ निकालने की अनुमति देता है. उन्नत मशीन सीखने के एल्गोरिथ्म और न्यूरल नेटवर्क का उपयोग करके, यह टैबलेट संरचनाओं का पता लगाता है, सेल स्तर के पाठ को आकर्षित करता है और सब कुछ खोजे जाने योग्य, संपादित करने योग्य स्पीडबोर्ड या तालुलर डेटा इकाइयों में व्यवस्थित होता ह.
स्थापना और स्थापन
शुरू करने के लिए, NuGet के माध्यम से Aspose.OCR टेबल-टू टेक्स्ट पैकेज को स्थापित करें या ASPOSE सर्वर से संग्रह डाउनलोड कर Installation विस्तृत चरणों के लिए मार्गदर्शिक.पूर्ण कार्यक्षमता को सक्षम करने के लिए, माप लाइसेंस को कॉन्फ़िगर करके जैसा कि वर्णित ह मेट्रिक लाइसेंस दस्तावेज ह.
विशेषताओं और कार्य
टेबल डिटेक्शन और संरचना पहचान
- स्वचालित रूप से स्कैन या चित्रित छवियों में तालिका की सीमाओं का पता लगाता है, भले ही कोशिकाओं को छेड़छाड़, घूर्णन या असमान चमक ह.
- यह बहु-रो और बहु स्तंभों के लेआउट, नस्टेड तालिकाओं और विभिन्न सेल आकार का समर्थन करता ह.
- प्रसंस्करण के बाद सरलता के लिए पंक्तियों और कोशिकाओं का एक आयरारिक प्रतिनिधित्व प्रदान करता ह.
सेल टेक्स्ट निकालन
- उन्नत OCR एल्गोरिथ्म का उपयोग करके प्रत्येक सेल के भीतर पाठ को पहचानता है, लाइन ब्रेक, पूंजीकरण, और संख्यात्मक प्रारूपण को बनाए रखने के लिए.
- एक सेटअप योग्य भाषा प्राथमिकताओं के साथ एक ही तालिका में कई भाषाओं का प्रबंधन कर.
- सटीकता बढ़ाने के लिए स्कीव, कम विरोधाभास या छवि शोर जैसे विकृतियों को ठीक करता ह.
टेबल पुनर्निर्माण और निर्यात
- पता लगाए गए तालिकाओं को .NET डेटा संरचनाओं (उदाहरण के लिए, DataTable) में पुनर्निर्माण या उन्हें CSV/TSV प्रारूपों में निर्यात करता ह.
- यह संपादित करने योग्य स्पीडशीट फ़ाइल (XLSX) उत्पन्न करता है जो Excel या अन्य उपकरणों में खोला जा सकता ह.
- बुनियादी सेल प्रारूपण (संबंध, सीमाएं) और उन्नत कार्यप्रवाह के लिए निर्यात समन्वय बनाए रखता ह.
अनुसंधान और संपादित परिणाम
- खोज योग्य पाठ परतों का उत्पादन करता ह पीडीएफ आयात, तालिका सामग्री को सूचकांक बनाता ह.
- Aspose.Cells जैसे सूत्रों और चार्टिंग जैसी उन्नत प्लेटफॉर्म ऑपरेशनों के लिए आसानी से एकीकृत करता ह.
- निष्कर्षित सामग्री को डेटाबेस या डाउनस्ट्रीम प्रसंस्करण पाइपलाइन में शामिल करने की अनुमति देता ह.
प्रदर्शन और स्केलिंग
- बड़े डेटा सेट के बैच प्रसंस्करण के लिए अनुकूलित, कॉन्फ़िगर करने योग्य तारण और स्मृति प्रबंधन के साथ.
- छवि डेटा सीधे OCR इंजन में प्रसारित करता है, डिस्क I/O को कम कर देता ह.
- प्रगति कॉलबैक और लंबे समय तक चलने वाले ऑपरेशन के लिए रद्द टोकन प्रदान करता ह.
उन्नत अनुकूलन
- रुचि क्षेत्र (ROI) का समर्थन, तेजी से प्रसंस्करण के लिए विशिष्ट क्षेत्रों में पहचान को सीमित करन.
- कम आत्मविश्वास के परिणामों को फ़िल्टर करने के लिए स्थापित भरोसेमंद सीमाए.
- प्री- और पोस्ट-प्रसंस्करण के लिए हॉक्स (कस्टम फ़िल्टर, डिस्केव एल्गोरिथ्म, या वैलिडिटर्स).
उदाहरण: स्कैन किए गए या चित्रित तालिकाओं से पाठ निकालन
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
सामान्य उपयोग के मामल
- वित्तीय रिपोर्टों से संरचित डेटा निकालन.
- स्कैन किए गए फॉर्म और अनुप्रयोगों को स्प्रेबोर्ड में परिवर्तित कर.
- डेटा इनपुट कार्यों को स्वचालित करके तालिका छवियों को संपादित करने योग्य प्रारूपों में परिवर्तित कर.
टिप्स और सर्वश्रेष्ठ अभ्यास
- सबसे अच्छा परिणाम के लिए कम से कम 300 डीपीआई और अच्छे विरोधाभास के साथ छवियों का उपयोग कर.
- टेबल क्षेत्रों को अलग करने के लिए प्री-गर्मी या डिस्केव छविय.
- स्मृति के उपयोग को कम करने के लिए केवल आवश्यक भाषा पैक लोड कर.
- सटीकता और स्मृति को संतुलित करने के लिए आत्मविश्वास की सीमाओं को लागू कर.
- डेटाबेस में आयात करने से पहले अपेक्षित योजनाओं के खिलाफ पुनर्निर्माण तालिकाओं को सत्यापित कर.
इन दिशानिर्देशों का पालन करके और अपने तालिका पहचान क्षमताओं का लाभ उठाकर, Aspose.OCR टेबल-टू-टेक्स्ट .NET के लिए डेवलपर्स को एक विश्वसनीय समाधान प्रदान करता है ताकि स्कैन किए गए टैबलेट को संरचित, संपादित और खोज योग्य पाठ में परिवर्तित किया जा सक.