.NET के लिए Aspose.PDF पाठ एक्सट्रैक्टर
.NET के लिए Aspose.PDF टेक्स्ट एक्सट्रैक्टर एक केंद्रित प्लगइन है जो डेवलपर्स को पीडीएफ दस्तावेजों से शुद्ध, कच्चे या फ्लैट पाठ निकालने की अनुमति देता है. यह प्रारूपण और ग्राफिक तत्वों को खींचता है, साफ पाठ सामग्री प्रदान करता है जिसे सूचकांक, विश्लेषण, या एप्लिकेशन के भीतर परिवर्तित किया जा सकता है।
शुरू करने के लिए
स्थापना और स्थापना
- Install
Aspose.PDF
NuGet के माध्यम से या सीधे संग्रह डाउनलोड करें। - निष्कर्ष निकालने से पहले मेटेड लाइसेंस सेट करें (देखें) मेट्रिक लाइसेंस ).
विशेषताओं और कार्यों
रॉय टेक्स्ट निकालना
- प्रत्येक पृष्ठ से अपरिवर्तित चरित्र प्रवाह निकालता है।
- सफेद स्थान, लाइन ब्रेक और छिपे हुए पाठ को बनाए रखता है।
- इंडेक्सिंग या बड़े पैमाने पर पाठ डंप के लिए उपयोगी है।
सरल पाठ निकालना
- पढ़ने के लिए सफेद स्थान और लाइन ब्रेक को मानकीकृत करता है।
- संलग्न पाठ बुद्धिमानी से चलता है।
- अक्षरों, ग्राफिक्स और स्थिति को अनदेखा करें।
पृष्ठ और रेंज-आधारित निष्कर्षण
- पूरे दस्तावेजों या विशिष्ट पृष्ठ रेंज से पाठ निकालना।
- स्मृति का उपयोग सीमा को सीमित करके कम करता है।
क्षेत्र-आधारित निष्कर्षण
- सीधे क्षेत्रों (x, y, चौड़ाई, ऊंचाई) को निर्दिष्ट करें।
- शीर्षकों, पैरों या स्तंभों से पाठ निकालना।
- संरचित लेआउट के लिए आदर्श है।
फ़िल्टर और सफाई
- नियंत्रण अनुक्रमों, गैर-प्रिंट योग्य पात्रों और अतिरिक्त व्हाइटस्पेस को हटा दें।
- वैकल्पिक रूप से नोट्स, फ़ील्ड या छिपे हुए परतों से पाठ को बाहर निकालें।
एन्क्रिप्टेड PDF समर्थन
- एन्क्रिप्शन प्रदान करके पासवर्ड-सुरक्षित पीडीएफ खोलें।
- निष्कर्षण एपीआई प्रसंस्करण के दौरान स्वचालित रूप से डिस्क्रिप्ट किया जाता है।
Unicode और Encoding
- UTF-8 या विशिष्ट कोडिंग में आउटपुट।
- यह जटिल स्क्रिप्ट, दाएं-बाएं भाषाओं और यूनिकोड ग्लिफ का समर्थन करता है।
प्रदर्शन और प्रतिस्पर्धा
- स्ट्रीम-आधारित निष्कर्षण स्मृति के निशान को कम करता है।
- थ्रेड-सुरक्षित एपीआई कई पीडीएफ के समानांतर प्रसंस्करण की अनुमति देते हैं।
कोड उदाहरण: PDF से पाठ निकालना
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
टिप्स और सर्वश्रेष्ठ अभ्यास
- आवश्यकताओं के आधार पर निष्कर्षण मोड का चयन करें: सूचकांक के लिए कच्चा, पढ़ने योग्य स्तर।
- प्रदर्शन में सुधार के लिए रेंज या क्षेत्रों में निष्कर्षण को सीमित करें।
- प्रसंस्करण के बाद सरल बनाने के लिए फ़िल्टर को जल्दी लागू करें।
- सुरक्षित पीडीएफ का पुन: उपयोग करते समय एन्क्रिप्टेड उदाहरणों को कैश करें।
- ट्यूनी तारों की गिनती और बड़े पैमाने पर काम के प्रवाह के लिए बफर आकार।
- मूल्यांकन चेतावनी से बचने के लिए स्टार्टअप पर लाइसेंस सेट करें।
अक्सर पूछे जाने वाले प्रश्न
** किस प्रकार के निष्कर्षण का समर्थन किया जाता है?**तीन: कच्चे, सीधे और क्षेत्रीय-आधारित निष्कर्षण।
** क्या मैं पासवर्ड संरक्षित पीडीएफ से पाठ निकाल सकता हूं?**हाँ, सही पासवर्ड प्रदान करके, पाठ को सुरक्षित रूप से निकाल दिया जा सकता है।
** क्या यह दाएं-बाएं और जटिल स्क्रिप्ट का समर्थन करता है?**हाँ, यूनिकोड और आरटीएल स्क्रिप्ट (उदाहरण के लिए, अरबी, हिब्रू) पूरी तरह से समर्थित हैं।
**यह प्लगइन पूरी Aspose.PDF लाइब्रेरी से कैसे अलग है?**यह प्लगइन हल्का है और केवल पाठ निकालने के लिए अनुकूलित है, जबकि Aspose.PDF एक पूर्ण पीडीएफ हेरफेर एपीआई प्रदान करता है।
** क्या निकासी तार सुरक्षित है?**हाँ, संचालन समानांतर प्रसंस्करण के लिए दस्तावेज़ स्तर पर तार-सुरक्षित हैं।