مستخرج نصوص Aspose.PDF لـ.NET

Aspose.PDF Text Extractor for .NET هو ملحق مركزي يسمح للمطورين لاستخراج النص النقي أو الخام أو السلس من مستندات PDF. فإنه يزيل التنسيق والعناصر الرسومية، وتوفير محتوى نصي نظيف يمكن تصنيفها وتحليلها أو تحويلها داخل تطبيقات .Net.

بدء الاستخدام

تثبيت وإعداد

  • تثبيت Aspose.PDF من خلال NuGet أو تحميل مجموعات مباشرة.
  • إعداد الترخيص المقياس قبل استخراج (انظر ترخيص مقيد ).

الخصائص والوظائف

استخراج النص الخام

  • إزالة تدفق الشخصية غير المتغير من كل صفحة.
  • يحافظ على الفضاء الأبيض، والخطوط، والنص الخفي.
  • مفيد للتصنيف أو الكتلة النصية.

استخراج النص المسطح

  • يعزز الفضاء الأبيض وقطع الخط للقراءة.
  • الانضمام إلى النص المجاور يعمل بذكاء.
  • تجاهل الخطوط والرسومات والمواقع.

صفحة واستخراج على أساس نطاق

  • استخراج النص من مستندات كاملة أو صفحة محددة.
  • يقلل من استخدام الذاكرة عن طريق الحد من نطاق.

الاستخراج القائم على المنطقة

  • تحديد المناطق المستطيلة (x، y، العرض، الارتفاع).
  • استخراج النص من الرؤوس أو الأقدام أو الأعمدة.
  • مثالية للترتيبات المنظمة.

تصفية النص والتنظيف

  • إزالة تسلسل التحكم، والشخصيات غير المطبوعة، والمساحة البيضاء الإضافية.
  • اختياريًا ، استبعاد النص من الملاحظات أو الحقول أو الطبقات الخفية.

دعم PDF المشفرة

  • فتح ملفات تعريف الارتباط المحمية بحماية كلمة المرور من خلال تقديم الشهادات.
  • يتم إزالة APIs التشفير تلقائيا أثناء المعالجة.

Unicode و Encoding

  • الخروج في UTF-8 أو التشفير المحدد.
  • يدعم النصوص المعقدة واللغات من اليمين إلى اليسار و Unicode glyphs.

الأداء والمنافسة

  • يقلل الاستخراج القائم على التدفق من بصمات الذاكرة.
  • تتيح التطبيقات الآمنة الخلفية المعالجة المتوازية لعدد من PDFs.

نموذج الرمز: استخراج النص من PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

نصائح وأفضل الممارسات

  • اختر وضع الاستخراج استنادًا إلى الاحتياجات: خام للتصنيف ، مسطح للقراءة.
  • الحد من الاستخراج إلى مستويات أو مناطق لتحسين الأداء.
  • تطبيق الفلاتر في وقت مبكر لتبسيط ما بعد المعالجة.
  • تخزين الحالات المشفرة عند إعادة استخدام PDFs المأمونة.
  • توحيد الأسلاك الحسابات وحجم البوفر لسلاسل العمل على نطاق واسع.
  • إعداد الترخيص في بدء التشغيل لتجنب تحذيرات التقييم.

الأسئلة المتكررة

**ما هي أنماط الاستخراج التي يتم دعمها؟**ثالثاً: الاستخراج الخام، المسطح، والمنطقة.

**هل يمكنني استخراج النص من ملفات PDF المحمية بالكلمة المرور؟**نعم ، من خلال توفير كلمة المرور الصحيحة ، يمكن استخراج النص بأمان.

**هل يدعم الكتابة من اليمين إلى اليسار والكتابة المعقدة؟**نعم ، يتم دعم النصوص Unicode و RTL (على سبيل المثال ، العربية ، العبرية) بالكامل.

**كيف يختلف هذا المكون الإضافي عن مكتبة Aspose.PDF الكاملة؟**هذا المكون الإضافي خفيف الوزن ويتم تحسينه فقط لاستخراج النص، في حين أن Aspose.PDF يوفر API التلاعب الكامل PDF.

*هل الاستخراج آمن؟*نعم، العمليات آمنة على مستوى المستند لمعالجة متوازية.

 عربي