ترجمة النص: تحويل PDF الممسوح ضوئيًا بواسطة Aspose.OCR إلى نص لـ .NET

المفاتيح.OCR مسح PDF إلى النص ل .NET يسمح للمطورين لاستخراج النص من ملفات PDF المسح الضوئي أو تحويلها إلى مستندات قابلة للبحث بالكامل.إنه يقرأ أي ترتيب وأسلوب، وتحدد بدقة هيكل النص والجدول، والحفاظ على الصور الأصلية في الخلفية للحفاظ الكامل على المحتوى.

تثبيت وإعداد

للبدء ، قم بتثبيت حزمة Aspose.OCR في مشروع .NET الخاص بك عبر NuGet أو من ملف تم تنزيله محليًا التثبيت الدليل.قبل استدعاء أي طرق OCR ، قم بتعيين الترخيص المقياس كما هو موضح في ترخيص مقيد الوثائق.

الخصائص والوظائف

استخراج النص من PDFs المسح الضوئي

  • يقرأ الصفحات القائمة على خريطة بيت وتطبيق OCR لاستخراج النص المعترف به.
  • يدعم كل من الصفحة الواحدة والصفحات المتعددة إدخال PDF.
  • يعرض أجزاء النص جنبا إلى جنب مع موقفها، وأصول الخط، ونقاط الثقة.

OCR دقة وصيانة التخطيط

  • توفر محركات OCR المتقدمة لتحقيق أقصى قدر من دقة التعرف على الفحوصات منخفضة الجودة.
  • يحافظ على تدفق الوثيقة: تبقى الفقرات والعمودات والخطوط متسقة مع ترتيب المصدر.
  • يوفر بيانات التخطيط التفصيلية بحيث يمكن للمطورين إعادة بناء أو تدفق المحتوى.

طاولة التعرف والاستخراج

  • يكتشف تلقائيًا الهياكل اللوحية داخل الصفحات التي تم فحصها.
  • يخرج محتوى الجدول كسلاسل مركبة والخلايا مع إحداثيات مربع الحدود.
  • يسمح بتصدير الأسفل إلى CSV أو Excel أو المخططات المخصصة.

تحويل المستندات المطلوبة

  • يضع النص المعترف به مرة أخرى في ملفات PDF كطبقة غير مرئية ، مما يجعلها قابلة للبحث دون تغيير المظهر.
  • يحتفظ بالصور المسجلة الأصلية للحفاظ على الولاء البصري.

الحفاظ على الصورة الخلفية

  • كيبس مسح الصور غير مكتملة في الخلفية.
  • يتم وضع النص المعترف به في المرتبة العليا للقراءة والطباعة دون انقطاع.

معلمات التعرف المخصصة

  • تعديل وضع الانقسام للترتيبات الفردية / متعددة الأعمدة.
  • قم بتعيين قائمة الأحرف/القائمة السوداء للتعرف على نطاق محدد.
  • التحكم في القرار، DPI، والفلاتر المسبقة المعالجة (التخفيف، إزالة الضوضاء، الحد الأدنى).

الدعم المتعدد اللغات والكتابة

  • يعترف باللاتينية والسيريلية واليونانية والصينية الهندية وأكثر من ذلك.
  • يتيح التحميل الديناميكي للحزم اللغوية.
  • يتيح لك APIs تحديد لغات التعرف الأولية والثانوية لكل صفحة.

أداء وإدارة الموارد

  • يدعم معالجة PDF متعددة الصفحات.
  • تتيح APIs Async المعالجة الموازية لشحنات العمل.
  • يوفر خيارات الترطيب لاستخدام الأسلاك وحجم البوفر.

مثال: استخراج النص من PDFs المسح الضوئي

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

نصائح وأفضل الممارسات

  • إعدادات PDF المسبقة (التخفيف، التخطيط، الحد الأدنى) لتحسين الدقة.
  • استخدم تحليل التصميم للكشف عن النص والجدول قبل الاستخراج.
  • تطبيق حدود الثقة لتصديق المحتوى الحاسم.
  • الحد من محركات OCR المتنافسة في الوظائف المشتركة لمنع تآكل الموارد.
  • تقسيم لغات التخزين وإعادة استخدام حالات محرك OCR عبر صفحات متعددة.

من خلال الجمع بين دقة OCR وتحديد الجدول وتوليد PDF قابل للبحث ، Aspose.OCR Scanned PDF to Text for .NET يوفر حلًا كاملاً لتصنيف واستخراج النص من PDFs المسجلة مع الحفاظ على التصاميم الأصلية.

 عربي