Aspose.OCR متن اسناد PDF اسکن‌شده به .NET

ASPOSE.OCR اسکن شده PDF به متن برای .NET به توسعه دهندگان اجازه می دهد تا متن را از فایل های PDF اسکن شده استخراج کنند یا آنها را به اسناد کاملا قابل جستجو تبدیل کنند.این هر طرح و سبک را می خواند، با دقت ساختار متن و جدول را تعریف می کند و تصاویر اصلی را در پس زمینه برای حفظ کامل محتوا حفظ می شود.

نصب و نصب

برای شروع، بسته Aspose.OCR را در پروژه .NET خود از طریق NuGet یا از یک فایل دانلود شده محلی نصب کنید نصب راهنمای.قبل از تماس با هر روش OCR، تنظیم مجوز اندازه گیری شده همانطور که در مجوز متریکی مستندات.

ویژگی ها و عملکردها

استخراج متن از PDF های اسکن شده

  • خواندن صفحات مبتنی بر bitmap و استفاده از OCR برای استخراج متن قابل تشخیص.
  • پشتیبانی از هر دو ورودی یک صفحه و چند صفحه PDF.
  • تکه های متن را همراه با موقعیت، ویژگی های فونت و نمره های اعتماد به نفس نشان می دهد.

OCR دقت و نگهداری لایو

  • موتورهای OCR پیشرفته را برای حداکثر دقت تشخیص در اسکن های با کیفیت پایین عرضه می کند.
  • جریان اسناد را حفظ می کند: پاراگراف ها، ستون ها و شکاف های خط با طرح منبع سازگار باقی می ماند.
  • ارائه داده های مفصل طرح به طوری که توسعه دهندگان می تواند بازسازی و یا جریان مجدد محتوا.

جدول شناسایی و استخراج

  • به طور خودکار ساختارهای جدول را در صفحات اسکن شده تشخیص می دهد.
  • محتوای میز را به عنوان ردیف های ساختاری و سلول ها با هماهنگی های جعبه محدود خارج می کند.
  • امکان صادرات به CSV، Excel یا طرح های سفارشی را فراهم می کند.

تبدیل اسناد قابل جستجو

  • متن شناخته شده را به PDF ها به عنوان یک لایه نامرئی باز می گرداند و آنها را بدون تغییر ظاهر قابل جستجو می کند.
  • حفظ تصویر اسکن شده اصلی برای حفظ وفاداری بصری.

حفظ تصویر پس زمینه

  • Keeps اسکن تصاویر intact در پس زمینه.
  • مکان های متن به رسمیت شناخته شده در بالای برای خواندن و چاپ بی نظیر قرار می گیرد.

پارامترهای شناختی سفارشی

  • تنظیم حالت های تقسیم بندی برای طرح های تک / چند ستون.
  • تنظیم شخصیت سفید / لیست سیاه برای تشخیص خاص دامنه.
  • رزولوشن کنترل، DPI، و فیلترهای پیش پردازش (کلاهبرداری، حذف سر و صدا، محدوده).

پشتیبانی چند زبانه و اسکریپت

  • شناسایی لاتین، سیریل، یونانی، چینی، هندی و بیشتر.
  • امکان بارگذاری پویا بسته های زبان را فراهم می کند.
  • API ها به شما اجازه می دهد تا زبان های تشخیص اولیه و ثانویه را در هر صفحه مشخص کنید.

عملکرد و مدیریت منابع

  • پشتیبانی از پردازش PDF چند صفحه ای.
  • API های Async امکان پردازش موازی برای بار کار بسته را فراهم می کنند.
  • ارائه می دهد گزینه های تنگ برای استفاده از نوار و اندازه بوفر.

مثال: استخراج متن از PDF های اسکن شده

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

راهنمایی ها و بهترین شیوه ها

  • PDF های پیش پردازش (نمایش، تخلیه، محدوده) برای دقت بهتر.
  • از تجزیه و تحلیل طرح برای تشخیص متن و جدول قبل از استخراج استفاده کنید.
  • محدودیت های اعتماد را برای تأیید محتوای انتقادی اعمال کنید.
  • محدود کردن موتورهای OCR رقابتی در کارهای گروهی برای جلوگیری از سرکوب منابع.
  • بسته های زبان مخفی و استفاده مجدد از موارد موتور OCR در چندین صفحه.

با ترکیب دقت OCR، تشخیص جدول و تولید PDF قابل جستجو، Aspose.OCR اسکن شده PDF به متن برای .NET یک راه حل کامل برای دیجیتالی سازی و استخراج متن از PDF های اسکان شده در حالی که حفظ طرح های اصلی را فراهم می کند.

 فارسی