استخراج متن Aspose.PDF برای .NET
Aspose.PDF Text Extractor برای .NET یک پلاگین متمرکز است که به توسعه دهندگان اجازه می دهد تا متن خالص، خام یا صاف را از اسناد PDF استخراج کنند.این عناصر فرمت و گرافیکی را حذف می کند و محتوای متن تمیز را که می تواند فهرست شود، تجزیه و تحلیل شود یا در برنامه های .NET تبدیل شود.
شروع به کار
نصب و نصب
- نصب
Aspose.PDF
از طریق NuGet یا دانلود مجمع ها به طور مستقیم. - تنظیم مجوز اندازه گیری قبل از استخراج (نگاه کنید به مجوز متریکی ).
ویژگی ها و عملکردها
استخراج متن خام
- جریان شخصیت غیر قابل تغییر را از هر صفحه خارج می کند.
- فضای سفید، شکاف های خط و متن پنهان را حفظ می کند.
- مفید برای شاخص سازی یا عمده فروشی های متن.
برچسب های ارشیو Extraction
- استاندارد می کند فضای سفید و خط شکاف برای خواندن.
- پیوستن به متن مجاور هوشمندانه اجرا می شود.
- نادیده گرفتن فونت ها، گرافیک و موقعیت.
صفحه و استخراج مبتنی بر محدوده
- استخراج متن از کل اسناد یا صفحات خاص.
- استفاده از حافظه را با محدود کردن محدوده کاهش می دهد.
استخراج مبتنی بر منطقه
- مناطق مستقیم را مشخص کنید (x، y، عرض، ارتفاع).
- متن را از سرها، پاها یا ستون ها استخراج کنید.
- مناسب برای طرح های ساختاری
فیلتر کردن و پاک کردن متن
- ردیف های کنترل، کاراکترهای غیر قابل چاپ و فضای سفید اضافی را حذف کنید.
- به صورت اختیاری متن را از یادداشت ها، میدان ها یا لایه های پنهان حذف کنید.
پشتیبانی PDF رمزگذاری شده
- باز کردن فایل های PDF با رمز عبور با ارائه اعتباربخشی.
- APIs استخراج به طور خودکار در طول پردازش رمزگذاری می شود.
Unicode و Encoding
- خروجی در UTF-8 یا رمزگذاری مشخص شده.
- پشتیبانی از اسکریپت های پیچیده، زبان های راست به چپ و گلیف های Unicode.
عملکرد و رقابت
- استخراج مبتنی بر جریان حافظه را به حداقل می رساند.
- API های سه گانه ایمن امکان پردازش موازی چندین فایل PDF را فراهم می کنند.
کد نمونه: استخراج متن از PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
راهنمایی ها و بهترین شیوه ها
- حالت استخراج را بر اساس نیازها انتخاب کنید: خام برای فهرست، صاف برای قابل خواندن.
- محدود کردن استخراج به شاخه ها یا مناطق برای بهبود عملکرد.
- فیلترها را زودتر اعمال کنید تا پس از پردازش ساده تر شود.
- مثال های رمزگذاری شده را هنگام استفاده مجدد از PDF های امن ذخیره کنید.
- شاخه های تن شمارش و اندازه های بوفر برای جریان های کار در مقیاس بزرگ.
- تنظیم مجوز در استارتاپ برای جلوگیری از هشدارهای ارزیابی.
پرسش های مکرر
**چه روش های استخراج پشتیبانی می شود؟**سه: استخراج خام، مسطح و مبتنی بر منطقه.
**آیا می توانم متن را از فایل های PDF محافظت شده با رمز عبور استخراج کنم؟**بله، با ارائه رمز عبور صحیح، متن می تواند به طور ایمن استخراج شود.
**آیا آن را پشتیبانی از راست به چپ و اسکریپت های پیچیده؟**بله، اسکریپت های Unicode و RTL (به عنوان مثال، عربی، عبری) به طور کامل پشتیبانی می شوند.
**چگونه این پلاگین از کتابخانه کامل Aspose.PDF متفاوت است؟**این پلاگین سبک است و تنها برای استخراج متن بهینه شده است، در حالی که Aspose.PDF یک API کامل برای دستکاری PDF را فراهم می کند.
**آیا استخراج سیم امن است؟**بله، عملیات ها در سطح سند برای پردازش موازی امن هستند.