Aspose.PDF Витягувач тексту для .NET
Aspose.PDF Text Extractor для .NET є концентрованим плагіном, який дозволяє розробникам витягувати чистий, сирий або рівний текст з PDF-документів. він відрізає формати і графічні елементи, забезпечуючи чисте текстове вміст, яке можна індексувати, аналізувати або трансформувати в рамках .Net-прикладів.
Розпочинаємо
Інсталяція та установка
- Інсталяція
Aspose.PDF
через NuGet або завантажити об’єднання безпосередньо. - Налаштування вимірюваної ліцензії перед екстракцією (див. Ліцензування за використанням ).
Особливості та функції
Екстракція сировини
- Витяг незмінного потоку персонажів з кожної сторінки.
- Збереже білий простір, лінійні розриви та прихований текст.
- Корисна для індексування або масового тексту.
Прості тексти екстракції
- Нормалізує білий простір і лінійні перерви для читання.
- Приєднуйтесь до сусіднього тексту йде розумно.
- Ігнорує шрифти, графіки та позиціонування.
Сторінка та екстракція на основі діапазону
- Витяг тексту з цілих документів або конкретних рядків сторінки.
- Зменшує використання пам’яті шляхом обмеження обсягу.
Регіональна екстракція
- Визначте прямокутні райони (x, y, ширина, висота).
- Витяг тексту з заголовків, ног або стовпів.
- Ідеальний для структурованих розкладів.
Фільтрація та очищення
- Усунути контрольні послідовності, не друковані персонажі та додатковий білий простір.
- Вибірково виключити текст з нотацій, полів або прихованих шарів.
Зашифрована підтримка PDF
- Відкрийте паролі-захищені PDF-файли, надаючи акредитації.
- Екстракційні АПІ автоматично дешифруються під час обробки.
Unicode і Encoding
- Вихід у UTF-8 або специфіковані коди.
- Підтримує складні скрипти, ліві мови і Unicode glyphs.
Виконання та конкуренція
- Екстракція на основі потоку мінімізує відбитки пам’яті.
- Thread-safe APIs дозволяють паралельно обробляти кілька PDF-файлів.
Код Приклад: Витяг тексту з PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Традиції та найкращі практики
- Виберіть режим екстракції на основі потреб: сировина для індексування, плоска для читання.
- Обмеження екстракції до ранг або регіонів для поліпшення продуктивності.
- Нанесіть фільтри на ранній стадії, щоб спростити післяобробку.
- Сховати дешифровані приклади при повторному використанні захищених PDF-файлів.
- Тонні смуги розраховують і буфер розмірів для великих робочих потоків.
- Налаштуйте ліцензію на стартапі, щоб уникнути попереджень про оцінку.
Часто задавані запитання
**Які режими екстракції підтримуються?**Три: сировинна, рівна і регіональна екстракція.
**Чи можу я витягувати текст з паролів-захищених PDF-файлів?**Так, надаючи правильний пароль, текст може бути безпечно витягнутий.
**Чи підтримує це право-ліво і складні скрипти?**Так, Unicode і RTL скрипти (наприклад, арабською, єврейською) повністю підтримуються.
**Як цей плагін відрізняється від повної бібліотеки Aspose.PDF?**Цей плагін легкий і оптимізований тільки для текстової екстракції, в той час як Aspose.PDF забезпечує повний API для маніпулювання PDF.
**Чи є екстракція thread-safe?**Так, операції є thread-safe на рівні документа для паралельної обробки.