Aspose.PDF Витягувач тексту для .NET

Aspose.PDF Text Extractor для .NET є концентрованим плагіном, який дозволяє розробникам витягувати чистий, сирий або рівний текст з PDF-документів. він відрізає формати і графічні елементи, забезпечуючи чисте текстове вміст, яке можна індексувати, аналізувати або трансформувати в рамках .Net-прикладів.

Розпочинаємо

Інсталяція та установка

  • Інсталяція Aspose.PDF через NuGet або завантажити об’єднання безпосередньо.
  • Налаштування вимірюваної ліцензії перед екстракцією (див. Ліцензування за використанням ).

Особливості та функції

Екстракція сировини

  • Витяг незмінного потоку персонажів з кожної сторінки.
  • Збереже білий простір, лінійні розриви та прихований текст.
  • Корисна для індексування або масового тексту.

Прості тексти екстракції

  • Нормалізує білий простір і лінійні перерви для читання.
  • Приєднуйтесь до сусіднього тексту йде розумно.
  • Ігнорує шрифти, графіки та позиціонування.

Сторінка та екстракція на основі діапазону

  • Витяг тексту з цілих документів або конкретних рядків сторінки.
  • Зменшує використання пам’яті шляхом обмеження обсягу.

Регіональна екстракція

  • Визначте прямокутні райони (x, y, ширина, висота).
  • Витяг тексту з заголовків, ног або стовпів.
  • Ідеальний для структурованих розкладів.

Фільтрація та очищення

  • Усунути контрольні послідовності, не друковані персонажі та додатковий білий простір.
  • Вибірково виключити текст з нотацій, полів або прихованих шарів.

Зашифрована підтримка PDF

  • Відкрийте паролі-захищені PDF-файли, надаючи акредитації.
  • Екстракційні АПІ автоматично дешифруються під час обробки.

Unicode і Encoding

  • Вихід у UTF-8 або специфіковані коди.
  • Підтримує складні скрипти, ліві мови і Unicode glyphs.

Виконання та конкуренція

  • Екстракція на основі потоку мінімізує відбитки пам’яті.
  • Thread-safe APIs дозволяють паралельно обробляти кілька PDF-файлів.

Код Приклад: Витяг тексту з PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Традиції та найкращі практики

  • Виберіть режим екстракції на основі потреб: сировина для індексування, плоска для читання.
  • Обмеження екстракції до ранг або регіонів для поліпшення продуктивності.
  • Нанесіть фільтри на ранній стадії, щоб спростити післяобробку.
  • Сховати дешифровані приклади при повторному використанні захищених PDF-файлів.
  • Тонні смуги розраховують і буфер розмірів для великих робочих потоків.
  • Налаштуйте ліцензію на стартапі, щоб уникнути попереджень про оцінку.

Часто задавані запитання

**Які режими екстракції підтримуються?**Три: сировинна, рівна і регіональна екстракція.

**Чи можу я витягувати текст з паролів-захищених PDF-файлів?**Так, надаючи правильний пароль, текст може бути безпечно витягнутий.

**Чи підтримує це право-ліво і складні скрипти?**Так, Unicode і RTL скрипти (наприклад, арабською, єврейською) повністю підтримуються.

**Як цей плагін відрізняється від повної бібліотеки Aspose.PDF?**Цей плагін легкий і оптимізований тільки для текстової екстракції, в той час як Aspose.PDF забезпечує повний API для маніпулювання PDF.

**Чи є екстракція thread-safe?**Так, операції є thread-safe на рівні документа для паралельної обробки.

 Українська