Aspose.PDF Витягувач тексту для .NET

Aspose.PDF Text Extractor для .NET - це концентрований плагін, який дозволяє розробникам витягувати чистий, сирий або прямий текст з ПДФ Він відрізає форматування і графічні елементи, забезпечуючи чистий текстовий вміст, який можна індексувати, аналізувати або трансформувати в рамках .NET-прикладів.

Розпочинаємо

Інсталяція та установка

Інсталяція Aspose.PDF через NuGet або завантажити об’єднання безпосередньо.
Налаштування вимірюваної ліцензії перед екстракцією (див Ліцензування за використанням ).

Особливості та функції

Екстракція сировини

Витяг незмінного потоку персонажів з кожної сторінки.
Збереже білий простір, лінійні розриви та прихований текст.
Корисна для індексування або масового тексту.

Прості тексти екстракції

Нормалізує білий простір і лінійні перерви для читання.
Приєднуйтесь до сусіднього тексту йде розумно.
Ігнорує шрифти, графіки та позиціонування.

Сторінка та екстракція на основі діапазону

Витяг тексту з цілих документів або конкретних рядків сторінки.
Зменшує використання пам’яті шляхом обмеження обсягу.

Регіональна екстракція

Визначте прямокутні райони (x, y, ширина, висота).
Витяг тексту з заголовків, ног або стовпів.
Ідеальний для структурованих розкладів.

Фільтрація та очищення

Усунути контрольні послідовності, не друковані персонажі та додатковий білий простір.
Вибірково виключити текст з нотацій, полів або прихованих шарів.

Зашифрована підтримка PDF

Відкрийте паролі-захищені PDF-файли, надаючи акредитації.
Екстракційні АПІ автоматично дешифруються під час обробки.

Unicode і Encoding

Вихід у UTF-8 або специфіковані коди.
Підтримує складні скрипти, ліві мови і Unicode glyphs.

Виконання та конкуренція

Екстракція на основі потоку мінімізує відбитки пам’яті.
Thread-safe APIs дозволяють паралельно обробляти кілька PDF-файлів.

Код Приклад: Витяг тексту з PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Традиції та найкращі практики

Виберіть режим екстракції на основі потреб: сировина для індексування, плоска для читання.
Обмеження екстракції до ранг або регіонів для поліпшення продуктивності.
Нанесіть фільтри на ранній стадії, щоб спростити післяобробку.
Сховати дешифровані приклади при повторному використанні захищених PDF-файлів.
Тонні смуги розраховують і буфер розмірів для великих робочих потоків.
Налаштуйте ліцензію на стартапі, щоб уникнути попереджень про оцінку.

Часто задавані запитання

**Які режими екстракції підтримуються?**Три: сировинна, рівна і регіональна екстракція.

**Чи можу я витягувати текст з паролів-захищених PDF-файлів?**Так, надаючи правильний пароль, текст може бути безпечно витягнутий.

**Чи підтримує це право-ліво і складні скрипти?**Так, Unicode і RTL скрипти (наприклад, арабською, єврейською) повністю підтримуються.

**Як цей плагін відрізняється від повної бібліотеки Aspose.PDF?**Цей плагін легкий і оптимізований тільки для текстової екстракції, в той час як Aspose.PDF забезпечує повний API для маніпулювання PDF.

**Чи є екстракція thread-safe?**Так, операції є thread-safe на рівні документа для паралельної обробки.