Aspose.PDF текст екстрактор за .NET

Aspose.PDF Text Extractor за .NET е фокусиран плъгин, който позволява на разработчиците да извличат чист, суров или плосък текст от PDF документи. Той премахва форматирането и графичните елементи, осигурявайки чисто текстуално съдържание, което може да бъде индексирано, анализирано или трансформирано в рамките на приложенията .Net.

Да започнем

Инсталация и инсталиране

  • Инсталиране Aspose.PDF чрез NuGet или изтегляне на събрания директно.
  • Конфигуриране на разрешението преди екстракцията (виж Размер на лицензията ).

Характеристики и функционалности

Извличане на суров текст

  • Извлича непроменения поток на характер от всяка страница.
  • Съхранява бели пространства, линии прекъсвания и скрит текст.
  • Полезен за индексиране или масови текстове.

Екстракция на текст

  • Нормализира белия пространство и линии прекъсвания за четене.
  • Присъединете се към съпътстващия текст работи интелигентно.
  • Игнорира шрифтове, графики и позициониране.

Страница и екстракция на базата на ранг

  • Извлечете текст от цели документи или конкретни страници.
  • Намалява използването на паметта чрез ограничаване на обхвата.

Регионална екстракция

  • Определете правоъгълните региони (x, y, ширина, височина).
  • Извлечете текст от глави, стъпала или колони.
  • Идеален за структурирани слоеве.

Филтриране и почистване на текст

  • Премахване на контролни секции, непечатани знаци и допълнителен бял простор.
  • Опционално изключете текст от бележки, полета или скритите слоеве.

Зашифрована PDF поддръжка

  • Отворете защитени с парола PDF файлове чрез предоставяне на удостоверения.
  • Екстракционните АПИ се дешифрират автоматично по време на обработката.

Unicode и Encoding

  • Изход в UTF-8 или определени кодове.
  • Поддържа сложни скрипти, езици от дясно до ляво и Unicode глифи.

Резултати и конкуренция

  • Екстракцията на базата на потока минимизира отпечатъка на паметта.
  • Thread-safe APIs позволяват паралелна обработка на няколко PDF файла.

Пример за код: Извличане на текст от PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Съвети и най-добри практики

  • Изберете режим на екстракция въз основа на нуждите: сурово за индексиране, плоско за четене.
  • Ограничете екстракцията до нива или региони за подобряване на производителността.
  • Използвайте филтри рано, за да опростите след обработка.
  • Изтеглете дешифрирани примери при повторна употреба на защитени PDF файлове.
  • Tune thread брои и буфер размери за мащабни работни потоци.
  • Конфигурирайте лицензията на стартиращия, за да избегнете предупреждения за оценка.

Често задавани въпроси

**Какви режими на екстракция се поддържат?**Три: сурова, плоска и регионална екстракция.

**Мога ли да извличам текст от защитени с парола PDF файлове?**Да, чрез предоставяне на правилния парола, текстът може да бъде извлечен безопасно.

**Поддържа ли тя десно-ляво и сложни скрипти?**Да, Unicode и RTL скрипти (например арабски, еврейски) са напълно поддържани.

**Как се различава този плъгин от цялата библиотека Aspose.PDF?**Този плъгин е лесен и оптимизиран само за извличане на текст, докато Aspose.PDF осигурява пълен API за PDF манипулация.

*Безопасно ли е екстракцията?*Да, операциите са безопасни на нивото на документа за паралелна обработка.

 Български