Aspose.PDF текстуални екстрактор за .NET

Aspose.PDF Text Extractor for .NET је фокусиран плугин који омогућава програмерима да екстрактирају чист, сирови, или равни текст из ПДФ докумената. Он уклања форматирање и графичке елементе, пружајући чисту текстуалну садржај који се може индексирати, анализирати или трансформисати унутар апликација.

Počeo je

Инсталација и подешавање

  • Инсталирање Aspose.PDF преко NuGet или преузмите скупштине директно.
  • Конфигурисање усмерене лиценце пре екстракције (види Метеран лиценцирање ).

Карактеристике и функције

Екстракција сировог текста

  • Екстрактира непромењени ток карактера са сваке странице.
  • Сачува бели простор, линије прекида, и скривени текст.
  • Корисно за индексирање или масовне текстуалне думпе.

Екстракција плоског текста

  • Нормализује бели простор и линије прекида за читавост.
  • Придруживање суседни текст ради паметно.
  • Игнорише шрифтове, графике и позиционирање.

Страница и екстракција заснована на опсегу

  • Екстрактирајте текст из целог документа или одређених страница.
  • Смањује употребу меморије ограничавајући опсег.

Регионална екстракција

  • Опремите правоугаоне области (х, и, ширина, висина).
  • Екстрактирајте текст из глава, стопала или колона.
  • Идеалан за структуриране распореде.

Филтрирање и чишћење текста

  • Уклоните контролне секције, не-принтирајуће знакове и додатни бели простор.
  • Опционално искључите текст из ознака, поља или скривених слојева.

шифрована ПДФ подршка

  • Отворите пасош-заштићене ПДФ-а пружајући аутентификације.
  • Екстракција АПИ се дешифрује аутоматски током обраде.

Unicode i kodiranje

  • Излазак у УТФ-8 или одређеним кодирањем.
  • Подржава сложене скрипте, десно-лево језике и Unicode глифе.

Резултати и конкуренција

  • Екстракција на бази струје минимизира печат меморије.
  • Bezbedne API omogućavaju paralelnu obradu više PDF-a.

Код Пример: Екстракција текста из ПДФ-а

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Савети и најбоља пракса

  • Изаберите режим екстракције на основу потреба: сировина за индексирање, равна за читавост.
  • Ограничите екстракцију у редовима или регионима како бисте побољшали перформансе.
  • Примените филтере рано да бисте олакшали пост-процесију.
  • Cache dešifrirane primere prilikom ponovnog korišćenja zaštićenih PDF-a.
  • Tune thread broji i buffer veličine za opsežne tokove rada.
  • Поставите лиценцирање на стартапу како бисте избегли упозорења за евалуацију.

Često postavljana pitanja

**Који режими екстракције су подржани?**Три: сировина, равна и регионална екстракција.

**Могу ли извући текст из ПДФ-а који су заштићени лозинком?**Да, пружајући прави лозинку, текст се може безбедно извући.

**Да ли подржава десно-лево и сложене скрипте?**Да, Unicode и RTL скрипти (на пример, арапски, хебрејски) су потпуно подржани.

**Како се овај додатак разликује од пуне Аппосе.ПДФ библиотеке?**Овај плугин је лагано и оптимизован само за екстракцију текста, док Aspose.PDF пружа пуну АПИ за манипулацију ПДФ-ом.

**Да ли је екстракција тхед-сигурна?**Да, операције су безбедне на нивоу документа за паралелну обраду.

 Српски