Aspose.PDF текстуални екстрактор за .NET

Aspose.PDF Text Extractor for .NET је фокусиран плугин који омогућава програмерима да извуку чист, сирови или равни текст из ПДФ Он уклања форматирање и графичке елементе, пружајући чист текстуални садржај који се може индексирати, анализирати или трансформисати унутар .NET апликација.

Počeo je

Инсталација и подешавање

Инсталирање Aspose.PDF преко NuGet или преузмите скупштине директно.
Конфигурисање усмерене лиценце пре екстракције (види Метеран лиценцирање ).

Карактеристике и функције

Екстракција сировог текста

Екстрактира непромењени ток карактера са сваке странице.
Сачува бели простор, линије прекида, и скривени текст.
Корисно за индексирање или масовне текстуалне думпе.

Екстракција плоског текста

Нормализује бели простор и линије прекида за читавост.
Придруживање суседни текст ради паметно.
Игнорише шрифтове, графике и позиционирање.

Страница и екстракција заснована на опсегу

Екстрактирајте текст из целог документа или одређених страница.
Смањује употребу меморије ограничавајући опсег.

Регионална екстракција

Опремите правоугаоне области (х, и, ширина, висина).
Екстрактирајте текст из глава, стопала или колона.
Идеалан за структуриране распореде.

Филтрирање и чишћење текста

Уклоните контролне секције, не-принтирајуће знакове и додатни бели простор.
Опционално искључите текст из ознака, поља или скривених слојева.

шифрована ПДФ подршка

Отворите пасош-заштићене ПДФ-а пружајући аутентификације.
Екстракција АПИ се дешифрује аутоматски током обраде.

Unicode i kodiranje

Излазак у УТФ-8 или одређеним кодирањем.
Подржава сложене скрипте, десно-лево језике и Unicode глифе.

Резултати и конкуренција

Екстракција на бази струје минимизира печат меморије.
Bezbedne API omogućavaju paralelnu obradu više PDF-a.

Код Пример: Екстракција текста из ПДФ-а

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Савети и најбоља пракса

Изаберите режим екстракције на основу потреба: сировина за индексирање, равна за читавост.
Ограничите екстракцију у редовима или регионима како бисте побољшали перформансе.
Примените филтере рано да бисте олакшали пост-процесију.
Cache dešifrirane primere prilikom ponovnog korišćenja zaštićenih PDF-a.
Tune thread broji i buffer veličine za opsežne tokove rada.
Поставите лиценцирање на стартапу како бисте избегли упозорења за евалуацију.

Često postavljana pitanja

**Који режими екстракције су подржани?**Три: сировина, равна и регионална екстракција.

**Могу ли извући текст из ПДФ-а који су заштићени лозинком?**Да, пружајући прави лозинку, текст се може безбедно извући.

**Да ли подржава десно-лево и сложене скрипте?**Да, Unicode и RTL скрипти (на пример, арапски, хебрејски) су потпуно подржани.

**Како се овај додатак разликује од пуне Аппосе.ПДФ библиотеке?**Овај плугин је лагано и оптимизован само за екстракцију текста, док Aspose.PDF пружа пуну АПИ за манипулацију ПДФ-ом.

**Да ли је екстракција тхед-сигурна?**Да, операције су безбедне на нивоу документа за паралелну обраду.