Aspose.OCR Сканований PDF в текст для .NET

Скриншоти.OCR скануто ПДФ Text for .NET дозволяє розробникам витягувати текст з сканованих PDF-файлів або конвертувати їх в повністю пошукові документи. він читає будь-який розклад і стиль, точно визначає структуру тексту і таблиць, а також зберігає оригінальні зображення в фоні для повного зберігання контенту.

Інсталяція та установка

Щоб почати, встановіть пакет Aspose.OCR у ваш проект .NET через NuGet або з локально завантаженого файлу Встановлення Управління.Перед тим, як зателефонувати до будь-яких методів ОКР, налаштуйте розмірну ліцензію як описано в Ліцензування за використанням і документації.

Особливості та функції

Екстракція тексту з сканованих PDF

  • Читає сторінки, засновані на бітмапі, і застосовує OCR для витягу визначеного тексту.
  • Підтримує як односторонній, так і багатосторінковий вхід PDF.
  • Виставляє текстові фрагменти разом з їх позицією, атрибутами шрифту та оцінками довіри.

ОКР точність та збереження розташування

  • Доставка передових двигунів OCR для максимізації точності розпізнавання на низькоякісних сканах.
  • Збереження потоку документа: параграфи, колонки та лінійні перерви залишаються узгодженими з походженням розташування.
  • Він надає детальні метадані розташування, щоб розробники могли реконструювати або перепромінювати вміст.

Визначення та екстракція столу

  • Автоматично виявляє структури таблиці в межах сканованих сторінок.
  • Виходить вміст таблиці як структуровані рядки і клітини з координатами кордону.
  • Це дозволяє знижувати експорт до CSV, Excel або пристосованих схем.

Пошукова документальна конверсія

  • Він вводить визнаний текст назад в PDF-файли як невидимий шар, що робить їх пошуковими без зміни зовнішнього вигляду.
  • Зберігає оригінальний сканований зображення, щоб зберегти вірність зору.

Збереження фонові зображення

  • Кіпс сканує зображення непрямим у фоні.
  • Місцезнаходження визнаного тексту на вершині для безперервного читання та друку.

Налаштування визнання параметрів

  • Налаштування режимів сегментації для односторонніх/множинних розташувань.
  • Налаштуйте білий/чорний список персонажів для доменного визнання.
  • Контрольна роздільна здатність, ДПІ та фільтри попереднього обробки (відмикання, видалення шуму, тривалість).

Мултимовна та скриптова підтримка

  • Визнає латинську, цирильну, грецьку, китайську та індійську мови.
  • Дозволяє динамічне завантаження мовних пакетів.
  • АПІ дозволяють визначити первинні та вторинні мови розпізнавання за сторінкою.

Управління ефективністю та ресурсами

  • Підтримує багатосторонню обробку PDF.
  • Async APIs дозволяє паралельну обробку робочих навантажень.
  • Забезпечує варіанти тонування для використання смуги та розмірів буфера.

Приклад: Витяг тексту з сканованих PDF-файлів

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Традиції та найкращі практики

  • Препроцесувати PDF-файли (дескев, дескел, прапор) для поліпшення точності.
  • Використовуйте аналіз розташування для виявлення тексту та таблиць перед екстракцією.
  • Використовуйте обмеження довіри для підтвердження критичного контенту.
  • Обмеження конкурентоспроможних двигунів OCR на робочих місцях, щоб запобігти обмеженню ресурсів.
  • Каше мова пакети і повторне використання OCR-моторні приклади на кількох сторінках.

Завдяки поєднанню точності OCR, виявлення таблиці та пошукової генерації PDF, Aspose.OCR Scanned PDF to Text for .NET забезпечує повне рішення для цифровизації та екстракції тексту з сканованих PDF при збереженні оригінального розташування.

 Українська