Konwertuj zeskanowany plik PDF na tekst przy użyciu Aspose.OCR dla .NET

ASPOSE.OCR skanowany PDF do Text for .NET umożliwia programistom wyciągnięcie tekstu z skanowanych plików PDF lub przekształcenie ich w w pełni wyszukiwalne dokumenty. czyta dowolny układ i styl, dokładnie zdefiniuje strukturę tekstu i tabel, a także zachowuje oryginalne obrazy w tle dla pełnej konserwacji zawartości.

Instalacja i ustawienie

Aby rozpocząć, zainstaluj pakiet Aspose.OCR w projekcie .NET za pośrednictwem NuGet lub z lokalnie pobranego pliku Instalacja Przewodnik.Przed wezwaniem jakichkolwiek metod OCR, skonfigurować licencję mierzoną, jak opisano w Licencjonowanie według zużycia i dokumentacji.

Funkcje i funkcje

Ekstrakcja tekstu z skanowanych plików PDF

  • Czyta strony oparte na bitmapie i stosuje OCR do ekstrakcji rozpoznawalnego tekstu.
  • Obsługuje zarówno pojedyncze, jak i wielostronne wpisy PDF.
  • Eksponuje fragmenty tekstu wraz z ich pozycją, atrybutami czcionek i wynikami zaufania.

OCR Precyzja i utrzymanie rozmiaru

  • Dostarcza zaawansowanych silników OCR w celu maksymalizacji dokładności rozpoznawania na skanowaniach niskiej jakości.
  • Utrzymuje przepływ dokumentu: fragmenty, kolumny i przerwy linii pozostają zgodne z układem źródłowym.
  • Zapewnia szczegółowe metadane rozmieszczenia, dzięki czemu deweloperzy mogą odtworzyć lub ponownie przepłynąć treść.

Rozpoznawanie i ekstrakcja tabeli

  • Automatycznie wykrywa struktury tabeli w skanowanych stronach.
  • Wyjmuje zawartość tabeli jako strukturowane rzędy i komórki z koordynacjami okien granicznych.
  • Umożliwia eksportowanie w dół do programów CSV, Excel lub ustawionych schematów.

Konwersja dokumentów wyszukiwanych

  • Wprowadza rozpoznawany tekst z powrotem do plików PDF jako niewidoczne warstwy, dzięki czemu można je wyszukać bez zmiany wyglądu.
  • Utrzymuje oryginalne skanowane obrazy, aby zachować wierność wizualną.

Zachowanie obrazu tła

  • Keeps skanowane obrazy intaktnie w tle.
  • Miejsce uznane tekst jest na górze dla bezprzewodowego czytania i drukowania.

Dostosowane parametry rozpoznawania

  • Dostosowanie trybów segmentacji do pojedynczych/multi-column layoutów.
  • Konfiguruj listę znaków/czarnej listy dla rozpoznawania domeny.
  • Rozdzielczość sterowania, DPI i filtry wstępne do przetwarzania (deskw, usunięcie hałasu, hamowanie).

Wielojęzyczne i skryptowe wsparcie

  • Rozpoznaje język łaciński, cyryliczny, grecki, chiński, hindi i wiele innych.
  • Umożliwia dynamiczne ładowanie pakietów językowych.
  • APIs pozwalają określić języki rozpoznawania pierwotnego i wtórnego na stronie.

Wydajność i zarządzanie zasobami

  • Obsługuje wiele stron przetwarzania PDF.
  • Async APIs umożliwia równoległe przetwarzanie ładunków roboczych.
  • Zapewnia opcje tuningu do użytku wiązki i rozmiarów buferów.

Przykład: Ekstrakcja tekstu z skanowanych plików PDF

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Porady i najlepsze praktyki

  • Wstępne przetwarzanie plików PDF (deskew, despeckle, limit) w celu poprawy dokładności.
  • Użyj analizy układu, aby wykryć tekst i tabele przed ekstrakcją.
  • Zastosuj granice zaufania do weryfikacji treści krytycznych.
  • Ograniczenie współpracujących silników OCR w miejscach roboczych w celu zapobiegania utrzymaniu zasobów.
  • Pakiety językowe cache i ponowne wykorzystanie instancji silnika OCR na wielu stronach.

Połączając dokładność OCR, wykrywanie tabeli i wyszukiwalną generację PDF, Aspose.OCR Scanned PDF to Text for .NET zapewnia kompletne rozwiązanie do cyfryzacji i ekstrakcji tekstu z skanowanych plików PDF przy zachowaniu oryginalnych układów.

 Polski