Konwertuj zeskanowany plik PDF na tekst przy użyciu Aspose.OCR dla .NET

Aspose.OCR skanowany PDF do Text for .NET umożliwia programistom wyciągnięcie tekstu z skanowanych plików PDF lub przekształcenie ich w w pełni wyszukiwalne dokumenty. czyta dowolny układ i styl, dokładnie zdefiniuje strukturę tekstu i tabel, a także zachowuje oryginalne obrazy w tle dla pełnej konserwacji zawartości.

Instalacja i ustawienie

Aby rozpocząć, zainstaluj pakiet Aspose.OCR w projekcie .NET za pośrednictwem NuGet lub z lokalnie pobranego pliku Instalacja Przewodnik.Przed wezwaniem jakichkolwiek metod OCR, skonfigurować licencję mierzoną, jak opisano w Licencjonowanie według zużycia i dokumentacji.

Funkcje i funkcje

Ekstrakcja tekstu z skanowanych plików PDF

Czyta strony oparte na bitmapie i stosuje OCR do ekstrakcji rozpoznawalnego tekstu.
Obsługuje zarówno pojedyncze, jak i wielostronne wpisy PDF.
Eksponuje fragmenty tekstu wraz z ich pozycją, atrybutami czcionek i wynikami zaufania.

OCR Precyzja i utrzymanie rozmiaru

Dostarcza zaawansowanych silników OCR w celu maksymalizacji dokładności rozpoznawania na skanowaniach niskiej jakości.
Utrzymuje przepływ dokumentu: fragmenty, kolumny i przerwy linii pozostają zgodne z układem źródłowym.
Zapewnia szczegółowe metadane rozmieszczenia, dzięki czemu deweloperzy mogą odtworzyć lub ponownie przepłynąć treść.

Rozpoznawanie i ekstrakcja tabeli

Automatycznie wykrywa struktury tabeli w skanowanych stronach.
Wyjmuje zawartość tabeli jako strukturowane rzędy i komórki z koordynacjami okien granicznych.
Umożliwia eksportowanie w dół do programów CSV, Excel lub ustawionych schematów.

Konwersja dokumentów wyszukiwanych

Wprowadza rozpoznawany tekst z powrotem do plików PDF jako niewidoczne warstwy, dzięki czemu można je wyszukać bez zmiany wyglądu.
Utrzymuje oryginalne skanowane obrazy, aby zachować wierność wizualną.

Zachowanie obrazu tła

Keeps skanowane obrazy intaktnie w tle.
Miejsce uznane tekst jest na górze dla bezprzewodowego czytania i drukowania.

Dostosowane parametry rozpoznawania

Dostosowanie trybów segmentacji do pojedynczych/multi-column layoutów.
Konfiguruj listę znaków/czarnej listy dla rozpoznawania domeny.
Rozdzielczość sterowania, DPI i filtry wstępne do przetwarzania (deskw, usunięcie hałasu, hamowanie).

Wielojęzyczne i skryptowe wsparcie

Rozpoznaje język łaciński, cyryliczny, grecki, chiński, hindi i wiele innych.
Umożliwia dynamiczne ładowanie pakietów językowych.
APIs pozwalają określić języki rozpoznawania pierwotnego i wtórnego na stronie.

Wydajność i zarządzanie zasobami

Obsługuje wiele stron przetwarzania PDF.
Async APIs umożliwia równoległe przetwarzanie ładunków roboczych.
Zapewnia opcje tuningu do użytku wiązki i rozmiarów buferów.

Przykład: Ekstrakcja tekstu z skanowanych plików PDF

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Porady i najlepsze praktyki

Wstępne przetwarzanie plików PDF (deskew, despeckle, limit) w celu poprawy dokładności.
Użyj analizy układu, aby wykryć tekst i tabele przed ekstrakcją.
Zastosuj granice zaufania do weryfikacji treści krytycznych.
Ograniczenie współpracujących silników OCR w miejscach roboczych w celu zapobiegania utrzymaniu zasobów.
Pakiety językowe cache i ponowne wykorzystanie instancji silnika OCR na wielu stronach.

Połączając dokładność OCR, wykrywanie tabeli i wyszukiwalną generację PDF, Aspose.OCR Scanned PDF to Text for .NET zapewnia kompletne rozwiązanie do cyfryzacji i ekstrakcji tekstu z skanowanych plików PDF przy zachowaniu oryginalnych układów.