Konwertuj zeskanowany plik PDF na tekst przy użyciu Aspose.OCR dla .NET
ASPOSE.OCR skanowany PDF do Text for .NET umożliwia programistom wyciągnięcie tekstu z skanowanych plików PDF lub przekształcenie ich w w pełni wyszukiwalne dokumenty. czyta dowolny układ i styl, dokładnie zdefiniuje strukturę tekstu i tabel, a także zachowuje oryginalne obrazy w tle dla pełnej konserwacji zawartości.
Instalacja i ustawienie
Aby rozpocząć, zainstaluj pakiet Aspose.OCR w projekcie .NET za pośrednictwem NuGet lub z lokalnie pobranego pliku Instalacja Przewodnik.Przed wezwaniem jakichkolwiek metod OCR, skonfigurować licencję mierzoną, jak opisano w Licencjonowanie według zużycia i dokumentacji.
Funkcje i funkcje
Ekstrakcja tekstu z skanowanych plików PDF
- Czyta strony oparte na bitmapie i stosuje OCR do ekstrakcji rozpoznawalnego tekstu.
- Obsługuje zarówno pojedyncze, jak i wielostronne wpisy PDF.
- Eksponuje fragmenty tekstu wraz z ich pozycją, atrybutami czcionek i wynikami zaufania.
OCR Precyzja i utrzymanie rozmiaru
- Dostarcza zaawansowanych silników OCR w celu maksymalizacji dokładności rozpoznawania na skanowaniach niskiej jakości.
- Utrzymuje przepływ dokumentu: fragmenty, kolumny i przerwy linii pozostają zgodne z układem źródłowym.
- Zapewnia szczegółowe metadane rozmieszczenia, dzięki czemu deweloperzy mogą odtworzyć lub ponownie przepłynąć treść.
Rozpoznawanie i ekstrakcja tabeli
- Automatycznie wykrywa struktury tabeli w skanowanych stronach.
- Wyjmuje zawartość tabeli jako strukturowane rzędy i komórki z koordynacjami okien granicznych.
- Umożliwia eksportowanie w dół do programów CSV, Excel lub ustawionych schematów.
Konwersja dokumentów wyszukiwanych
- Wprowadza rozpoznawany tekst z powrotem do plików PDF jako niewidoczne warstwy, dzięki czemu można je wyszukać bez zmiany wyglądu.
- Utrzymuje oryginalne skanowane obrazy, aby zachować wierność wizualną.
Zachowanie obrazu tła
- Keeps skanowane obrazy intaktnie w tle.
- Miejsce uznane tekst jest na górze dla bezprzewodowego czytania i drukowania.
Dostosowane parametry rozpoznawania
- Dostosowanie trybów segmentacji do pojedynczych/multi-column layoutów.
- Konfiguruj listę znaków/czarnej listy dla rozpoznawania domeny.
- Rozdzielczość sterowania, DPI i filtry wstępne do przetwarzania (deskw, usunięcie hałasu, hamowanie).
Wielojęzyczne i skryptowe wsparcie
- Rozpoznaje język łaciński, cyryliczny, grecki, chiński, hindi i wiele innych.
- Umożliwia dynamiczne ładowanie pakietów językowych.
- APIs pozwalają określić języki rozpoznawania pierwotnego i wtórnego na stronie.
Wydajność i zarządzanie zasobami
- Obsługuje wiele stron przetwarzania PDF.
- Async APIs umożliwia równoległe przetwarzanie ładunków roboczych.
- Zapewnia opcje tuningu do użytku wiązki i rozmiarów buferów.
Przykład: Ekstrakcja tekstu z skanowanych plików PDF
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Porady i najlepsze praktyki
- Wstępne przetwarzanie plików PDF (deskew, despeckle, limit) w celu poprawy dokładności.
- Użyj analizy układu, aby wykryć tekst i tabele przed ekstrakcją.
- Zastosuj granice zaufania do weryfikacji treści krytycznych.
- Ograniczenie współpracujących silników OCR w miejscach roboczych w celu zapobiegania utrzymaniu zasobów.
- Pakiety językowe cache i ponowne wykorzystanie instancji silnika OCR na wielu stronach.
Połączając dokładność OCR, wykrywanie tabeli i wyszukiwalną generację PDF, Aspose.OCR Scanned PDF to Text for .NET zapewnia kompletne rozwiązanie do cyfryzacji i ekstrakcji tekstu z skanowanych plików PDF przy zachowaniu oryginalnych układów.