Az Aspose.OCR a PDF-t a .NET szövegére skannálta

Az Aspose.OCR áttekintése PDF a Text for .NET lehetővé teszi a fejlesztők számára, hogy kivonják a szöveget a szkennelt PDF-fájlokból vagy átalakítsák őket teljesen kereshető dokumentumokká. olvassa el bármilyen elrendezést és stílust, pontosan meghatározza a szöveg és táblák szerkezetét, és megőrzi az eredeti képeket a háttérben a teljes tartalmak megőrzéséhez.

Telepítés és telepítés

Ahhoz, hogy elinduljon, telepítse az Aspose.OCR csomagot a .NET projektbe a NuGet-en keresztül vagy egy helyi letöltött fájlból telepítés Az útmutató.Mielőtt bármilyen OCR módszert hívna, állítsa be a mért engedélyt, amint azt a Mérett licenc A dokumentáció.

Jellemzők és funkciók

Szöveg kivonata szkennelt PDF-kból

Bitmap-alapú oldalakat olvas, és az OCR-t alkalmazza a felismerhető szöveg kivonására.
Támogatja mind az egy- és többoldalú PDF-bevitelt.
Kiállítja a szöveges töredékeket a pozíciójukkal, a betűtípusokkal és a bizalmi pontszámokkal együtt.

OCR pontosság és elrendezés fenntartása

Fejlett OCR motorokat szállít az alacsony minőségű szkennelések felismerési pontosságának maximalizálására.
Megőrzi a dokumentum áramlását: a bekezdések, oszlopok és a sorszakok összhangban maradnak a forrás elrendezésével.
Részletes elrendezési metadatait biztosít, hogy a fejlesztők újraépítsék vagy átirányítsák a tartalmat.

Táblázatfelismerés és kivonás

Automatikusan kimutatja az asztali szerkezeteket a szkennelt oldalakon belül.
A táblázat tartalmát strukturált sorok és sejtek formájában hozza ki a határoló doboz koordinátákkal.
Lehetővé teszi a downstream exportot a CSV, az Excel vagy a személyre szabott rendszerekre.

Kereshető dokumentum konverzió

A felismert szöveget láthatatlan rétegként helyezi vissza a PDF-be, így a megjelenés megváltoztatása nélkül kereshető.
Megtartja az eredeti szkennelt képet a vizuális hűség megőrzése érdekében.

A háttérkép megőrzése

Keeps szkennelt képek intakt a háttérben.
A felismert szöveg helyezkedik el a tetejére a homályos olvasáshoz és nyomtatáshoz.

Egyéni felismerési paraméterek

Segmentációs módok beállítása egy/több oszlopos elrendezéshez.
Állítsa be a karakter fehérlistáját/fekete listáját a domain-specifikus felismeréshez.
Ellenőrző felbontás, DPI és előfeldolgozó szűrők (deskw, zaj eltávolítása, határtartalom).

Többnyelvű és Script támogatás

Elismeri a latin, cirill, görög, kínai, hindi és így tovább.
Lehetővé teszi a nyelvi csomagok dinamikus feltöltését.
Az API-k lehetővé teszik az elsődleges és másodlagos felismerési nyelvek meghatározását oldalonként.

teljesítmény és erőforrás menedzsment

Támogatja a többoldalú PDF feldolgozást.
Az Async API-k lehetővé teszik a párhuzamos feldolgozást a tömeges munkaköltségekhez.
Megadja a szeletelési lehetőségeket a thread használathoz és a buffer mérethez.

Példa: A szöveg kivonása a szkennelt PDF-kból

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tippek és legjobb gyakorlatok

Preprocess PDFs (deskew, despeckle, threshold) a jobb pontosság érdekében.
Használja a layout elemzést a szöveg és a táblák kimutatására a kivonás előtt.
Helyezze be a bizalmi küszöböt a kritikus tartalmak érvényesítésére.
Korlátozza a versenyképes OCR motorokat a tömeges munkákban, hogy megakadályozzák az erőforrás-tartalmakat.
Cache nyelvcsomagok és újra használja az OCR motor példák több oldalán.

Az OCR pontosság, a táblázatérzékelés és a kereshető PDF-generáció kombinálásával Aspose.OCR Scanned PDF to Text for .NET teljes megoldást kínál a digitalizálásra és kivonásra a szkennelt PDF dokumentumokból, miközben megőrzi az eredeti elrendezéseket.