Az ASPOSE.OCR a PDF-t a .NET szövegére skannálta

Az ASPOSE.OCR áttekintése PDF a Text for .NET lehetővé teszi a fejlesztők számára, hogy kivonják a szöveget a szkennelt PDF-fájlokból vagy átalakítsák őket teljesen kereshető dokumentumokká. olvassa el bármilyen elrendezést és stílust, pontosan meghatározza a szöveg és táblák szerkezetét, és megőrzi az eredeti képeket a háttérben a teljes tartalmak megőrzéséhez.

Telepítés és telepítés

Ahhoz, hogy elinduljon, telepítse az Aspose.OCR csomagot a .NET projektbe a NuGet-en keresztül vagy egy helyi letöltött fájlból telepítés Az útmutató.Mielőtt bármilyen OCR módszert hívna, állítsa be a mért engedélyt, amint azt a Mérett licenc A dokumentáció.

Jellemzők és funkciók

Szöveg kivonata szkennelt PDF-kból

  • Bitmap-alapú oldalakat olvas, és az OCR-t alkalmazza a felismerhető szöveg kivonására.
  • Támogatja mind az egy- és többoldalú PDF-bevitelt.
  • Kiállítja a szöveges töredékeket a pozíciójukkal, a betűtípusokkal és a bizalmi pontszámokkal együtt.

OCR pontosság és elrendezés fenntartása

  • Fejlett OCR motorokat szállít az alacsony minőségű szkennelések felismerési pontosságának maximalizálására.
  • Megőrzi a dokumentum áramlását: a bekezdések, oszlopok és a sorszakok összhangban maradnak a forrás elrendezésével.
  • Részletes elrendezési metadatait biztosít, hogy a fejlesztők újraépítsék vagy átirányítsák a tartalmat.

Táblázatfelismerés és kivonás

  • Automatikusan kimutatja az asztali szerkezeteket a szkennelt oldalakon belül.
  • A táblázat tartalmát strukturált sorok és sejtek formájában hozza ki a határoló doboz koordinátákkal.
  • Lehetővé teszi a downstream exportot a CSV, az Excel vagy a személyre szabott rendszerekre.

Kereshető dokumentum konverzió

  • A felismert szöveget láthatatlan rétegként helyezi vissza a PDF-be, így a megjelenés megváltoztatása nélkül kereshető.
  • Megtartja az eredeti szkennelt képet a vizuális hűség megőrzése érdekében.

A háttérkép megőrzése

  • Keeps szkennelt képek intakt a háttérben.
  • A felismert szöveg helyezkedik el a tetejére a homályos olvasáshoz és nyomtatáshoz.

Egyéni felismerési paraméterek

  • Segmentációs módok beállítása egy/több oszlopos elrendezéshez.
  • Állítsa be a karakter fehérlistáját/fekete listáját a domain-specifikus felismeréshez.
  • Ellenőrző felbontás, DPI és előfeldolgozó szűrők (deskw, zaj eltávolítása, határtartalom).

Többnyelvű és Script támogatás

  • Elismeri a latin, cirill, görög, kínai, hindi és így tovább.
  • Lehetővé teszi a nyelvi csomagok dinamikus feltöltését.
  • Az API-k lehetővé teszik az elsődleges és másodlagos felismerési nyelvek meghatározását oldalonként.

teljesítmény és erőforrás menedzsment

  • Támogatja a többoldalú PDF feldolgozást.
  • Az Async API-k lehetővé teszik a párhuzamos feldolgozást a tömeges munkaköltségekhez.
  • Megadja a szeletelési lehetőségeket a thread használathoz és a buffer mérethez.

Példa: A szöveg kivonása a szkennelt PDF-kból

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tippek és legjobb gyakorlatok

  • Preprocess PDFs (deskew, despeckle, threshold) a jobb pontosság érdekében.
  • Használja a layout elemzést a szöveg és a táblák kimutatására a kivonás előtt.
  • Helyezze be a bizalmi küszöböt a kritikus tartalmak érvényesítésére.
  • Korlátozza a versenyképes OCR motorokat a tömeges munkákban, hogy megakadályozzák az erőforrás-tartalmakat.
  • Cache nyelvcsomagok és újra használja az OCR motor példák több oldalán.

Az OCR pontosság, a táblázatérzékelés és a kereshető PDF-generáció kombinálásával Aspose.OCR Scanned PDF to Text for .NET teljes megoldást kínál a digitalizálásra és kivonásra a szkennelt PDF dokumentumokból, miközben megőrzi az eredeti elrendezéseket.

 Magyar