Az ASPOSE.OCR a PDF-t a .NET szövegére skannálta
Az ASPOSE.OCR áttekintése PDF a Text for .NET lehetővé teszi a fejlesztők számára, hogy kivonják a szöveget a szkennelt PDF-fájlokból vagy átalakítsák őket teljesen kereshető dokumentumokká. olvassa el bármilyen elrendezést és stílust, pontosan meghatározza a szöveg és táblák szerkezetét, és megőrzi az eredeti képeket a háttérben a teljes tartalmak megőrzéséhez.
Telepítés és telepítés
Ahhoz, hogy elinduljon, telepítse az Aspose.OCR csomagot a .NET projektbe a NuGet-en keresztül vagy egy helyi letöltött fájlból telepítés Az útmutató.Mielőtt bármilyen OCR módszert hívna, állítsa be a mért engedélyt, amint azt a Mérett licenc A dokumentáció.
Jellemzők és funkciók
Szöveg kivonata szkennelt PDF-kból
- Bitmap-alapú oldalakat olvas, és az OCR-t alkalmazza a felismerhető szöveg kivonására.
- Támogatja mind az egy- és többoldalú PDF-bevitelt.
- Kiállítja a szöveges töredékeket a pozíciójukkal, a betűtípusokkal és a bizalmi pontszámokkal együtt.
OCR pontosság és elrendezés fenntartása
- Fejlett OCR motorokat szállít az alacsony minőségű szkennelések felismerési pontosságának maximalizálására.
- Megőrzi a dokumentum áramlását: a bekezdések, oszlopok és a sorszakok összhangban maradnak a forrás elrendezésével.
- Részletes elrendezési metadatait biztosít, hogy a fejlesztők újraépítsék vagy átirányítsák a tartalmat.
Táblázatfelismerés és kivonás
- Automatikusan kimutatja az asztali szerkezeteket a szkennelt oldalakon belül.
- A táblázat tartalmát strukturált sorok és sejtek formájában hozza ki a határoló doboz koordinátákkal.
- Lehetővé teszi a downstream exportot a CSV, az Excel vagy a személyre szabott rendszerekre.
Kereshető dokumentum konverzió
- A felismert szöveget láthatatlan rétegként helyezi vissza a PDF-be, így a megjelenés megváltoztatása nélkül kereshető.
- Megtartja az eredeti szkennelt képet a vizuális hűség megőrzése érdekében.
A háttérkép megőrzése
- Keeps szkennelt képek intakt a háttérben.
- A felismert szöveg helyezkedik el a tetejére a homályos olvasáshoz és nyomtatáshoz.
Egyéni felismerési paraméterek
- Segmentációs módok beállítása egy/több oszlopos elrendezéshez.
- Állítsa be a karakter fehérlistáját/fekete listáját a domain-specifikus felismeréshez.
- Ellenőrző felbontás, DPI és előfeldolgozó szűrők (deskw, zaj eltávolítása, határtartalom).
Többnyelvű és Script támogatás
- Elismeri a latin, cirill, görög, kínai, hindi és így tovább.
- Lehetővé teszi a nyelvi csomagok dinamikus feltöltését.
- Az API-k lehetővé teszik az elsődleges és másodlagos felismerési nyelvek meghatározását oldalonként.
teljesítmény és erőforrás menedzsment
- Támogatja a többoldalú PDF feldolgozást.
- Az Async API-k lehetővé teszik a párhuzamos feldolgozást a tömeges munkaköltségekhez.
- Megadja a szeletelési lehetőségeket a thread használathoz és a buffer mérethez.
Példa: A szöveg kivonása a szkennelt PDF-kból
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Tippek és legjobb gyakorlatok
- Preprocess PDFs (deskew, despeckle, threshold) a jobb pontosság érdekében.
- Használja a layout elemzést a szöveg és a táblák kimutatására a kivonás előtt.
- Helyezze be a bizalmi küszöböt a kritikus tartalmak érvényesítésére.
- Korlátozza a versenyképes OCR motorokat a tömeges munkákban, hogy megakadályozzák az erőforrás-tartalmakat.
- Cache nyelvcsomagok és újra használja az OCR motor példák több oldalán.
Az OCR pontosság, a táblázatérzékelés és a kereshető PDF-generáció kombinálásával Aspose.OCR Scanned PDF to Text for .NET teljes megoldást kínál a digitalizálásra és kivonásra a szkennelt PDF dokumentumokból, miközben megőrzi az eredeti elrendezéseket.