Aspose.OCR factură în text pentru .NET
Aspose.OCR Invoice to Text for .NET este un plug-in specializat conceput pentru a simplifica extragerea textului structurat din facturile scanate sau fotografiate. Prin automatizarea pașilor cheie – prelucrarea imaginii, analiza layoutului și OCR – puteți hrăni datele rezultate direct în sistemele contabile, bazele de date sau platforme de plată fără re-tipare manuală. Plug-ul furnizează același nucleu de înaltă calitate de OCR ca Asposa.ocR, optimizat pentru setările de facture, tabele și perechi de valori-cheie. Veți reduce timpul de procesare, minimiza erorile umane și veți obține rezultate coerente și precise la scară.
Instalare și setare
Urmați aceste pași pentru a adăuga Aspose.OCR Invoice la Text pentru .NET la proiectul dvs:
- Instalați prin NuGet sau descărcați pachetul de pe serverele Aspose. pentru instrucțiuni detaliate, consultați Instalare .
- Configurați licența măsurată la start-up-ul aplicației pentru a evita limitările de evaluare Licență măsurată .
Exemplu: Recunoașterea facturilor
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize OCR engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("invoice1.png");
input.Add("invoice2.jpg");
// Configure recognition settings
Aspose.OCR.InvoiceRecognitionSettings recognitionSettings = new Aspose.OCR.InvoiceRecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
// Perform invoice recognition
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.RecognizeInvoice(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("invoice_result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("invoice_result.pdf", Aspose.OCR.SaveFormat.Pdf, results);Caracteristici și funcții
Motorul specific OCR
- Modele de recunoaștere personalizate pentru facturile imprimate și fotografiate.
- Toleranță ridicată la rezoluții diferite, niveluri de zgomot și unghiuri scurte.
- Recunoașterea mai multor limbi și a stilurilor digitale în același document.
Preprocesarea și îmbunătățirea imaginii
- Filtre de descărcare automată, decoctare și binarizare pentru a îmbunătăți legibilitatea.
- Frontieră adaptivă care păstrează liniile de factură și limitele de masă.
- Lumină și ajustări de contrast pentru a gestiona scanările sub- sau excesive.
Analiza și detecția tabelului
- Identificarea automată a titlurilor, footerului, tabelului elementelor de linie și a blocurilor de rezumat.
- Recunoașterea rândurilor, coloanelor și a frontierelor celulelor, chiar și atunci când liniile de conducere sunt slabe sau lipsite.
- Extragerea tabelelor nestate (de exemplu, sub-elementele sub un element de linie maternă).
Valoarea cuplului extract
- Module configurabile pentru numele de câmp de hartă (de exemplu, „Număr de factură”, „Total Due”) pentru rezultatele OCR.
- Suport pentru etichete dinamice – detectează apropierea textului, mai degrabă decât corespondența strictă a șablonului.
- Scorul de încredere pe câmp, permițându-vă să filtrați sau să reproduceți elemente de scădere a încrederii.
Export și integrare
- Formate de ieșire: text clar, JSON, XML, PDF, Word sau HTML.
- Evenimentele au loc pentru a intercepta rezultatele crude ale OCR înainte de serializare.
- Suport pentru procesare cu controluri de paralelism pentru încărcăturile de lucru de volum ridicat.
Erorile de gestionare și logging
- Mesajele de excepție detaliate pentru modurile comune de eșec (de exemplu, format de imagine nesuportat, probleme de licență).
- Interfața de înregistrare încorporată compatibilă cu cadrele de logare .NET populare (Serilog, NLog și log4net).
- Politica de retragere a erorilor tranzitorii în timpul alocării fișierului I/O sau a memoriei.
Sfaturi și cele mai bune practici
- Rezoluția prevalidată a imaginii: pentru cea mai bună precizie OCR, furnizați imagini la sau peste 300 DPI.
- Utilizați imagini de culoare sau grayscale – intrările binare pot pierde liniile de masă fine.
- Puneți pragurile de încredere în funcție de calitatea datelor; praguri mai mici captează mai multe date, dar pot necesita validare în jos.
- Pentru batch-uri foarte mari, monitorizați utilizarea memoriei și ajustați paralelismul prin opțiunile de prelucrare ale plug-in-ului.
- Îndepărtați caracteristicile de șablon de valoare-cheie pentru a îngheța layouturile de factură așteptate; pentru layoute necunoscute, se întoarce la detectarea tabelului generic.
- Încercați întotdeauna să inițiați Licența Metrată înainte de a invoca orice metode OCR pentru a evita indicatorii de mod de evaluare.
Prin urmărirea acestor orientări și utilizarea capacităților sale de facturare centralizate, Aspose.OCR Invoice to Text pentru .NET vă permite să construiți pipelini de procesare a documentelor fiabile - minimizând efortul manual și maximizându-vă puterea de tranzit.