Aspose.OCR Taranan PDF'yi Metne Dönüştürme için .NET

Aspose.OCR Scanlandı PDF için NET için metin, geliştiricilerin taranan PDF dosyalarından metni çıkarmalarını veya bunları tamamen arama yapabilen belgelere dönüştürmelerini sağlar. herhangi bir düzen ve tarzı okuyar, metnin ve tabloların yapısını doğru bir şekilde tanımlar ve tam içerik muhafaza için arka planda orijinal görüntüleri korur.

Yükleme ve Setup

Başlatmak için, NuGet aracılığıyla veya yerel olarak indirilmiş bir dosyadan .NET projenize Aspose.OCR paketini yüklemeniz gerekir Kurulum Yönlendirici.Herhangi bir OCR yöntemi çağırmadan önce, aşağıda açıklandığı gibi ölçülen lisans ayarlayın Ölçümlü Lisanslama Dokümanlık için.

Özellikler ve fonksiyonlar

Scanlı PDF’lerden Metin Çekimi

Bitmap tabanlı sayfaları okuyar ve tanımlanabilir metin çıkarmak için OCR’yi kullanır.
Hem tek sayfa hem de çok sayfalık PDF girişini destekler.
Konumu, yazı tipi özellikleri ve güven puanları ile birlikte metin parçaları sergilenir.

OCR Doğruluk ve Layout Tutma

Gelişmiş OCR motorları, düşük kaliteli taramalarda tanıma doğruluğunu en üst düzeye çıkarır.
Belge akışını korur: Paragraflar, sütunlar ve çizgi boşlukları kaynağın düzeniyle tutarlı kalır.
Ayrıntılı düzen metadata sağlar, böylece geliştiriciler içeriği yeniden yapılandırabilir veya yeniden aktarabilirler.

Tablo Tanımlama ve Ekstraksiyon

Otomatik olarak tarayıcı sayfaların içindeki tablo yapılarını tespit eder.
Tablo içeriğini yapılandırılmış satırlar ve sınır kutusu koordinatları ile hücreler olarak çıkarır.
Düşük akımdan CSV, Excel veya özelleştirilmiş şemalara ihraç etmenizi sağlar.

Arama Yapılabilir Belge Dönüşümü

Tanıdık metni görünmez bir katman olarak PDF’lere geri yerleştirir, görünümünü değiştirmeden arama yapılabilir hale getirir.
Görsel sadakat korumak için orijinal taramalı görüntü tutar.

arka plan görüntü koruması

Görüntüleri arka planda tutarlı bir şekilde tarar.
Tanıdık metin yerleri, okuma ve baskı için en üstte yerleştirilir.

Özelleştirilebilir tanımlama parametreleri

Tek / çok sütunlu düzenler için segmentasyon modlarını ayarlayın.
Domain-spesifik tanıma için karakter beyaz listesi/siyah listesini ayarlayın.
Kontrol çözünürlüğü, DPI ve ön işleme filtreleri (kırışıklık, gürültü kaldırma, sınırlama).

Çok dilli ve Script desteği

Latin, Cyrillic, Yunan, Çince, Hint ve daha fazlasını tanımaktadır.
Dil paketlerinin dinamik yüklenmesini sağlar.
APIs sayfa başına birinci ve ikincil tanıma dillerini belirlemenize izin verir.

performans ve kaynak yönetimi

Çok sayfalık PDF işlemini destekler.
Async APIs, paket çalışma yükü için paralel işleme izin verir.
Çerçeve kullanımı ve buffer boyutları için tonlama seçenekleri sağlar.

Örnek: Scanlanmış PDF’lerden metin çıkarma

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

İpuçları ve en iyi uygulamalar

Daha iyi hassasiyet için önceden işleme PDF’ler (deskew, despeckle, threshold.
Çekimden önce metin ve tabloları tespit etmek için düzen analizi kullanın.
Önemli içeriği doğrulamak için güven sınırlarını uygulayın.
Kaynak sıkışıklığı önlemek için paket işlerinde rekabetçi OCR motorlarını sınırlamak.
Cache dil paketleri ve çok sayfalık OCR motor örneklerini yeniden kullanır.

OCR doğruluğunu, tablo tespiti ve arama yapabilen PDF üretimi birleştirerek Aspose.OCR Scanned PDF to Text for .NET , orijinal düzenleri korurken kaydedilen PDF’lerden metni dijitalleştirmek ve çıkarmak için tam bir çözüm sunar.