Aspose.PDF Metin Çıkartıcı .NET için

Aspose.PDF Text Extractor for .NET, geliştiricilerin PDF belgelerinden saf, kaba veya düz bir metin çıkarmalarını sağlayan odaklanmış bir eklenti. formatlama ve grafik elemanları çıkarır, indekslenebilir, analiz edilebilir veya .Net uygulamalarında dönüştürülebilen saf doküman içeriği sağlar.

Başlarken

Yükleme ve Setup

  • Yükleme Aspose.PDF NuGet veya indir toplantıları doğrudan.
  • Ekstraksiyon öncesi ölçülen lisans ayarlayın (bkz. Ölçümlü Lisanslama ).

Özellikler ve fonksiyonlar

Temiz metin ekstraksiyonu

  • Her sayfadan değişmemiş karakter akışını çıkarır.
  • Beyaz alanı, çizgi kırışıklıkları ve gizli metni korur.
  • Indeks veya bulk metin dumps için yararlıdır.

düz metin ekstraksiyonu

  • Beyaz alanı ve okunabilirlik için çizgi kesintileri normalleştirir.
  • Birleşen metin akıllıca çalışır.
  • Yazıları, grafikleri ve pozisyonu görmezden gelir.

sayfa ve aralık tabanlı ekstraksiyon

  • Tüm belgelerden veya belirli sayfa dizilerinden metin çıkarın.
  • Hafıza kullanımını sınırlayarak azaltır.

Bölge Temel Ekstraksiyon

  • Doğrudan bölgeleri belirleyin (x, y, genişlik, yükseklik).
  • Başlıklardan, ayaklardan veya sütunlardan metin çıkarın.
  • Yapılandırılmış layouts için ideal.

Yazı Filtresi ve Temizliği

  • Kontrol seansları, basılamayan karakterleri ve ekstra beyaz alanı kaldırın.
  • Seçmeli olarak, notlardan, alanlardan veya gizli katmanlardan metin çıkarın.

Şifreli PDF Desteği

  • Şifre ile korunan PDF’leri, kimlik doğrulamaları sağlayarak açın.
  • Ekstraksiyon APIs işleme sırasında otomatik olarak şifrelenir.

Unicode ve Encoding

  • UTF-8 veya belirli kodlamalarda çıkış.
  • Karmaşık yazıları, sağ-sol dillerini ve Unicode glyphs’i destekler.

performans ve rekabet

  • Akım tabanlı ekstraksiyon hafıza izini en aza indirir.
  • Thread-safe APIs, birden fazla PDF’nin paralel işlenmesini sağlar.

Kod Örneği: PDF’den metin çıkarma

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

İpuçları ve en iyi uygulamalar

  • İhtiyaçlarına göre çıkarma modunu seçin: indeksleme için hammadde, okunabilirlik için düz.
  • Verimliliği artırmak için ekstraksiyonu bölgelere veya aralıklara sınırlayın.
  • Filtreleri işleme sonrası basitleştirmek için erken uygulayın.
  • Güvenli PDF’leri yeniden kullanırken şifrelenmiş örnekleri saklayın.
  • Tune thread sayılır ve büyük ölçekli çalışma akışları için buffer boyutları.
  • Değerlendirme uyarılarından kaçınmak için başlangıçta lisans ayarlayın.

Sıkça Sorulan Sorular

**Hangi ekstraksiyon modları desteklenir?**Üç: ham, düz ve bölge tabanlı çıkarma.

**Şifre ile korunan PDF’lerden metin çıkarabilir miyim?**Evet, doğru şifre vererek, metin güvenli bir şekilde çıkarılabilir.

**Sağ-sol ve karmaşık yazıları destekliyor mu?**Evet, Unicode ve RTL yazıları (örneğin, Arapça, İbranice) tam olarak desteklenmektedir.

**Bu eklenti tam Aspose.PDF kütüphanesinden nasıl farklıdır?**Bu eklenti hafif ve yalnızca metin çıkarma için optimize edilmiştir, Aspose.PDF ise tam bir PDF manipülasyon API sağlar.

*Çözünürlük güvenli mi?*Evet, işlemler paralel işleme için belge düzeyinde kablo-güvenlidir.

 Türkçe