Aspose.PDF Text Extractor สำหรับ .NET

Aspose.PDF Text Extractor for .NET เป็นปลั๊กอินที่มุ่งเน้นที่ช่วยให้ผู้พัฒนาสามารถ استخراجข้อความบริสุทธิ์หรือเรียบจากเอกสาร PDF มันตัดออกการจัดรูปแบบและองค์ประกอบกราฟิกให้เนื้อหาข้อความสะอาดที่สามารถ indexed, analyzed, หรือแปลงภายในแอพพลิเคชัน .Net

เริ่มต้น

การติดตั้งและการตั้งค่า

คุณสมบัติและฟังก์ชั่น

สารสกัดข้อความราก

  • สารสกัดการไหลของตัวอักษรที่ไม่ได้เปลี่ยนแปลงจากแต่ละหน้า
  • เก็บพื้นที่สีขาวแถบและข้อความที่ซ่อนอยู่
  • มีประโยชน์สําหรับการ indexing หรือ bulk text dumps

สารสกัดข้อความที่เรียบ

  • มาตรฐานพื้นที่สีขาวและช่องว่างสําหรับความสามารถในการอ่าน
  • เข้าร่วมข้อความที่เกี่ยวข้องทํางานอย่างชาญฉลาด
  • Ignores fonts, graphics, และ positioning.

Page และ Range-Based Extraction

  • สารสกัดข้อความจากเอกสารทั้งหมดหรือแถวหน้าเฉพาะ
  • ลดการใช้หน่วยความจําโดยการจํากัดช่วง

การสกัดตามภูมิภาค

  • รายละเอียดภูมิภาคแนวตั้ง (x, y, ความกว้างความสูง)
  • สารสกัดข้อความจากหัวขาหรือคอลัมน์
  • เหมาะสําหรับการจัดตั้งโครงสร้าง

การกรองและทําความสะอาดข้อความ

  • ลบการติดตามควบคุมตัวอักษรที่ไม่สามารถพิมพ์ได้และพื้นที่สีขาวเพิ่มเติม
  • ตัวเลือกยกเลิกข้อความจากบันทึก fields หรือชั้นที่ซ่อนอยู่

การสนับสนุน PDF ที่เข้ารหัส

  • เปิดไฟล์ PDF ที่ได้รับการป้องกันด้วยรหัสผ่านโดยการจัดหาใบรับรอง
  • APIs การสกัดจะถอดรหัสโดยอัตโนมัติในระหว่างการประมวลผล

Unicode และ Encoding

  • การส่งออกใน UTF-8 หรือการเข้ารหัสที่ระบุ
  • สนับสนุนสคริปต์ที่ซับซ้อนภาษาขวาและ Unicode glyphs

ประสิทธิภาพและการแข่งขัน

  • การสกัดบนพื้นฐานของกระแสช่วยลดการสะท้อนของหน่วยความจํา
  • API ที่ปลอดภัยแบบเครือข่ายช่วยให้การประมวลผลแบบ parallel ของไฟล์ PDF จํานวนมาก

ตัวอย่างรหัส: การสกัดข้อความจาก PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

เคล็ดลับและการปฏิบัติที่ดีที่สุด

  • เลือกโหมดการสกัดตามความต้องการ: วัตถุดิบสําหรับการดัชนีแบนสําหรับการอ่าน
  • จํากัด การสกัดไปยังแถวหรือภูมิภาคเพื่อปรับปรุงประสิทธิภาพ
  • ใช้ตัวกรองชั่วคราวเพื่อให้ง่ายต่อการประมวลผลหลัง
  • แถบตัวอย่างที่ได้รับการเข้ารหัสเมื่อใช้ PDF ที่ได้รับการรักษาความปลอดภัยอีกครั้ง
  • Tune thread count และ buffer ขนาดสําหรับกระแสทํางานขนาดใหญ่
  • การตั้งค่าใบอนุญาตในการเริ่มต้นเพื่อหลีกเลี่ยงการแจ้งเตือนการประเมิน

คําถามที่ถามบ่อย

**โหมดการสกัดใดที่ได้รับการสนับสนุน?**สาม: สารสกัดจากวัตถุดิบและพื้นฐานภูมิภาค

ฉันสามารถ استخراجข้อความจากไฟล์ PDF ที่มีการป้องกันรหัสผ่านได้หรือไม่ใช่โดยการให้รหัสผ่านที่ถูกต้องข้อความสามารถสกัดได้อย่างปลอดภัย

มันสนับสนุนการเขียนที่ซ้ายและซับซ้อนหรือไม่ใช่สคริปต์ Unicode และ RTL (เช่นภาษาอาหรับ ภาษาฮีเบิล) ได้รับการสนับสนุนอย่างเต็มที่

**ปลั๊กอินนี้แตกต่างจากสมุด Aspose.PDF เต็มอย่างไร?**ปลั๊กอินนี้มีน้ําหนักเบาและได้รับการปรับปรุงสําหรับการ استخراجข้อความเท่านั้นในขณะที่ Aspose.PDF ให้ API การจัดการ PDF แบบเต็มรูปแบบ

การสกัด thread-ปลอดภัยหรือไม่ใช่การดําเนินงานมีความปลอดภัยบนพื้นฐานของเอกสารสําหรับการประมวลผลร่วมกัน

 แบบไทย