Aspose.PDF Text Extractor สำหรับ .NET

Aspose.PDF Text Extractor for .NET เป็นปลั๊กอินที่มุ่งเน้นให้ผู้พัฒนาสามารถ استخراجข้อความบริสุทธิ์หรือเรียบจาก คู่มือ PDF เป็นเอกสาร มันตัดออกรูปแบบและองค์ประกอบกราฟิกให้เนื้อหาข้อความบริสุทธิ์ที่สามารถ indexed, analyzed, หรือแปลงภายในแอพ .NET.

เริ่มต้น

การติดตั้งและการตั้งค่า

คุณสมบัติและฟังก์ชั่น

สารสกัดข้อความราก

  • สารสกัดการไหลของตัวอักษรที่ไม่ได้เปลี่ยนแปลงจากแต่ละหน้า.
  • เก็บพื้นที่สีขาวแถบและข้อความที่ซ่อนอย.
  • มีประโยชน์สําหรับการ indexing หรือ bulk text dumps.

สารสกัดข้อความที่เรียบ

  • มาตรฐานพื้นที่สีขาวและช่องว่างสําหรับความสามารถในการอ่าน.
  • เข้าร่วมข้อความที่เกี่ยวข้องทํางานอย่างชาญฉลาด.
  • Ignores fonts, graphics, และ positioning.

Page และ Range-Based Extraction

  • สารสกัดข้อความจากเอกสารทั้งหมดหรือแถวหน้าเฉพาะ.
  • ลดการใช้หน่วยความจําโดยการจํากัดช่วง.

การสกัดตามภูมิภาค

  • รายละเอียดภูมิภาคแนวตั้ง (x, y, ความกว้างความสูง).
  • สารสกัดข้อความจากหัวขาหรือคอลัมน.
  • เหมาะสําหรับการจัดตั้งโครงสร้าง.

การกรองและทําความสะอาดข้อความ

  • ลบการติดตามควบคุมตัวอักษรที่ไม่สามารถพิมพ์ได้และพื้นที่สีขาวเพิ่มเติม.
  • ตัวเลือกยกเลิกข้อความจากบันทึก fields หรือชั้นที่ซ่อนอย.

การสนับสนุน PDF ที่เข้ารหัส

  • เปิดไฟล์ PDF ที่ได้รับการป้องกันด้วยรหัสผ่านโดยการจัดหาใบรับรอง.
  • APIs การสกัดจะถอดรหัสโดยอัตโนมัติในระหว่างการประมวลผล.

Unicode และ Encoding

  • การส่งออกใน UTF-8 หรือการเข้ารหัสที่ระบ.
  • สนับสนุนสคริปต์ที่ซับซ้อนภาษาขวาและ Unicode glyphs.

ประสิทธิภาพและการแข่งขัน

  • การสกัดบนพื้นฐานของกระแสช่วยลดการสะท้อนของหน่วยความจํา.
  • API ที่ปลอดภัยแบบเครือข่ายช่วยให้การประมวลผลแบบ parallel ของไฟล์ PDF จํานวนมาก.

ตัวอย่างรหัส: การสกัดข้อความจาก PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

เคล็ดลับและการปฏิบัติที่ดีที่สุด

  • เลือกโหมดการสกัดตามความต้องการ: วัตถุดิบสําหรับการดัชนีแบนสําหรับการอ่าน.
  • จํากัด การสกัดไปยังแถวหรือภูมิภาคเพื่อปรับปรุงประสิทธิภาพ.
  • ใช้ตัวกรองชั่วคราวเพื่อให้ง่ายต่อการประมวลผลหลัง.
  • แถบตัวอย่างที่ได้รับการเข้ารหัสเมื่อใช้ PDF ที่ได้รับการรักษาความปลอดภัยอีกครั้ง.
  • Tune thread count และ buffer ขนาดสําหรับกระแสทํางานขนาดใหญ.
  • การตั้งค่าใบอนุญาตในการเริ่มต้นเพื่อหลีกเลี่ยงการแจ้งเตือนการประเมิน.

คําถามที่ถามบ่อย

**โหมดการสกัดใดที่ได้รับการสนับสนุน?**สาม: สารสกัดจากวัตถุดิบและพื้นฐานภูมิภาค.

**ฉันสามารถ استخراجข้อความจากไฟล์ PDF ที่มีการป้องกันรหัสผ่านได้หรือไม?**ใช่โดยการให้รหัสผ่านที่ถูกต้องข้อความสามารถสกัดได้อย่างปลอดภัย.

**มันสนับสนุนการเขียนที่ซ้ายและซับซ้อนหรือไม?**ใช่สคริปต์ Unicode และ RTL (เช่นภาษาอาหรับ ภาษาฮีเบิล) ได้รับการสนับสนุนอย่างเต็มท.

**ปลั๊กอินนี้แตกต่างจากสมุด Aspose.PDF เต็มอย่างไร?**ปลั๊กอินนี้มีน้ําหนักเบาและได้รับการปรับปรุงสําหรับการ استخراجข้อความเท่านั้นในขณะที่ Aspose.PDF ให้ API การจัดการ PDF แบบเต็มรูปแบบ.

**การสกัด thread-ปลอดภัยหรือไม?**ใช่การดําเนินงานมีความปลอดภัยบนพื้นฐานของเอกสารสําหรับการประมวลผลร่วมกัน.

 แบบไทย