ไมโครซอฟท์ออก MarkItDown ไลบรารีภาษาไพธอนสำหรับแปลงเอกสารในชุด Microsoft Office (.docx, .xlsx, .pttx) รวมถึงไฟล์ PDF, HTML ให้อยู่ในฟอร์แมต Markdown
เนื่องจาก MarkItDown ออกแบบมาเป็นไลบรารี วิธีการใช้งานจึงต้องเรียกผ่านการเขียนโค้ด Python สั้นๆ ตามตัวอย่าง
from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)
เป้าหมายของ MarkItDown คือแปลงไฟล์เอกสารประเภทต่างๆ มาเป็น Markdown ฟอร์แมตเดียว เพื่อให้สะดวกกับการนำไปประมวลผลต่อในงานอื่นๆ เช่น วิเคราะห์ข้อมูลประเภทข้อความ ตัวไลบรารีเป็นโอเพนซอร์ส ใช้สัญญาอนุญาตแบบ MIT
ที่มา - Microsoft GitHub
Hiring! บริษัทที่น่าสนใจ