นายณัฐพงษ์ เรืองปัญญาวุฒิ ส.ส. กทม. พรรคก้าวไกล ทำข้อมูลและเผยแพร่ งบประมาณปี 2565 ที่เพิ่งผ่านสภาวาระที่ 1 ในรูปแบบ Excel จากเดิมที่อยู่ในรูปแบบ PDF เพื่อให้ machine นำข้อมูลไปวิเคราะห์และอ่านต่อได้
นายณัฐพงษ์ ระบุว่าเป็นการแปลงข้อมูลงบประมาณปี 65 จากเอกสารหลายหมื่นหน้าให้ในรูปแบบ machine-readable ซึ่งขณะนี้มีข้อมูลใน Excel 5.1 หมื่นบรรทัด และข้อมูลนี้เป็นผลลัพธ์ที่ generated ขึ้นจากโปรแกรมแปลง PDF เป็น CSV โดยใช้เทคนิค OCR คือ Optical Character Recognition ซึ่งมีการเปิดเผย source code ภายใต้ MIT License บน Github ของ KaoGeek
ที่มา - นายณัฐพงษ์ เรืองปัญญาวุฒิ
Comments
เจ๋งดีครับ ดึงเข้าฐานข้อมูลได้เลยนะเนีย หรือ จะใช้ Excel filter group ดูข้อมูล ใส่สูตรก็ได้หนำใจ
สอบถามเป็นความรู้หน่อยครับ ทำไมเค้าไม่ทำเป็น excel ตั้งแต่แรกเลยครับ ทำไมต้องทำเป็น pdf ออกมาครับ
ด้วยความเป็นราชการไทย ไม่ให้ไฟล์ต้นฉบับครับ เกรงว่าจะปลอมแปลง บลาๆๆๆๆๆปัญหาระบบราชการไทยหนัก ไม่แพ้ปัญหาคอรัปชั่นครับ
ไม่ก็ใส่รหัสผ่าน ทำเป็น Read only ก็ได้
คุณวิโรจน์เคยถามสำนักงบฯ และได้รับคำชี้แจงมา แบบนี้ครับ
การที่อ้างว่ากลัวโดนดัดแปลงข้อมูลเลยต้องทำไฟล์แบบนำไปใช้ต่อยาก เขาไม่รู้จักการทำchecksum ทำheader,footer กันหรือครับ? หรืออีกขั้นใช้digital signature ก็ยังได้
ธนาคารส่งข้อมูลให้bankชาติหรือหน่วยงานรัฐอื่นๆยังเป็น csv หรือ flat file กันหมด เพราะนำไปเข้าระบบได้ ตรวจสอบความถูกต้องได้ ไม่เห็นต้องกลัวดัดแปลง -_-" ยิ่งสมัยนี้ทำ e-stamp,e-tax ส่งภาษีหัก ณ ที่จ่ายแบบออนไลน์กันหมดแล้ว
เห็นทวิตเตอร์ที่ตอบโต้กัน มีด่าคนขอเอกสารว่าเรื่องมาก หรือบอกว่าทำไม่ได้กลัวโดนดัดแปลงข้อมูล(pdfจริงๆมันก็แก้ได้นะ) นี่เขาไม่เคยปรึกษาทางเทคนิคกับคนทำงานเลยใช่ไหมนะ?
นั่นแหละครับ เรื่องแบบนี้ต้นฉบับมีประกาศใหญ่โตแถมเปิดเผยให้คนทั่วไปดาวน์โหลดมาดูได้อยู่แล้ว จะไปกลัวปลอมแปลง copy เพื่อ
ตอบในฐานะทำงานกับคนในวง ขรก เค้าคิดว่า Productsที่ออกมาต้องเป็นกระดาษ การพิมเหมือนเขียน เพราะฉะนั้น เค้าจะคิดว่ามันจะถูกแก้ยังไงก็ได้ ตราบใดที่ Edit ได้ซึ่งผิด
ในมุมมองคนทั่วไปที่ไม่ใช่สายเทคโนโลยีฟังขึ้นแล้วครับ คนทั่วไปคิดว่าถ้าให้เป็น excel คงแก้ไขง่ายๆ (และบันทึก) แล้วมาบิดเบือนอ้างว่าเป็นต้นฉบับมั้งครับ ที่ ส.ส.คนนั้น บ่นและหาวิธีแปลงไฟล์ก็แสดงว่าไฟล์ pdf ก็ประสบความสำเร็จในแง่การ "ป้องกัน" แล้วละครับ (อย่างน้อยๆ เท่าที่คนทั่วไปคิด)
เผลอๆ บางคนคิดว่าเอกสารกระดาษปลอดภัยกว่าไฟล์ดิจิทัลด้วยซ้ำ (ด้วยเหตุผลเรื่องแก้ไขยากนี่แหละ)
ถ้ารัฐทำ Open Data การกลัวการปลอมแปลง จะหายไป เพราะจะสามารถตรวจสอบ ได้ง่ายมากๆๆๆ
จริงๆ ผมเดาว่าเค้าไม่เคยอัพเดตเทคโนโลยีเลยมากกว่า ถ้าจะเช็คดูต้องไปดูว่าระบบสร้างตั้งแต่สมัยไหน ถ้าย้อนกันไปสมัยก่อนนานนม จำได้ว่าถ้าจะเปิด document ตระกูล MS เนี่ยมันต้องมี ms-office ในเครื่องและก็มีเรื่องมาตรฐาน document กลางที่ MS สมัยก่อนนี่ปิดตัวเองมากกว่าสมัยนี้มากๆ ค่อนข้างเคี่ยวเลย สมัยนั้นเหมือน pdf จะมี reader ที่เปิดกว้างกว่า และมี reader ที่ไม่ต้องเสียเงิน ส่วนสมัยนี้ excel มันดีกว่าเยอะแล้ว
DGA ไม่ถูกใจสิ่งนี้
อ่านแล้ว ยังงง
Pdf >csvแล้ว จะแปลง กลับมา excel อีกทำไม
น่าจะแจกจ่าย เป็น csv เหมือนคนทั่วไปเขาแชร์ข้อมมูลกัน
ไฟล์ Excel รุ่นใหม่เป็น Office Open XML แล้ว เป็น ECMA-376, ISO/IEC 29500 นะครับ ไม่ใช่ proprietary format แบบเมื่อก่อน
อยากได้กลับมาเป็น CSV ก็ไม่ได้ยากอะไร ใช้ OpenOffice เปิดแปลงเอาก็ได้ (หรือ Google SpreadSheet ก็ได้)
ถ้าจะให้ดีเอกสารราชการใหม่ๆ ควรทำเป็น PDF/A แล้วถ้าต้องการให้ machine-readable ก็แนบไฟล์ Excel, XML, หรือ JSON ไปกับ PDF/A เลย เสร็จแล้วก็ Sign Digital Signature เพื่อให้รู้ว่ามาจากหน่วยงานไหนและป้องกันการแก้ไขข้อมูลด้วย
นี่แหละครับ ทำหน้าที่ของฝ่ายค้านได้ดีใครยังคิดอยู่ว่า ดีแต่ด่า.. อย่าลืมนะครับว่าหน้าที่ของฝ่ายค้านคืออะไร :)
ยอดเยี่ยมครับ ขอชื่นชม
เห็นงบสำนักงานพัฒนาระบบราชการแล้วอยากรู้ขึ้นมาเลยว่าผลงานมีอะไรบ้าง 555