Atlassian ประกาศกู้ระบบได้ครบถ้วนในวันนี้ สิ้นสุดปัญหายาวนาน 2 สัปดาห์ หลังจากลูกค้าบางส่วนไม่สามารถเข้าใช้ระบบได้ตั้งแต่วันที่ 5 เมษายนที่ผ่านมา
ทางบริษัทระบุว่ากำลังเตรียมรายงานหลังเกิดเหตุต่อไป แต่เบื้องต้นสาเหตุความผิดพลาดมาจากสองปัญหาซ้อนทับกัน ได้แก่
- การสื่อสารผิดพลาด: ทาง Atlassian ต้องการลบแอปพลิเคชั่น Insight – Asset Management ทิ้งเนื่องจากรวมเข้าเป็นส่วนหนึ่งของ Jira Service Management เรียบร้อยแล้ว แต่ปรากฎว่าระหว่างการสื่อสารข้ามทีม ทีมงานส่งหมายเลขประจำไซต์คลาวด์ไปให้ทีมที่รันสคริปต์ลบข้อมูล
- รันสคริปต์ผิดโหมด: สคริปต์สั่งลบข้อมูลมีทั้งการสั่ง mark for deletion หรือการเตรียมลบข้อมูลซึ่งกู้ข้อมูลกลับได้ง่าย และการลบข้อมูลถาวรที่กู้กลับได้ยาก ทีมรันสคริปต์รันผิดโหมดทำให้ข้อมูลถูกลบไปทันที
แม้ว่าข้อมูลลูกค้าทั้งหมดจะถูกสำรองไว้ และมีการทดสอบข้อมูลสำรองเรื่อยๆ แต่ทีมงานก็ไม่เคยเตรียมการสำหรับการกู้ข้อมูลสำหรับลูกค้ามากถึง 400 องค์กรเช่นนี้ ทำให้ทีมงานตัดสินใจค่อยๆ กู้ระบบกลับมาทีละ 60 องค์กรจนกินเวลายาวนาน
ที่มา - Atlassian
Comments
enter เปลี่ยนชีวิต
Enter ผิดชีวิตเปลี่ยน
สิ้นสุดปัญหายาวนาน 2 สองสัปดาห์-> สิ้นสุดปัญหายาวนาน 2 สัปดาห์
ฟังแล้วหนาวแทน
..: เรื่อยไป
sudo rm -r .*
เหตุผลที่ dev สาย lib/tools หลาย ๆ คน ควรพัฒนา interface แบบ GUI ไปพร้อม ๆ กันได้แล้ว อย่า embrace เครื่องมือ command line กันนักกันหนาเลย งานพังเพราะพิมพ์ผิดกันมานักต่อนักแล้ว
และก็เป็นอีกเหตุผลหนึ่งที่ชอบเครื่องมือของ Google มาก แม้ขั้นตอนจะซับซ้อนขึ้นมาหน่อยแต่มันเป็น fool-proof ที่ดีมาก ๆ
GUI คลิกผิดก็ดับกันมาเยอะแล้วครับ เขียนตัวตรวจยากด้วย
ผมเคยเขียน command line ให้ OPs ใช้ พอถึงจุด critical ก็แสดงข้อมูลยืนยันให้พิมพ์ตาม เช่น วันที่ที่ต้องการทับข้อมูล ไม่มี default ต้องพิมพ์ให้ถูก format เท่านั้น
ถ้าออกแบบเพื่อลดความผิดพลาด ops ด้วย process เดียวกัน ผมว่าจะ GUI หรือ cmd ก็ไม่ต่างกันนะ (ภายใต้การย้ำคนส่งคำสั่งเท่าๆ กัน)
lewcpe.com , @wasonliw
ผมเห็นด้วยนะ ถ้าจะทำให้ command line มี fool-proof มันก็ทำได้เหมือนกัน ทั้งนี้ ถ้าพูดถึง interaction style (HCI) พวก fool-proof จะไปเข้าหมวด form fill-in ไม่ใช่ command interface ล้วนๆ แล้ว แม้ว่าจะยังอยู่กับหน้า terminal ก็ตาม
ปล. ผมผิดด้วยแหละที่ควรจะพูดถึง interaction style แทนที่จะโยงไป GUI 55555
Human error นะครับ!
เพราะ Human Error นี่แหละถึงต้องมี fool-proof