Google Cloud ในฐานะผู้ให้บริการคลาวด์รายใหญ่ มีศูนย์ข้อมูลของตัวเอง และต้องใช้งานฮาร์ดดิสก์เป็นจำนวนมาก จับมือกับ Seagate พัฒนาเทคนิค machine learning เพื่อใช้พยากรณ์ว่าฮาร์ดดิสก์จะเสียหรือไม่
กูเกิลบอกว่ามีฮาร์ดดิสก์เป็นล้านๆ ตัว และมีข้อมูล metadata จำนวนมหาศาล เช่น SMART(Self-Monitoring, Analysis and Reporting Technology), Online Vendor Diagnostics (OVD), Field Accessible Reliability Metrics (FARM) ซึ่งไม่สามารถใช้มนุษย์อ่านได้อีกแล้ว จึงต้องใช้ machine learning มาช่วยอ่านข้อมูลแทน
โซลูชันของกูเกิลคือนำข้อมูล metadata เหล่านี้เก็บลงในบริการ BigQuery และ Cloud Dataflow ของตัวเอง ใช้ AutoML พัฒนาโมเดล เรียนรู้ด้วย TensorFlow แล้วพัฒนาระบบมอนิเตอร์ด้วย Cloud Functions กับ Cloud Composer
กูเกิลเล่าว่าระบบมอนิเตอร์เดิมจะแจ้งเมื่อพบดิสก์ที่มีปัญหา แล้วซ่อมดิสก์ลูกนั้นแบบ on-site ด้วยซอฟต์แวร์ แต่พบปัญหาว่ายุ่งยาก เพราะต้องเอาข้อมูลออกจากดิสก์ก่อน แยกดิสก์ออกมา รันซอฟต์แวร์วิเคราะห์อาการ ซ่อมเสร็จแล้วค่อยใส่ดิสก์กลับเข้าในระบบ
หลังจากมีระบบใหม่ที่ใช้ machine learning สามารถบอกได้ล่วงหน้าว่าดิสก์ลูกไหนจะมีปัญหา ทำให้ลดงานของทีมซ่อมลง กูเกิลยังได้พัฒนาระบบมอนิเตอร์ให้เชื่อมต่อกับระบบจัดการคอนฟิกระบบ (ใช้ Terraform และ GitLab) ให้เปิด-ปิดการทำงานของฮาร์ดดิสก์อัตโนมัติ
กูเกิลยังลองพัฒนาโมเดล ML สองแบบมาเปรียบเทียบกัน โดยใช้ AutoML แบบอัตโนมัติ และโมเดลคัสตอมแบบ Transformer-based ผลลัพธ์คือ AutoML ให้ประสิทธิภาพดีกว่า มีอัตราความแม่นยำ 98% เมื่อเทียบกับ 70-80% ของโมเดลแบบคัสตอม
ที่มา - Google , ภาพจาก Seagate
Comments
ยังไงเหรอครับ สนใจตรงนี้ว่าต่างกับกระบวนการก่อนหน้ายังไง
+1 คิดเหมือนกันเลยครับ ว่าลดงานลงได้ยังไง คือรู้ล่วงหน้าก่อนจะเสีย แต่การซ่อมก็ยังต้องทำเหมือนเดิม
ดูจากสิ่งที่คนต้องเข้าไปทำหลังจากได้รับ alert แล้ว
น่าจะเป็นพอ AutoML detected เจอว่ามีแนวโน้มว่าจะเสียแน่ๆ ก็น่าจะให้โยกข้อมูลออกรอเลยมั้งครับ พอคนดูแลไปถึงก็ถอดออกมาจัดการ หรือทำการเปลี่ยนได้เลย ไม่ต้องไปสั่งโอนข้อมูลอีกซึ่งมันรอนานแน่ๆกว่ากระบวนการโอนข้อมูลออกจะแล้วเสร็จ
ยังไม่รวมว่าถ้ากระบวนการซ่อมดังกล่าว ทำได้เองภายใน server นั้นๆ AI น่าจะจัดการสั่งโอนสั่งซ่อมและสั่งเปิดให้ให้เรียบร้อยเลย ไม่ต้องการคนไปช่วยอีกแล้ว เว้นแต่มันทำไม่ได้หรือไม่สำเร็จค่อยแจ้งคนเข้าไปดูแล
ซึ่งถ้าทำได้แบบนี้มันลดงานได้มหาศาลจริงๆแหละ ยิ่งเทียบกับปริมาณ harddisk นับล้านลูกที่ว่าแล้ว
ขอบคุณครับ อ่านแล้วได้ไอเดีย
แคร่กกกกๆๆๆๆ
ไม่ดังไม่ใช่ seagate แท้
CDC (แก๊กๆๆๆ), Conner (กร๊อก ๆๆๆ), Maxtor (กึ๊กๆๆ แท๊กกๆๆๆๆๆๆ)
ถ้าท่านรู้จัก จะรู้ว่า Seagate Take Over Hard Disk ที่โด่งดังทางด้าน Mechanic
มาแล้วทุกยี่ห้อ มาใส่รวมกัน
คอมเครื่องแรกผมใช้ Conner แหละ ... พังเหมือนกัน ส่ง claim ไป ได้กลับมากลายร่างเป็น Seagate
ซ่อม HDD กันเลยหรอเนี่ย นึกว่าลดพวก stock ของหรือเข้าไป predict ลูกเสีย เปลี่ยนก่อนล่วงหน้าเลย
เห็นซ่อมด้วย software น่าจะแบบกันพื้นที่ bad sector ไม่ให้ใช้งาน
เทพของแท้
..: เรื่อยไป
Google Cloud ใช้ HDD ของ Seagate เหรอครับ? ถ้าใช่ คือมันใช้ดีหรือว่ายังไง ในความรู้สึก HDD ผมไม่ค่อยเชื่อใจ Seagate ซักเท่าไหร่