ถ้ายังจำกันได้ Dropbox เป็นบริการออนไลน์ที่เลิกใช้คลาวด์ AWS และหันมาสร้างศูนย์ข้อมูลเองเพราะประหยัดกว่า กรณีของ Dropbox อาจเกิดได้ไม่บ่อย เพราะบริษัทที่มีความจำเป็นการเก็บสตอเรจขนาดใหญ่ระดับที่เป็นเจ้าของศูนย์ข้อมูลเองแล้วคุ้ม อาจมีไม่เยอะนัก
ล่าสุด Dropbox เพิ่งเปิดเผยว่าทดลองถอดปลั๊กศูนย์ข้อมูลหลักที่เมือง San Jose ในแคลิฟอร์เนีย เพื่อทดสอบระบบ Disaster Readiness (DR) ว่าทำงานได้ตามที่วางแผนไว้หรือไม่ โดยเป็นการจำลองสถานการณ์ว่าหากเมือง San Jose เจอแผ่นดินไหวจนศูนย์ข้อมูลดับทั้งหมด บริการจะยังออนไลน์ต่อได้
Dropbox บอกว่ามีวิธีวัดความพร้อมด้วยเมทริกชื่อ Recovery Time Objective (RTO) เป็นการวัดว่าใช้เวลานานแค่ไหนในการฟื้นตัวจากระบบล่มครั้งใหญ่
เบื้องหลังของการลดค่า RTO เป็นงานใหญ่ยักษ์ที่ต้องปรับสถาปัตยกรรมเบื้องหลังของ Dropbox อยู่หลายปี เพื่อทำระบบ failover ให้เข้มแข็งขึ้นเรื่อยๆ มีทั้งการใช้ซอฟต์แวร์จากข้างนอกและพัฒนาระบบจัดการภายในขึ้นมาเอง (ตอนแรกตั้งใจเป็น active-active แต่พบว่าซับซ้อนเกินไป เลยเปลี่ยนเป้าหมายเป็น active-passive)
หลังจากพัฒนาระบบจนมั่นใจแล้ว Dropbox จึงตัดสินใจลองถอดปลั๊กศูนย์ข้อมูล (ถอดปลั๊กจริงในทางกายภาพเลย ไม่ใช่ลองตัดระบบ) ซึ่งใช้เวลาวางแผนและซ้อมล่วงหน้า 2 เดือน ระหว่างซ้อมก็เจอปัญหาบางอย่างที่ไม่คาดฝัน ต้องซ้อมถึง 2 รอบกว่าจะมั่นใจว่าเอาอยู่
พอถึงวันจริง ก็ให้พนักงานไปยืนถอดสายที่หน้าตู้เซิร์ฟเวอร์เพื่อซ้อมระบบล่มจริงเป็นเวลานาน 30 นาที ผลลัพธ์ออกมาดีตามที่วางแผนไว้ ว่าระบบสามารถสลับไปใช้ศูนย์ข้อมูลอีกแห่งที่เมือง Dallas Fort Worth ได้ตามเป้าหมาย
ที่มา - Dropbox
Comments
นี่สิของจริง 555 แต่อย่าเลียนแบบกันโดยไม่ได้มีพื้นฐานการออกแบบระบบที่ดีล่ะ อย่าเชื่อแต่ Sale หรือระบบ Prototype อย่างเดียว เดี๋ยวจะกินพาราเป็นขวด ระบบพวกนี้มันมีปัจจัยพื้นฐานด้านสิ่งแวดล้อม บุคลากร และจำนวนข้อมูลด้วย ระบบออกแบบดี เงินก็ต้องถึงด้วยถึงจะทำได้
ถอดสายนิดเดียว Data Center ตัดการเชื่อมต่อเลยเหรอ นึกว่าไปสับ Breaker ไฟจะได้สมจริงกว่านี้
ตัดไฟอันนี้มันจะ h/w พังไปด้วยไงครับ การซ้อมก็ควรอยู่บนพื้นฐานที่ว่าฝั่ง DC ต้องไม่พังไปด้วย ยิ่งช่วงนี้อุปกรณ์ h/w ไอทีของใหม่หายาก สั่งอะไหล่ก็ลำบาก
แล้วปกติเขาจะมีซ้อมแบบเริ่มระบบจาก 0 ไหมอะครับ ค่อยๆ start แต่ละ service ขึ้นมางี้
เท่าที่เคยสัมผัสมา ระบบความซับซ้อนสูงมักมีการทำเอกสารและระบุขั้นตอนไว้ แต่จะทดสอบบน production จริงไหม อันนี้แล้วแต่ที่ แต่คนอนุมัติก็จะร้อนๆ หน่อยถ้าเอาระบบ production ลงแล้วเอาขึ้นมามีปัญหา อย่างมากก็จำลองบนระบบฝั่ง DR เอามากกว่า
ซึ่งการทำแบบ Dropbox เป็นสิ่งที่ไม่เกิดขึ้นบ่อยนัก
ในทางเทคนิคมันน่าจะมี Regulate ที่ main Power หรือเปล่าครับ
ถ้าซ่อมบำรุงดีๆมันน่าจะแทบไม่มีความเสียหายเลยนะครับ
อย่างน้อยๆ UPS ก็เสียไปบ้าง แต่ถ้าระบบแบ็คอัพดีพอก็ไม่น่ามีปัญหาครับ
ปล.เวลาเทสระบบ automation ผมสับเมนเบรคเกอร์ตู้เลยนะครับ เผื่อความเร้าใจ
พอรอบสองชักปลั๊ก UPS PLC ต่อ ตอนเฟสแรกไม่ชักซิมูเลทอย่างเดียว พอเจอไฟตกจริงๆ
บั๊ก auto restart ไม่ขึ้น
ปล2. ไม่รู็ความคิดผมจะรีเลทกับเรื่องศูนย์ข้อมูลได้ไหม
ในคอมเม้นข้างบน ผมตีความว่าเค้าหมายถึง อยู่ๆ เดินไปสับเบรกเกอร์ให้ไฟดับดื้อๆ ในห้อง IDC เลยครับ แบบเครื่อง server อุปกรณ์ network ต่างๆ มันดับจริงๆ จากระบบไฟฟ้าดับอะไรแบบนั้น ซึ่งหากทำแบบนั้น อุปกรณ์อย่าง server และ network ถ้าปิดไม่ถูกต้อง และดับไปดื้อๆ เสี่ยงพังสูงมาก นึกสภาพ CAT IDC โดนตัดไฟ อุปกรณ์พังเยอะมาก
ผมเข้าใจว่าแต่ละตู้แร็คมันน่าจะมี ups อยู่นะครับ ไม่งั้นไฟตกทีน่าจะลำบาก
แล้วแต่ว่าจะ implement ตู้ยังไง ถ้าทั้งห้องเป็นคนบริษัทเราล้วน ก็ ups รวมทั้งห้องเป็นตู้ใหญ่ๆ แยก แต่ละตู้ไม่มี ups อัด server และอุปกรณ์อื่นๆ เข้าไปอย่างที่ผมเคยสัมผัสก็จะแบบนั้น เพราะดูแลง่ายกว่า
แต่เวลามีปัญหาจริงผมมองว่ามันไม่ใช่ Soft Shut Down หนะสิครับปกติมันจะเป็น Hard Shut down
อย่างเคส CAT นี่ไอ้ชักฟิวส์มันสปาร์คอยู่แล้วหละครับ อุปกรณ์รันๆอยู่แล้วชักมันกระชาก
แต่ถามผมเราต้องกลับมาดูเรื่องระบบ Main Power ภายในหลังมิเตอร์หรือเปล่าครับ
สมมติ ถ้าฟิวส์ มันเสื่อมสภาพแล้วมันอาร์ค แล้วตู้มขึ้นมา มันก็ไม่ต่างจากชักฟิวส์หรือเปล่าครับ
พวกระบบไฟฟ้า ปรกติมันมีรอบการดูแลและทดสอบอยู่แล้วครับ ไม่ใช่ทำเสร็จปล่อยไปเลย มันก็เหมือนระบบ computer และระบบไอทีอื่นๆ แหละ
การตรวจสอบ-ทดสอบแบบเบื้องต้นก็โยกโหลดจ่ายไฟไประบบสำรองแล้วก็ตรวจสอบระบบหลักเสร็จแล้วเปิดกลับมาใหม่ จากที่เคยสัมผัสมีการทดสอบพวกนี้อยู่แล้ว แต่ไม่ใช่ดับไปดื้อๆ เพื่อกระชากให้อุปกรณ์ที่ต่อกับมันเสียหาย
ดูจากภาพเหมือนถอดสายออกจาก Fiber Patch Panel น่าจะเหมือนกับปิดทางเข้าจากโลกภายนอกไปเลยมั้งครับ
จริงผมสงสัยตรง Patch Panel เข้ามามีแค่ตู้นี้เองเหรอเนี่ย นึกว่าจะมีแบบสองตู้เข้ามาคนละฝั่งแยกตู้ด้วยอะไรแบบนี้นะครับ
คนจริงเทสบนโปรดักส์ชั่น
น่าจะทำการ link router
คนจริง เขาเทสกันบนโปรดักชั่น
ทีแรกนึกว่าถอดปลั๊กไฟ + ทุบแผงควบคุม อันนี้น่าจะ Disaster ของจริง
อันนั้น รมต. กระทรวงดิจิตอลของไทยทดสอบมาแล้วนะครับ เสียหายไปเยอะ แต่ได้ตำแหน่งใหญ่โตเลย
เจ๋งมาก
คนจริง ถ้าใครวางระบบไม่ดีแล้วดันอุตริทำตาม รับรองว่าเป็น Disaster ของจริงแน่นอน
รูปแรก (ซ้ายไปขวา) ใส่หมวก = ไม่ร้อน
รูปสอง ถอดหมวก = เริ่มร้อน
รูปสาม โกนหัว = หัวร้อน