เซิร์ฟเวอร์ของ British Airways ล่มขนานใหญ่ กระทบผู้โดยสารถึง 75,000 คนแล้วในตอนนี้ หนังสือพิมพ์ The Times ก็อ้างแหล่งข่าวภายในระบุว่าสาเหตุเกิดจากเจ้าหน้าที่ที่เข้าไปบำรุงรักษาศูนย์ข้อมูลของสายการบิน สับสวิตช์ปิดระบบจ่ายไฟโดยไม่ตั้งใจ
ก่อนหน้านี้ Alex Cruz ระบบในวิดีโอชี้แจงว่าปัญหาของเซิร์ฟเวอร์ล่มมาจากปัญหาระบบจ่ายไฟ แต่จากแหล่งข่าวของ The Times ตอนนี้การสอบสวนมุ่งไปที่ความผิดพลาดของมนุษย์มากกว่าอุปกรณ์
ที่มา - Strait Times
Get latest news from Blognone
Follow @twitterapi
Comments
ไม่มี 2 Power Source เหรอ
อาจจะ main switch ห้อง IDC ที่จ่ายเข้าตัว Server เลย คล้ายๆ UPS ระบบทั้งหมดพัง อันนี้มีกี่ Source ก็ช่วยยาก
ผมเคยเจอเคส แบบทำห้อง server เดินสายไฟแยกต่างหาก จากระบบไฟฟ้าของตัวอาคาร คือลงทุนทำห้อง กับ ระบบไฟไปแบบ หนังเกรด AAA โดยให้เหตุผลง่ายๆว่า
อาคารดับ server koo ไม่ดับ เฟ้ย เจ๋งป่ะหล่ะ
แล้วก็มีอยู่วันนึง รถพ่วงสิบแปดล้อ วิ่งไปชนหม้อแปลงไฟฟ้า พังไปตัวนึง จากสามตัว
แล้วตัวที่พังดันเป็นตัวของห้อง server อ่ะครับ ... ก็เศร้าๆ เหงาๆ กันไป
(ต้อง shutdown แต่ server ไม่พังครับนะ เพราะมี UPS คุมอีกชั้นนึง)
ของผมนี่ล่ะครับ ที่ไฟฟ้าแยกจากของอาคารแต่ผมใช้ไฟจาก 3 แหล่งจ่าย มีมาจาก 2 หม้อแปลง และ 1 เครื่องกำเนิดไฟฟ้า
แต่ที่น่าเศร้าคือ ผมดันเอามันมารวมกันหมด โดยใช้การขนาน UPS แบบ n+1เพื่อเพิ่มกำลังของ UPS ด้วย และใช้กับโหลดที่มีแหล่งจ่ายเดียว
มีอยู่ครั้งนึงฟ้าผ่าในโรงงาน สงสัยสายกราวด์ไม่ดี ไฟวิ่งย้อนกลับจากระบบกล้องวงจรปิดเข้ามา
ทั้ง UPS และ PLC ที่ใช้ควบคุมตู้ไฟพังเรียบ การ์ดบันทึกกล้องวงจรปิดก็พัง Core Switch ก็พังไปหลายรู
หมดค่าซ่อมไปเป็นเกือบ 2 แสน
หลังจากนั้น ระบบที่จะวิ่งเข้าห้องเซิร์ฟเวอร์ต้อง Isolate เท่านั้น ยกเว้นไฟฟ้าและใส่ Surge Protection ไว้ตรง Output ของ UPS ด้วย (กันไว้อีกชั้น จากที่ก่อนหน้านี้มีแต่ด้าน Input เพียงอย่างเดียว)
ส่วนของโรงงานก็ปรับปรุงระบบสายล่อฟ้าใหม่ หมดไปหลายแสนเหมือนกัน เห็นว่าใช้อุปกรณ์นำเข้าจากฝรั่งเศสเลย
นึกถึงสมัยตอน Ragnarok บูมๆ พอเซิร์ฟเวอร์ล่มที ก็บ่นกัน GM เตะปลั๊กหลุด
คนสับสวิตช์ปิด น่าจะรอดยาก ต้องตัดหัวเสียบประจาน หน้าห้อง Server :)
เด็กฝึกงานทำครับ
ไม่มี DR site ?
ระดับนี้คงมีแต่ คงไม่ขึ้นแบบทันทีทันใด
มีครับแต่ไม่ขึ้นhttp://www.pcworld.com/article/3198854/backup-recovery/power-surge-at-british-airways-data-center-causes-flight-chaos.html
ระบบไอทีของระบบ mission critical พวกนี้น่าจะกฎหมายให้มีกระบวนการ inspect/certifyได้แล้ว ผลเสียหายมันกว้างขวางมาก
ดึงปลั๊กออกเพราะจะชาร์จแบตไรงี้
ที่ทำงานผม
ups แยกเป็นสองระบบ เข้า server dual psu ขาล่ะระบบ
แต่การไฟฟ้ามีที่เดียวเลยได่หม้อแปลงเดียวกับ genset เลยยังอยู่ที่ tier-3
โอย เคยไปทำโรงงานประกอบรถยนต์แห่งหนึ่งซึ่งมีไฟแค่เฟสเดียว ถ้าไฟดับคือจบกันทั้งโรงงานทำอะไรไม่ได้ UPS ช่วยได้แค่ 20 นาทีจากนั้นปิดโรงงานไล่กลับบ้านเลย เป็นบ่อยด้วยนะนั่นเพราะไม่ได้อยู่ในนิคม
โรงงานประกอบหรือครับ หรือแค่โรงงานผลิตชิ้นส่วนส่งให้โรงงานประกอบครับ