Những lý do data center có thể bị "sập", bàn chút về vụ VNG
Duy Luân
2 năm trướcBình luận: 283Lượt xem: 53.233
Những lý do data center có thể bị "sập", bàn chút về vụ VNG
Chia sẻ với anh em một số lý do có thể khiến data center - là nơi đặt rất nhiều máy chủ (server) của một hoặc nhiều công ty - bị "sập" như vụ VNG ngày hôm qua. Một số do con người, một số do thiết lập không đúng, có thể là do cả thiên tai nữa.

Lỗi con người

Con người là nguyên nhân gây ra đa số tội lỗi trên đời, và trong môi trường data center cũng thế. Những sai sót trong bảo trì, bảo dưỡng hoặc chỉ đơn giản là những hành vi vô tình cũng có thể khiến cả một mạng lưới server trong data center "lên đường". Uptime Institute, hiệp hội đề ra các chuẩn cho data center toàn cầu, ước tính 70% số lần "sập" data center là do lỗi con người.

Một số lỗi có thể dễ dàng kể tới như:
  • Đánh dấu cáp không rõ ràng, rút nhầm cắm, cắm nhầm cáp
  • Thiếu sự huấn luyện trong tình huống khẩn cấp, dẫn tới việc kĩ thuật viên không biết phải làm sao cho đúng quy trình
  • Bố trí server không hợp lý
  • Lỡ tắt công tác của hệ thống khẩn cấp
  • Chỉnh nhiệt độ nhầm lẫn giữa độ C và độ F
  • Tháo dây nguồn làm server chết
Lỗi do hệ thống điện

Trong mọi data center đều có ít nhất một nguồn điện dự phòng, thậm chí chỉ một vài máy chủ nhỏ đặt ngay tại công ty cũng đã có đường điện riêng và luôn được đảm bảo liên tục nhờ máy phát rồi. Các trung tâm dữ liệu cỡ lớn đôi khi còn có 2-3 máy phát khổng lồ sẵn sàng hoạt động khi có sự cố mất lưới điện với thời gian sập gần như bằng 0. Một số nơi có sẵn hầm dầu để cấp cho máy phát trong trường hợp mất điện kéo dài.

Nhưng cũng có một số tình huống hiếm gặp khi mà máy phát dự phòng cũng bị hư hỏng. Các máy phát này cần phải được chạy thử và bảo trì liên tục để khi có sự cố thì chúng có thể hoạt động ngon lành. Nhưng ai mà biết được, nhiều khi xui quá thì cũng đành chịu 😁 Xui nhất là 2-3 máy phát điện cùng hỏng một lúc.

Google-Data-centers.jpg

Lỗi do hệ thống mạng

Hệ thống mạng của một số trung tâm dữ liệu thiếu chuyên nghiệp rất thường bị gián đoạn, bản thân mình gặp tình trạng này khá nhiều ở nhiều công ty. Các server khi đó vẫn chạy ngon lành, nhưng do chúng không thể giao tiếp với nhau và / hoặc không thể gửi dữ liệu ra khỏi data center để đi vào thế giới Internet nên sự cố cũng không khác nào việc server bị sập: người dùng không truy cập được, hoạt động của công ty bị gián đoạn, khách hàng phàn nàn, hàng không thể xuất kho...

Với lỗi do hệ thống mạng, sự cố thường sẽ được khắc phục nhanh chóng hơn so với các sự cố về điện hay phần cứng.

Lỗi do hệ thống làm mát

Máy tính anh em chạy lâu cũng có thể bị nóng, trong khi các server phải chạy gần như 24/7 không nghỉ phút nào. Chúng lại được đặt gần nhau nên lượng nhiệt tỏa ra càng nhiều hơn. Một số server chạy tính toán nặng thì CPU và GPU sẽ nóng lên rất nhiều. Những cái quạt tản nhiệt gắn lên mainboard hay lên thùng server là không đủ, người ta còn phải kiếm nhiều cách khác để làm mát server cũng như không khí xung quanh, chẳng hạn như Microsoft có một data center dưới biển và Facebook có data center dòng chất lỏng để tản nhiệt. Nhiệt độ lý tưởng cho data center là 8 độ C.

Khi hệ thống làm mát gặp sự cố, các server dễ quá nhiệt trong thời gian ngắn và tự ngừng mọi hoạt động để đảm bảo tính an toàn. Đây cũng là một thứ cần để tâm và hay được kiểm trang kỹ càng, thậm chí dùng cả mô hình khí động học để mô phòng tình huống hệ thống hỏng thì sao nữa kìa.

3881129_14524406_10103136675893161_8227743870037033580_o.jpg

Thiên tai, lũ lụt

Đây cũng là lý do mà các nhà cung cấp dịch vụ data center không bao giờ dám mạnh mồm tuyên bố dịch vụ của họ luôn chạy 100% thời gian, cùng lắm là chỉ dám cam kết 99,99% mà thôi (hay như Amazon có dịch vụ lưu trữ S3 cam kết tới 99,99999999% thời gian luôn online). Những thiên tai lớn có thể xảy ra khiến mạng, điện bị đứt và khi đó data center cũng sẽ mất nhiều thời gian khắc phục sự cố.

Bàn chút về sự cố của VNG

Như anh em cũng biết rồi đấy, gần cả ngày hôm qua toàn bộ dịch vụ của VNG như ZingMP3, Zing, Baomoi, Zalo, ZaloPay đều lên đường. Một số trang web sử dụng hệ thống quản lý nội dung đặt tại data center của VNG và những khách hàng thuê máy chủ của VNG cũng dính sự cố dây chuyền cực kì nghiêm trọng. Tới tối một số dịch vụ mới chạy lên, và phải sáng nay Zalo mới bắt đầu chạy trở lại.

Mình có biết rằng VNG có vài data center, một cái ở Hà Nội, và một cái đặt tại Công viên phần mềm Quang Trung ở quận 12, TP.HCM. Cái ở Quang Trung là cái gặp sự cố hôm qua, và có vẻ như nó là nơi đặt tất cả những dịch vụ cốt lõi sống còn của Zing.

Thường thì khi thiết lập các hệ thống lớn chục triệu, trăm triệu người dùng, người ta sẽ thiết lập thêm một thứ gọi là DR Site. DR viết tắt cho chữ Disaster Recovery, tức bạn sẽ khôi phục sau thảm họa như thế nào. Người ta thường thiết lập từ 2 DR Site trở lên, ví dụ một cái ở Hà Nội một cái ở TP.HCM để lỡ cái ở TP.HCM có bị nổ tung thì dịch vụ vẫn có thể chạy tiếp như bình thường, lưu lượng sẽ dc chuyển hướng ra Hà Nội. Mấy ông kiểu Facebook, Google thì DR Site khắp nơi, xuyên suốt nhiều quốc gia, nhiều châu lục.

DR_Site.jpg

Trong trường hợp của VNG, có vẻ như thiết lập nhiều DR Site đã không hiệu quả hoặc không chạy được như kỳ vọng nên mới dẫn tới tình trạng như trên. Chắc là VNG cũng không đến nỗi không làm DR Site, có điều họ gặp sự cố nào đó nên hệ thống dự phòng không chạy lên hoặc do họ không thiết lập dự phòng cho các dịch vụ cốt lõi của họ.

Ngoài ra, sự cố về máy phát điện cũng có thể là nguyên nhân khiến các server bị sập trong thời gian dài. Không phải công ty lớn là không mắc sai lầm :D mọi thứ đều có thể diễn ra.

Cuối cùng, mình cũng nghi ngờ rằng bởi vì vụ cúp điện này mà server / nơi lưu trữ dữ liệu cũng bị ảnh hưởng, có thể là chết server, chết ổ lưu trữ hay cái gì đó tương tự. Sáng nay nhiều anh em dùng Zalo nói rằng nhiều ảnh đã mất, chưa biết thế nào do mình không xài Zalo nhiều.

Những tình huống như trên cũng là lý do vì sao mình không tin tưởng nhiều vào các dịch vụ hosting giá rẻ hay miễn phí, vì mọi thứ đều có thể xảy ra theo chiều hướng xấu. Mình sẽ ưu tiên sử dụng các cloud server từ những tên tuổi lớn như Amazon Web Services, Google Cloud, Digital Ocean nếu có thể. Còn nếu phải đặt server trong nước, mình sẽ chấp nhận chi tiền nhiều chút để đổi lại sự ổn định trong hoạt động.
cover_home_su_co_data_center.jpg
Ko biết cái dc này có đc chuẩn 3 tier chưa nhỉ? Nghe một số anh trong ngành bảo là rồi nhưng ..... ;)
@dinhdobathi Lâu rồi bạn nhé
@nhoxs2zin Vultr nhanh hơn chút.
@dinhdobathi nếu tier 3 thì khó xảy ra mất điện lắm bạn ơi
@Penguin Pingu Chuẩn luôn bác. Ở VN DC của FPT được cấp chứng chỉ Uptime Tier 3 đầu tiên luôn, gần đây có thêm VNPT.
Còn các DC khác họ chỉ triển khai dựa trên tiêu chuẩn Uptime Tier 3 thôi, và chưa đc đơn vị nào chứng nhận cấp chứng chỉ cho cả.
Thanks.
Hên là xong rồi tưởng mất 3 tài khoản Thiên Long gần 50tr.
@Thạch 42 Mình bị mất hết ảnh quý trên Zalo. Giờ kiện ai đây trời. Chỉ biết ngậm cục hòn.
@hieuvn12 Kiện đc đâu, ZL là mạng xh mà. Bro fai lưu hình dự phòng chớ
@hieuvn12 Game Tân Thiên Long mình đang chơi bây giờ đả vào được nhưng tiền trong tài khoản bị mất sạch. Nhiều con buôn mất bạc tỷ này.
@hieuvn12 ẢNH TRÊN ZALO NÓ NÉN LẠI XẤU HOẮC TIẾC CHI .
@hieuvn12 Ảnh quý gì thế bác 😁
vụ VNG là lỗi do nhầm nhà vệ sinh với tủ server nha :p
@Thien Quoc Đọc báo thấy có mấy đợt giải hạn gì ngồi đầy ngoài đường ở HN, cái đó gọi là gì bạn, bên Tây có lễ nào tương tự vậy không cho mình xin ít info 😁
VN so với tàu chắc 9/10 thôi.
@nhoxs2zin Tục lệ thôi chu k tin
@meodihia_cool Trong trường hợp này thì nên liên hệ Tủ Lạnh để được hướng dẫn kinh nghiệm khắc phục hiệu quả, tránh mất server hoặc nghỉ chơi vì không thích thay server 😃
@MrHải999 Ô, ông chưa xem đức gáo hoàng đứng vẩy nước thánh vào cái cục data center cầu phước à ?
Nói chung là sau vụ này VNG sẽ có nhiều bài học kinh nghiệm quý báu mà các nhà cung cấp khác không có được. Nghĩ tích cực vậy cho thoải mái đi. Mấy anh em VNG thức đêm hôm qua thì nhớ ngủ giữ sức khoẻ chiến đấu tiếp nhé
Hy vọng VNG có buổi họp báo công bố nguyên nhân chính thức. Để thiên hạ đoán già, đoán non thì danh tiếng bao nhiêu năm mà VNG gầy dựng đổ sông, đổ biển
@dat225 @dat225: Sao bạn biết zalo là hàng TQ? Tencent à? 😃
@beluxubu: nếu đổ thừa cúp điện thì k họp lý đâu bạn ơi. Nhiều báo đã trích dẫn câu trả lời của EVN rồi mà. 1 data center bị sự cố do mất điện thì cả năm chắc mất hoài. 😃
@Sao_Cung_Duoc có biết gì không mà phán bừa, nó không 100% của tàu thì 95% nhé, thằng tàu nó đầu tư vào đây từ lâu rồi, mấy cái trang mua sắm trực tuyến nữa, đều có phần lớn là cổ phần của tàu
@HungNguyen94 Chuẩn cơm mẹ nấu
@Sao_Cung_Duoc Data center là dạng tuyệt mật nên họ có công bố thì không đúng sự thật đâu! Chả ai vạch lỗi ra chi mọi người biết đâu
Chắc anh nào xỉn tưởng server là cái bồn cầu rồi 😆))
@nguyenvan.can.3382 ;)) người ta troll tí thôi mà
Thật thà thế
@nịnastorm Chuyện troll từ VOZ mà nhiều thím tưởng như thật 😁
@nguyenvan.can.3382 thì cũng có 1 thằng quản lý, và thằng đó là thằng vào thì sao =))
@nguyenvan.can.3382 lỡ chính cái hội canh cửa nó tưởng nhầm thì sao? 😁
trước vccop cũng bị không biết có lỗi như nhau không nhỉ?
@nguyenvan.can.3382 Hello thánh spam
Đọc báo thấy chưa qua chứng thực từ hãng.
Host của vng chắc cũng ko rẻ đâu mà dễ sập như hàng lởm
@www.HanoiRC.com VNG là tiên phong về phốt lâu năm tại VN mà 😃 từ game cho tới social 😃
Hên quá, con game mình vẩn còn.
Chắc ông kỹ thuật nào nhậu sỉn đái nhầm vào modem thôi mà
Cứ cho là lỗi gì thì lỗi nhưng:
+gặp lỗi xong mà rất nhiều giờ chưa khắc phục xong thì quá buồn cho một công ty công nghệ hàng top Việt Nam
+thông cáo ra ngoài đổ tội cho ông dịch vụ mà không có bất kì một lời xin lỗi nào chứng tỏ cái công ty còn cái "văn hóa đổ thừa" bự tổ chảng.
@O11eN1ghtS7and Vậy bạn gg nhé thật ra định đưa link mấy trang VN sợ bạn bảo báo lá cải nên mới quăng cái link của BBC thần thánh mà các nhà dân chủ hay ca ngợi.
Nói thật với thế lực như TQ thì nó muốn dữ liệu ng dùng các nước trừ Mỹ thì chắc ngoại lệ chmấy hãng cũng phải nôn ra thôi nhưng là bí mật
Screenshot_20180925-122945_Samsung Internet.jpg
Screenshot_20180925-123008_Samsung Internet.jpg
@Hunglong96 Èo, đỗ trên diễn đàn tinhte à?

Cụ thể account đỗ thừa tên gì? Nội dung ntn bạn?
@Thien Quoc Như thế nào là đổ lỗi cho điện lực vậy bạn? Báo ghi rõ ràng là điện gặp trục trặc điện trong lúc điện cắt mà, how to đổi lỗi cho điện lực 😁
@Lee Ta Ri Điện lực nó báo trước 5 ngày cho chuẩn bị, đến khi nó cắt để sửa chữa thì VNG cũng ngỏm luôn. Khi có sự cố thì gửi văn bản báo là sự cố do điện lưới mất. Sau thằng điện lực nó gửi văn bản đưa chứng cứ là đã báo trước, rồi thằng Quang Trung cũng đưa văn bản đã báo cho các đơn vị nằm trong QTSC thì VNG mới đổi giọng.
Cũng khó trách họ về cv nhưng về giải thích khách hàng dường như k quan tâm lắm
Dù bất cứ lý do gì nhưng để xảy ra sự cố lâu như vậy và cách giải thích với khách hàng như công bố vừa rồi là chưa chuyên nghiệp!
Có gì đâu, ở đây chúng tôi làm đúng quy trình cả, lỗi do định mệnh thôi. Vài bữa nữa kéo mây về vn còn vui nữa. Tập sống chung với lũ dần đi cho quen
@cyberat Đúng quy trình rồi, nhiều con lừa tin sái cổ lỗi qua mất điện. VL
@minhcuongpro1234 mình cũng éo tin cái lỗi mất điện 😆. Riêng phòng sever thì lúc nào cũng phải đảm bảo nguồn điện online 24/24. Mất điện sẽ có điện dự phòng ngay . Đây mất cả 1 ngày mà đổ lỗi vớ vẩn do mất điện. Đúng là chỉ thấy ở VN
Chưa nói j về ai đúng ai sai... Mất kết nối cả ngày thì bố ai dám tin
@Bão Sài Gòn Chuẩn mất cả 1 ngày mà đổ lỗi cho điện lực 😆. Chẳng lẽ phòng sever to thế mà k chuẩn bị mấy nổ máy phát. Phòng trường hợp mất điện vài ngày 😁
Chỉ có 1 lỗi duy nhất là không có tiền thôi. Hệ thống được built với "fall-over" thì dù có lỗi nó cũng không hề gì.
@Duy Luân VNG có cộng đồng đông như quân nguyên, nơi tụ tập toàn siêu cao thủ võ lâm mà không chịu làm sao? :eek::eek::eek: xong vụ này chắc cũng có 1 mớ cao thủ đi bụi hết quá!
@QuanTran2222 Cũng không rõ, bởi mình mới thấy kì kì
@Duy Luân Khả năng do quân nguyên tạo phản haha
@QuanTran2222 Nhiều khi đông mà thiếu mỗi Ảnh thợ điện thôi, hihi
nói chung là ko thoát khỏi hacker đâu
@QuanTran2222 Tớ từng hợp tác với VNG, từng ghé Vinadata, tớ biết quy mô và cách làm việc của họ chuyên nghiệp thế nào, nên mấy ng như bác mở miệng ra chê, chê bằng những phỏng đoán con nít, tớ mắc ói lắm...
@beluxubu mình có chê đâu bác? o_Oo_Oo_O khen toàn cao thủ chứ có dám chê câu nào đâu. :rolleyes::rolleyes::rolleyes: bác đang nghĩ gì vậy? 😁 :D :D vd như bác đây làm ở viettel DC nên chắc cũng thuộc tuýp cao thủ luôn, nên có kêu bác đừng chém em thôi. :D
@beluxubu thông thường dân kỹ thuật bình thường nói ra cái gì thì cũng biết, cũng tỏ ra mình am hiểu, mình ngon nhưng khi có vấn đề thực tế thì lúc đó mới biết ai thực sự biết cái gì, làm được cái gì, làm đến đâu. Nghe bác nói thì mình nghĩ bác là cao thủ rồi 😁
  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2020 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: 209 Đường Nam Kỳ Khởi Nghĩa, Phường 7, Quận 3, TP.HCM
  • Số điện thoại: 02862713156
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019