Giải thích việc Facebook sập trong 5 tiếng gây ảnh hưởng đến cả thế giới

Duy Luân
5/10/2021 11:51Phản hồi: 78
Giải thích việc Facebook sập trong 5 tiếng gây ảnh hưởng đến cả thế giới
Facebook không thể sập? Khoan, chờ tí, sập được đó, và sập hẳn 6 tiếng mới lên lại được, kéo theo WhatsApp, Instagram cũng chết theo, và nhiều việc dựa trên các dịch vụ của Facebook hay những công ty, những việc cần chat qua WhatsApp cũng bị gián đoạn. Vì sao lại như thế? Mời các bạn xem giải thích chi tiết từ Cloudflare, một trong những công ty cũng thuộc dạng sừng sỏ cung cấp dịch vụ hạ tầng và bảo mật cho thế giới web, và cũng là công ty cung cấp dịch vụ 1.1.1.1 mà nhiều bạn đang dùng.

Ngày hôm nay lúc 15:51 UTC (là theo múi giờ GMT+0), chúng tôi mở một ticket lỗi mang tên “Việc tìm kiếm DNS của Facebook trả về SERVFAIL”. Lý do là Cloudflare nghĩ dịch vụ 1.1.1.1 bị lỗi gì đó không thể tìm thấy các server của Facebook. Nhưng sau đó ít lâu, các kĩ sư của Cloudflare cũng như cả thế giới đều xác nhận rằng lỗi nằm ở Facebook, hạ tầng của họ đã “biến mất” khỏi thế giới Internet trên phạm vi toàn cầu. Thậm chí các địa chỉ IP của server vận hành Facebook cũng không thể truy cập. Như thể có ai đó rút điện toàn bộ server của họ cùng lúc vậy.

Facebook giải thích rằng các kĩ sư của họ đã cấu hình không đúng các router dùng trong những data center của công ty, khiến việc điều hướng dữ liệu giữa các data center bị lỗi. Việc này tạo ra ảnh hưởng lên nhiều data center, nhiều dịch vụ khác nhau.

Về phần Cloudflare, họ nhận thấy vấn đề nằm ở BGP và DNS.

BGP là gì?


BGP viết tắt cho chữ Border Gateway Protocol, là cơ chế để điều hướng dữ liệu giữa các hệ thống tự động (autonomous systems - AS) trên Internet. Thế giới Internet thực chất là một mạng lưới những mạng lưới cùng kết nối với nhau. Nhờ có BGP mà router biết được gói tin mà nó nhận cần được di chuyển di đâu, có những lựa chọn đường đi khả thi nào để tới được điểm cuối cùng. Không có BGP, các router sẽ không biết làm gì, Internet sẽ chết.

Nói cách khác, BGP cho phép một network (ví dụ, network các máy chủ của Facebook) có thể tự “quảng cáo” (advertise) bản thân đến cho những network khác trên Internet. Khi gặp sự cố, network của Facebook đang không tự quảng cáo cho bản thân nó, nên các nhà mạng và những network khác sẽ không biết tìm network của Facebook ở đâu, đố anh bắt được em.

Mỗi network sẽ có một số định danh của nó, gọi là ASN - Autonomous System Number. Số này giống như địa chỉ của network. Một AS có thể biết và quản lý một cụm các địa chỉ IP khác nhau, hoặc nó cũng có thể biết đường để chuyển dữ liệu đến những cụm IP khác.

ASN của Cloudflare là AS13335. Mọi ASN cần phải thông báo về các đường đi của dữ liệu thông qua BGP, bằng không thì người khác không thể tìm thấy bạn.

Trong hình bên dưới, bạn có thể thấy 6 hệ thống AS trên Internet, chúng có 2 đường khả thi để một gói tin có thể đi từ điểm “start” đến điểm “end”. Đường AS1 → AS2 → AS3 là đường nhanh nhất, nhưng nếu đường này bị hỏng thì có thể dùng đường AS1 → AS6 → AS5 → AS4 → AS3. Đường thứ hai sẽ chậm hơn do phải đi qua nhiều bước trung gian, nhưng vẫn đỡ hơn là không có đường nào để đi.

[​IMG]

Vào lúc 15:58 UTC, Cloudflare nhận thấy Facebook đã dừng thông báo các đường đi khả thi trong hệ thống DNS (phân giải tên miền) của họ. Nói cách khác, ít nhất là server dùng cho việc phân giải tên miền của Facebook đã chết. DNS làm nhiệm vụ chuyển tên miền chữ, ví dụ facebook.com, thành một địa chỉ IP cụ thể, ví dụ 234.14.200.89. Thường thì trong các web và app, lúc cần gọi dữ liệu, cũng như khi giao tiếp với nhau thì người ta chỉ dùng tên miền chữ, hiếm khi nào nhập nguyên IP thô lắm.

Thế nên khi hệ thống của Facebook gặp sự cố, app và web Facebook không thể tìm được server, và không thể lấy dữ liệu về, cũng không thể gửi dữ liệu lên. Mọi thứ mắc kẹt, và đó là lúc mà chúng ta nhận thấy Facebook sập. Cloudflare cũng vậy, DNS 1.1.1.1 của họ không biết làm sao để tìm thấy địa chỉ IP cho những yêu cầu về facebook.com.

Quảng cáo


Cloudflare theo dõi tất cả những thông tin cập nhật và thông báo liên quan tới BGP trên mạng lưới toàn cầu của họ. Ở quy mô lớn của Cloudflare, dữ liệu mà họ thu thập có thể giúp chúng ta nhìn rõ hơn về cách mà thế giới Internet được kết nối với nhau, dữ liệu sẽ chảy đi đâu.

Một gói tin dùng để cập nhật thông tin BGP được gọi là BGP UPDATE, nó sẽ báo cho router biết bất kì thay đổi nào có liên quan tới luồng đi của dữ liệu, hoặc nếu bạn hủy hoàn toàn luồng đi. Dữ liệu bên dưới là các gói tin BGP UPDATE của Facebook. Bình thường thì nó nhỏ thôi, không đáng kể, nhưng khoảng 15:40 UTC thì số lượng BGP UPDATE đột nhiên vọt lên cao. Đó cũng là lúc các vấn đề bắt đầu xảy ra.

image4-11.png

Nếu tách các đợt cập nhật này ra chi tiết hơn, có thể thấy rằng các đường đi của dữ liệu bị rút đi, server DNS của Facebook không còn hoạt động, và sau đó 1 phút, các kĩ sư của Cloudflare bắt đầu hỏi nhau vì sao 1.1.1.1 không thể kết nối đến facebook.com. Cơ bản là với việc rút các route này, Facebook đã tự ngắt mình khỏi Internet.

image3-9.png

Cơ chế hoạt động của các DNS server đó là nó sẽ kiểm tra trong cache để biết coi facebook.com có đang trỏ tới địa chỉ IP nào mà DNS server đã biết hay không. Nếu có thì dùng luôn, còn nếu không thì nó sẽ đi hỏi nameserver của tên miền, thường sẽ được host bởi công ty sở hữu tên miền. Nếu nameserver bị lỗi, bị chết hoặc có vấn đề gì đó, thì sẽ có một mã lỗi được trả về là SERVFAIL, rồi sau đó trình duyệt sẽ báo lỗi về cho người dùng.

Quảng cáo


image8-8.png

Vì Facebook ngừng phát đi dữ liệu cần thiết, DNS server của Cloudflare và nhiều công ty khác không thể kết nối với nameserver của Facebook. Như vậy 1.1.1.1 hay 8.8.8.8 hay các ISP của nhà mạng đều nhận được mã SERVFAIL.

Nhưng chưa hết. Giờ là lúc loài người hành động theo bản năng. Khi thấy web và app bị lỗi, người dùng trên toàn thế giới bắt đầu refresh trang, hoặc mở lại app, thế là một loạt yêu cầu lại được gửi về các DNS server, và nó vẫn tiếp tục bị lỗi, nên có vọt lên như hình bên dưới. Ngoài con người, các hệ thống cũng được lập trình để tự thử lại khi yêu cầu bị thất bại, có khi thử lại tới 2-3 lần trước khi ngừng lại nên càng làm cho tình hình tệ đi.

image6-9.png

Vì Facebook quá to, nên số lượt yêu cầu tăng thêm 30 lần so với bình thường và có thể gây ra lỗi với một số nhà cung cấp dịch vụ DNS khác, còn 1.1.1.1 thì không bị ảnh hưởng. Đa số yêu cầu phân giải DNS đều được xử lý dưới 10ms.

Ảnh hưởng đến các dịch vụ khác


Khi mà Facebook sập, người ta đi qua những nền tảng khác để thảo luận. Các nền tảng như Twitter, Signal, Telegram, TikTok ghi nhận mức tăng đột biến về lưu lượng truy cập.

image1-12.png

Đến khoản 21:00 UTC, các gói cập nhật BGP từ Facebook bắt đầu xuất hiện lại, cao nhất là vào lúc 21:17 và các dịch vụ của Facebook dần dần xuất hiện trở lại.

unnamed-3-3.png

Thế giới Internet mong manh hơn bạn nghĩ


Sự việc ngày hôm nay nhắc chúng ta rằng Internet rất phức tạp, và mức độ phụ thuộc lẫn nhau của các hệ thống là rất cao. Internet chạy được là nhờ việc tuân theo các chuẩn, các giao thức đã được thống nhất bởi cả thế giới.

Nguồn: Cloudflare, Ảnh đầu bài của The Verge
78 bình luận
Chia sẻ

Xu hướng

nonliving
ĐẠI BÀNG
3 năm
Mình rất thix câu kết, internet mong manh hơn bạn tưởng...
@nonliving Đây cũng là một phép thử sự lệ thuộc vào FB, IG, may quá hôm qua nó không ảnh hưởng gì tới mình, mặc dù lúc đó mình chưa ngủ 😁 Lúc đó vào FB thấy toàn bài viết từ vài tiếng trước, kéo xuống để refresh thấy ảnh không hiện nên biết là có vấn đề nên thôi vứt điện thoại đó vào xem pỏn. Sáng ra thấy mọi người rần rần nên cứ như sắp chết đến nơi không bằng.
vuatocdoDN
TÍCH CỰC
3 năm
@COVID-19 CHN FB cũng chỉ là 1 mạng xã hội, khi nó chết đi thì có mxh khác lên thay thôi, giống như blog360 hồi xưa vậy.
vuatocdoDN
TÍCH CỰC
3 năm
@nonliving cty mình cũng dùng workchat, cũng may là giờ đó ít trao đổi thông tin nên mình không nhận ra ;)))
nonliving
ĐẠI BÀNG
3 năm
@vuatocdoDN Tình hình là chưa thấy ai thay thế ah
Thích nhất Duy Luân vì những bài viết đậm chất kiến thức kỹ thuật thế này rất bổ ích trong việc bổ sung kiến thức
Firewolf
ĐẠI BÀNG
3 năm
@Trần Hùng TD ai có kiến thức tốt thì mấy từ đó ko cần dịch sang tiếng Việt bạn à. Với lại, lưu lượng và dữ liệu mang nghĩa hoàn toàn khác nhau nhé, không phải cứ từ này thay cho từ khác được.
mimosa1805
TÍCH CỰC
3 năm
Đọc chả hiểu gì cả. Con người thì phải có sai sót
@mimosa1805 Nôm na là mạng lưới Internet nó như 1 cái bản đồ đường thành phố. Muốn đi từ A (điểm bạn truy cập FB) tới B (server của FB) thì có đội ngũ CSGT hướng dẫn bạn đi theo 1 lộ trình nào đó để bạn tới được B. Nhưng hôm đấy đội CSGT đi nhậu hết nên ko có ai hướng dẫn đường cho bạn. Bạn đi lòng vòng lại về chỗ cũ nên ko bao giờ tới đc B, và nhận đc kết quả là B sập cmnr. Hehe
Sao k sập luôn đi
@Mr.Whisky Có cái facebook thôi mà cả thế giới điên loạn
Cảm thất may mắn vì 4 năm nay k quan tâm gì đến fb, đến lúc nó mất mình cũng chẳng biết
Vậy mà nhiều ng đứng ngồi không yên, thế mới biết nó gây nghiện đến mức nào
Từ ngày fanpage nó bóp tương tác, k đổ tiền là k lên đc thì chỉ mong nó sập luôn cho rồi 😆
@Mr.Whisky Sập facebook.com thì được. Chứ sập fb workplace là coi như phải lên công ty đi làm khỏi wfh luôn 😁
@vietnamMBC Fanpage là 1 trong những nguồn thu của FB mà. Nó ko bóp tương tác thì ai cống tiền cho nó sống. Mạng xã hội phải ăn tiền quảng cáo chứ có hít khí trời để sống đâu. Giờ hình như chỉ còn Group là vẫn đc tương tác tốt dù k phải mất tiền thì phải
i2Bi
CAO CẤP
3 năm
Nhầm rồi. Anh Mark học hỏi ai đó đái vào server nên sập đó
lehongxuan
TÍCH CỰC
3 năm
@i2Bi chắc đang bị ai đó hack nhưng mà bí cách giải quyết nên làm liều chăng 😁
Metal 3338
ĐẠI BÀNG
3 năm
@i2Bi Nên vậy, đôi lúc kéo sập để xem mình ở trên trời hay dưới hố.
khiếp kỹ các kỹ sư cũng có lúc buồn ngủ, đây mà chắc là bị ép chạy dead line quá nên nhầm lẫn đây mà xem
Khiemauto
TÍCH CỰC
3 năm
@A0kiji Làm OT. Uống tăng lực nhiều.
HuynhNgLe
TÍCH CỰC
3 năm
@A0kiji Haha, bình thường mà. Đã là con người ai chẳng có lúc sai sót. Cloudflare nó nhiều chuyện vậy chứ cách đây mấy năm nó cũng config firewall sai kéo theo mấy triệu website chết theo nó kia.
duyvua
TÍCH CỰC
3 năm
@A0kiji Nhiều khi bữa giờ bị dập nhiều quá, nên nó cố tình làm phát, để nhắc nhở thế giới nó vẫn còn quan trọng như thế nào 😁
royalcruiser
ĐẠI BÀNG
3 năm
Thế giới vận hành theo 1 chuỗi dây chuyền. Thế nên trước đây nhiều người vẫn nghĩ là mình chỉ bán quán nước nhỏ, kinh doanh lằng nhằng thì không bị ảnh hưởng bởi những thứ trên mây như kiểu chiến tranh, đánh bom khủng bố, giá dầu tăng,...
Lâu lâu ngắt điện xả hơi bữa
chắc do lỗi đánh máy.
mấy ông kĩ sư cấu hình BGP gõ sai gì đó làm router ko định tuyến được 🤣
Công nhận, thế giới mạng phức tạp hơn mình nghĩ nhiều
Mình là Data Engineer. Mình chả thấy FB sập ảnh hưởng gì tới toàn bộ thế giới cả. Họ không vận hành hệ thống network toàn cầu. Chắc những ai có việc gì đó liên quan tới FB mới bị ảnh hưởng thôi.
Kai Truong
ĐẠI BÀNG
3 năm
@Le tuong huy Chuẩn
vitaminmi
ĐẠI BÀNG
3 năm
@Le tuong huy Thực tế là nhiều chứ. Rất nhiều tracking của fb gắn vào app web. Bà nhiều thứ gọi về api fb nữa. Lúc fb bị, rất nhiều hệ thống, web trên thế giới có liên đới tới fb đều bị chậm đi phần nào mà kêu ít hehe
@Le tuong huy Mất chỗ hóng tin, hóng biến cũng buồn chứ.
_ Cái lớn nhất cần phải tìm hiểu không phải tại sao FB sập, mà là hệ thống dự phòng backup, DR của họ ở đâu, tại sao không có dự phòng hay kế hoạch cho các vụ như thế này. Dự là hàng loạt nhân sự IT cấp cao ra đi ...
Cười vô mặt
bibo311
TÍCH CỰC
3 năm
@iceteazz chính xác, thằng DR này vứt đi cho chó gặm à, thằng FB vs mấy ông liên quan giải thích vớ vẩn
CF đã viết 1 bài rất hay vào đúng nửa đêm 😁
MatiDev
ĐẠI BÀNG
3 năm
Nhờ bạn nhắc vụ AS, mà giờ mới ngồi coi kĩ lại câu lệnh tracert của Windows
x_chien
TÍCH CỰC
3 năm
Sao nó ko sập luôn đi ! Ko có Facebook thế giới sẽ tốt đẹp hơn 100x
lehongxuan
TÍCH CỰC
3 năm
@x_chien bạn chắc không?
@x_chien câu trả lời của bạn FB nó đã quá ăn sâu và ảnh hưởng cuộc sống của bạn. nên bạn mới mong nó biến.
@x_chien My space thay thế 360 yaoo
Facebook đã thay thế my space
Tiktok đang trên đà thay thế tb
Nên fb có sập thì cũng có thằng khác toxic ko kém lên thôi bác 😁
vuatocdoDN
TÍCH CỰC
3 năm
@megatroll Đúng như bác nói luôn, thằng này chết sẽ có thằng khác lên thay, mà thằng sau lại gây nghiện hơn thằng trước ;))))
Facebook sập 6 tiếng nó đã tệ vậy rồi. Google, Microsoft với AWS mà sập toàn bộ data center thì coi như Internet đã chết 😁
truongan9393
ĐẠI BÀNG
3 năm
@bango123 Microsoft mà sập thì các doanh nghiệp, trường học trở về thời đồ đá
bluewolf
TÍCH CỰC
3 năm
@bango123 Ngáo à, Internet liên quan gì đến mấy cty này
Thanchet92
TÍCH CỰC
3 năm
Gây lỗi nghiêm trọng như này thì mấy ông kĩ sư có bị sa thải ko nhỉ?
@Thanchet92 bị khiển trách thôi chứ đuổi thế nào dc 😁 .
Công ty nào cũng thế, trừ mấy đứa lèo tèo thì training 1 nhân viên để trở nên cứng phải mất tầm 6 tháng - 1 năm trở lên. Đuổi nhiều quá lấy đâu ra người đủ kinh nghiệm lấp chỗ trống :D .
Chưa kể với cái CV làm ở Fb thì ko khác gì 1 ở VN đã làm ở tầm Vin, rải CV 1 cái là các công ty gọi vội luôn ý.
mình còn chả biết vì mình ít dùng facebook

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019