Tết Ant Khang

Tết Ant Khang


Chip lớn nhất Cerebras WSE-3 'đánh gục' mọi siêu máy tính AI trên toàn cầu

Lư Thế Nghĩa
23/11/2024 15:24Phản hồi: 26
EditEdit
Chip lớn nhất Cerebras WSE-3 'đánh gục' mọi siêu máy tính AI trên toàn cầu
Dù ra đời không lâu thế nhưng Cerebras là cái tên mà mọi hãng chip đều phải dè chừng. Đây là công ty đã làm giới công nghệ "bật ngửa" khi lần đầu công bố WSE (Wafer Scale Engine) hồi 2019 với con số transistor mà ngay cả Apple, AMD, NVIDIA, Intel tới 2024 vẫn chưa làm được là 1200 tỷ! Còn với 4000 tỷ transistor và 900,000 nhân AI, Cerebras WSE-3 là con chip lớn nhất nhân loại từng sản xuất được.

Về cơ bản mà nói thì WSE thực chất là một con chip được "đúc" ra từ đúng một tấm wafer 300 mm (wafer scale), dựa trên công nghệ SoW của TSMC. Từ đó cho tới nay, Cerebras đã có 3 thế hệ WSE-1, 2, 3 và chúng được triển khai lần lượt trên các hệ thống CS-1, 2, 3 tương ứng. Con chip WSE-3 mới nhất được công bố hồi đầu năm nay dĩ nhiên có kích thước vật lý không đổi, nhưng "nội tạng" chứa tới 4000 tỷ transistor (5 nm) và 900,000 nhân xử lý AI!

Công nghệ làm chip TSMC CoW-SoW và sự 'điên loạn' của ngành bán dẫn

Thời kỳ những con chip to bằng móng tay, ngón tay, bàn tay... cũng gần đến lúc kết thúc. Sắp tới đây bạn sẽ thấy "con chip" to bằng cái nồi cơm, bếp điện... và ai biết được rằng liệu con chip trong tương lai có “bự” bằng cả cái bàn hay không?...
tinhte.vn


Đáng nói hơn ở WSE là con chip này không dùng loại bộ nhớ "rẻ tiền" như GDDR hay "tàn tàn" như HBM, mà là "hạng sang" SRAM, với dung lượng cực khủng tới 44 GB, cho phép đạt băng thông lên đến 21 PB/s! Bên cạnh đó để đảm bảo việc liên lạc giữa 900,000 nhân xử lý, WSE-3 còn có một mạng lưới liên kết nội bộ lên đến 214 Pb/s. Tổng quan lại, con chip "khủng long" này cho sức mạnh tính toán tối đa tới 125 Petaflops. Và một siêu máy tính tạo ra từ 2048 node WSE-3 sẽ cho năng lực điện toán tới 256 exaflops!

Inference đè bẹp mọi đối thủ


Nhưng đó là chuyện hơn nửa năm trước. Còn tại SC24 mới đây, Cerebras vừa công bố loạt thông tin mà cả NVIDIA cũng cảm thấy mình thật... "nhỏ bé". Cụ thể khi so sánh năng lực inference dựa trên mô hình Llama 3.1 405 tỷ tham số (Llama 3.1-405B), hệ thống CS-3 đạt mức output tới 969 token/s, mạnh gấp 75 lần dịch vụ AI nhanh nhất dựa trên GPU của Amazon Web Services. Thực tế không có hệ thống AI nào dùng GPU cán được mức 100 token/s. Chỉ duy nhất nền tảng dùng ASIC của SambaNova là đạt 164 token/s, nhưng so với con số của CS-3 thì...

[​IMG]
llama31-chart-02.jpg
So sáng năng lực output lẫn latency của CS-3 với các nền tảng AI khác

CS-3 không chỉ đè bẹp về output, mà cả latency (độ trễ) cũng khiến các đối thủ phải ngậm ngùi. Cụ thể hệ thống của Cerebras chỉ mất có 240 ms để hồi đáp yêu cầu của người dùng. Còn SambaNova dù output hơn các GPU khác nhưng "bị đơ" tới 1620 ms. Công ty này còn "sỉ nhục" đối thủ khi công bố một đoạn clip so sánh tốc độ phản hồi như sau:




Cần nói thêm rằng Llama 3.1-405B chỉ mới được Meta công bố hồi giữa năm nay. Còn các mô hình Llama trước đó đều là "muỗi" với công ty này. Ví như Llama 3.1-70B họ đã sớm đạt mốc 2200 token/s. Còn Blackwell của NVIDIA mặc dù mạnh hơn Hopper song chạm tới WSE-3 là điều quá khó với con chip này.

CS-3 vs. GPU 1.png
CS-3 vs. GPU 2.png
WSE-3 "chấp" các hệ thống khác dùng mô hình AI nhỏ hơn

Quảng cáo



Cerebras cũng không quên "troll" các giải pháp GPU của đối thủ kể cả khi chạy Llama 1 tỷ tham số vẫn còn thua đậm CS-3 chạy Llama 405 tỷ tham số!

Chạy giả lập phân tử mạnh hơn cả siêu máy tính


Nếu có chi tiết nào cần nói rõ, thì ứng dụng siêu máy tính (HPC) và trí thông minh nhân tạo (AI) là 2 mảng khác nhau. Rất nhiều người bị "bé cái lầm" chỗ này. Trong khi các thuật toán AI thường dựa trên các toán tử có độ chính xác không cao (16-bit trở xuống) thì siêu máy tính thường đòi hỏi năng lực tính toán dấu phẩy động càng chính xác càng tốt (thường là FP32, FP64). Chip của Cerebras tuy ban đầu sinh ra cho AI, nhưng mới đây nhất nó cho thấy khả năng chạy HPC cũng rất bá đạo!

sandia-pr-image-01.jpg
Chỉ hỗ trợ FP32 nhưng CS-2 thực sự quá mạnh!

Cerebras khi hợp tác với các cơ sở nghiên cứu như Phòng thí nghiệm Quốc gia Sandia, Lawrence Livermore và Los Alamos (Mỹ), đã cho con chip của mình thử sức chạy mô phỏng động học phân tử (molecular dynamics) bên cạnh 2 siêu máy tính khác là Frontier và Anton 3. Kết quả đem về hết sức ngỡ ngàng khi CS-2 cho năng suất tới 1.1 triệu bước/s, Anton 3 theo sát nút ở mức 980,000 bước/s và Frontier chỉ đạt 1,470 bước/s. Tất nhiên cần nói rõ động học phân tử chỉ là một ứng dụng HPC, không có nghĩa mọi ứng dụng khác cũng cho kết quả tương tự. Nhưng kết quả trên khiến cho tất cả mọi người phải giật mình trước khả năng của WSE.

Cần nói thêm rằng Cerebras đạt được kỷ lục này chỉ với WSE-2, tức con chip thế hệ 2 chứ không WSE-3 như phần trên. WSE-2 có 2.6 tỷ transistor (7 nm) với 850,000 nhân xử lý và 40 GB bộ nhớ SRAM. Còn Anton 3 là hệ thống dựa trên 512 chip ASIC được tối ưu cho tính toán động học phân tử, không phải đa nhiệm như Frontier hay CS-2. Trong danh sách TOP500 mới nhất, Frontier tuy đã bị tụt hạng 2 nhưng El Capitan cũng chỉ mạnh gấp 1.3 lần đàn anh. Do đó nếu có so găng động học phân tử với CS-2 thì El Capitan vẫn hoàn toàn "không có tuổi".

Quảng cáo



Ai có thể dùng Cerebras?


Với một sức mạnh "vô đối" như thế, hẳn bạn cũng hình dung cái giá của Cerebras cũng "chát" không tưởng. Tuy vậy, với đa số người dùng như chúng ta, loại sản phẩm/dịch vụ duy nhất mà công ty này đang cung cấp là inference với chi phí khoảng 1 USD cho 1 triệu token output/1000 token input dựa trên mô hình Llama 3.1-70B với các đoạn context có kích thước tối đa 128K.

Output-Speed-vs-Price-1.png
Bảng giá dịch vụ dịch vụ AI của Cerabras trên Llama 3.1-70B

Còn với mô hình Llama 3.1-405B, hiện công ty này chỉ cho dùng thử nhưng sang Q1 2025 sẽ bắt đầu cung cấp đại trà. Mức giá dự kiến là 6 USD cho 1 triệu token input và 12 USD cho 1 triệu token output. Ngoài ra Cerebras cũng cung cấp dịch vụ AI đám mây nhưng giá cả không được công khai, bạn sẽ cần liên hệ trực tiếp với hãng.
26 bình luận

Xu hướng

Hãng này là sân sau của Trung quốc và đc chính phủ Trung quốc bảo kê, nhưng sẽ ko đặt ở Trung để tránh bị cấm vận.
Mấy hãng sinh sau này ghê gớm thiệt, chỉ 1 quyền hạ knockout mọi đối thủ
@Doãn_Chí_Bình Bọn cutapcon rất giỏi đặc biệt là giỏi nhận vơ.cái hãng từ người sáng lập đến nhân viên đến luôn cả chủ đầu tư ko có 1 cái j liên quan đến tàu mà kêu là sân sau của cutap )) mà cũng phải thôi ngay đến cả spacex starship bọn cutapcon cũng nhận vơ là của TQ là sân sau của TQ dc cơ mà ))
@Cmt dạo có 1 thứ nó ko nhận đó là con covid dù xuất phát từ chợ đồ sống tàu =)))

ông cofounder trước từng lập 1 startup khác rồi bán cho AMD trước khi làm cái này, vẫn thấy éo liên quan gì tàu khựa mà ông ngáo trên chắc chơi đồ nhiều quá =)))
Ko bán đc thì cũng chết thôi.
Cerểbras mà cưa nhỏ con chip đó thành nhiều size khác nhau thì có thể ng dùng sẽ dễ sd hơn. Cái hay của Nvidia là họ có sp rẻ ai cũng tiếp cận và học đc khi đi làm thì họ tiếp tục sd phần cứng/stack đó. Chi phí con ng cũng lớn lắm chứ k phải bt đâu.
@nguyenlocdktdh Cái xe 10-20k thì đi thuê chạy cho sướng khỏi mất công bảo dưỡng. Chứ cái xe 1-2tr $ mấy ai đi thuê?
@laiviet 😆))) một cái nhắm đến máy chủ. Bán 1 phát tính tỉ đô. Năm bán vài cái là giỏi. Đi so với 1 bên bán lẻ. Khác gì thằng sinh viên 20 tuổi đi thi viết chữ to với đám lớp 1
@laiviet Tuỳ tệp kh mà họ nhắm tới thôi mà, ngta bán cá chứ có bán lưới đâu.
@laiviet Mình nghĩ đã làm tới cái tầm đó chắc ko mù để ko biết mấy cái diễn giải vậy đâu...chỉ là nhiu khi mình còn chưa hiểu dc người ta đó thôi
Đứng sau, đội lốt, support một công ty trên đất Mỹ. T.àu quá nguy hiểm anh em Tinh Tế ạ !
@Nguyễn_Văn_Triệu mấy công ty đội lốt này sẽ được chính quyền Trump chăm sóc chu đáo 😃
@Nguyễn_Văn_Triệu ừ hẳn là chơi đá nhiều quá nên ngáo rồi đó, cho cái postal code để call police qua check có chơi cần ko

https://www.theregister.com/2023/11/16/cerebras_ceo_blasts_nvidia/
Bọn Tàu đỉnh thật
@typhu1901 cho thông tin nó liên quan tàu khựa nào bác chứ search hoài mà chỉ thấy CEO chửi sao bán GPU cho tàu thôi =)))

https://www.theregister.com/2023/11/16/cerebras_ceo_blasts_nvidia/
Tinhte tập trung toàn nhân tài của VN. Tình báo về công nghệ ở VN phải gọi là siêu đỉnh của chóp.
Trong khi FBI, NSA... như Mỹ mà cũng chưa phát hiện ra công ty này của tàu để cấm thì ae tình báo ở VN biết hết rồi.
công nhận mấy thằng Tàu nô núp 24/24 ở Tinhte này đớp tin rồi định hướng nhanh thật. 😆
@odysseyntn Mấy con Khựa cún nhanh nhảu và nhạy mùi nắm, nhất nà mùi phăng
@odysseyntn tinhte của người tàu điều hành mà 😁
z6037619229902-cf58ec764b467cceac1a69d8051ab0b2.jpg
Ông này thông minh ta. Trong khi mọi đối thủ thu nhỏ nhưng tăng bề dày. Ông này chơi to nhưng dc độ mỏng.
TSMC
Tình báo tinh tế cho biết đây là tàu khựa đội lốt ...😆
Lại mà Mỹ à? Thế thì bọn tàu và lũ tàu nô lại cay nhề?
Con chíp siêu to khổng lồ. 😅

Xu hướng

Bài mới








  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2026 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: 70 Bà Huyện Thanh Quan, P. Xuân Hoà, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép cung cấp dịch vụ MXH số 134/GP-BVHTTDL, Ký ngày: 30/09/2025