Nvidia Blackwell B200: Chip AI mạnh nhất thế giới, mạnh hơn H200 từ 2.5 đến 5 lần, thiết kế chiplet

P.W
19/3/2024 1:38Phản hồi: 59
Nvidia Blackwell B200: Chip AI mạnh nhất thế giới, mạnh hơn H200 từ 2.5 đến 5 lần, thiết kế chiplet
GTC 2024, sự kiện công bố những sản phẩm phần cứng và phần mềm mới của Nvidia đã khai mạc, và trung tâm của sự kiện, và được trông đợi nhất có lẽ là kiến trúc chip GPGPU (general purpose graphics processing unit) mới của Nvidia, tên mã Blackwell, thứ được đồn đoán từ khoảng nửa năm qua. Cuối cùng thì ở GTC 2024, B200, die GPU mạnh nhất của kiến trúc Blackwell cũng đã được chính thức ra mắt. Và điều gây bất ngờ nhất, đó là die B200 không phải một die silicon dạng monolithic, mà là một thiết kế chiplet ghép 2 GPU lại với nhau.

NVIDIA-Blackwell--23 copy.jpg

Những thông số kỹ thuật chính của Blackwell B200 được Nvidia công bố:

  • Chip xử lý mạnh nhất hành tinh: 208 tỷ transistor, gia công trên tiến trình 4NP của TSMC, với 2 die silicon kích thước tối đa ghép lại với nhau bằng cầu nối 10TB/s, tạo ra một GPU kích thước cực lớn.
  • Transformer Engine thế hệ 2, hỗ trợ khả năng nội suy AI số thực dấu phẩy động 4-bit và 6-bit hoàn toàn mới, bên cạnh 8-bit, từ đó vận hành huấn luyện hoặc xử lý mô hình AI với kích thước mô hình gấp đôi, hiệu năng xử lý cũng cao gấp đôi.
  • Cầu nối NVLink thế hệ 5: Đủ sức mạnh tăng tốc xử lý những mô hình ngôn ngữ với hàng nghìn tỷ tham số, hay những mô hình AI chuyên biệt, với băng thông bộ nhớ hai chiều tổng cộng 1.8 TB/s, hỗ trợ vận hành tối đa 576 GPU trong một cụm máy chủ, vận hành những LLM phức tạp nhất.
  • RAS Engine: Cụm nhân xử lý đảm bảo hiệu quả vận hành của toàn bộ hệ thống, viết tắt của Reliability, Availability & Serviceability. Nhờ cụm nhân chuyên biệt này, GPU kiến trúc Blackwell có thể chạy thuật toán AI dự báo về những vấn đề có khả năng xảy ra, từ đó đảm bảo dịch vụ vận hành hoàn hảo nhiều tuần hay nhiều tháng mà không cần kỹ thuật viên can thiệp, giảm chi phí vận hành dịch vụ.
  • Secure AI: Vận hành những mô hình AI phục vụ doanh nghiệp và các tổ chức nhưng cùng lúc đảm bảo an toàn bảo mật dữ liệu của các đơn vị và tổ chức, bao gồm cả những bên nghiên cứu khoa học, quân sự, y tế và tài chính.
  • Decompression Engine: Cụm nhân xử lý chuyên biệt hỗ trợ những format dữ liệu mới nhất, tăng tốc xử lý và truy xuất cơ sở dữ liệu để tạo hiệu năng phân tích dữ liệu nhanh nhất.
NVIDIA-Blackwell--2-1456x819.png
NVIDIA-Blackwell--3-1456x819.png
NVIDIA-Blackwell--4-1456x819.png


Về chi tiết, GPU B200 sở hữu 104 tỷ transistor trên mỗi die GPU, tổng cộng 2 die MCM là 208 tỷ transistor, chia thành 160 Stream Microprocessor, tức 20480 nhân CUDA. Con chip xử lý này, được hợp tác gia công bởi Synopsys và TSMC, ứng dụng công nghệ và thư viện phần mềm CuLitho của Nvidia, ứng dụng sức mạnh của máy tính để tăng tốc độ nghiên cứu phát triển chip. So sánh với Hopper, B200 nhiều hơn H200 tới 128 tỷ transistor. Sức mạnh xử lý số thực dấu phẩy động FP8 và FP6 của B200 nhanh gấp 2.5 lần, xử lý FP4 nhanh gấp 5 lần so với H200.

Ngay trên bề mặt con chip là 8 stack chip nhớ HBM3e, dung lượng tối đa 192GB, tốc độ 8TB/s, chạy trên bus interface 8192-bit. Công suất tiêu thụ điện tối đa của con chip này lên tới 700W, nhưng con số này giống hệt như H100 và H200 đang có trên thị trường, đang trang bị trong những hệ thống data center vận hành mô hình AI của các tập đoàn lớn.

NVIDIA-Blackwell--6-1920x1080.png

Về mặt ứng dụng, B200 sẽ có một lựa chọn duy nhất, một platform bao gồm 2 chip B200, tức 4 die GPU, kèm thêm CPU Grace với 72 nhân CPU kiến trúc ARM Neoverse V2. Hai GPU và CPU Blackwell và Grace sẽ kết nối với nhau thông qua giao thức NVLink băng thông 900 GB/s. Điều này đồng nghĩa với việc, sẽ không có những giải pháp card PCIe hay những hệ thống như Grace Hopper, 1 CPU 1 GPU, hoặc hai GPU H100/H200 vận hành độc lập trong những cluster điện toán đám mây và data center cho các doanh nghiệp tự do lựa chọn.

NVIDIA-GTC-2024-1.jpg

Cũng cần phải nói thêm về GB200, hệ thống trang bị GPU B200 mới nhất của Nvidia, giải pháp thương mại mà hãng vừa công bố. Bên cạnh 192GB bộ nhớ HBM3e trên die chip B200, vì là một hệ thống máy tính hoàn chỉnh, nên vẫn có RAM riêng để cung cấp dữ liệu cho những con chip. GB200 sẽ được trang bị tổng cộng 864GB RAM. Mỗi “superchip” này sẽ tạo ra sức mạnh xử lý INT8 40 petaflop, và được kết nối với nhau thông qua giao thức NVLink băng thông 3.6 TB/s.

Cả ba con chip trang bị trên GB200 đều ngốn điện, tối đa có thể lên tới 2700W. Và hệ thống này hỗ trợ chuẩn kết nối PCIe 6.0 (2x256 GB/s). Áp “siêu chip” theo cách Nvidia gọi GB200 vào những cụm máy chủ, thì một server blade sẽ bao gồm hai board GB200, 4 GPU, 2 CPU, tạo ra sức mạnh 80 petaflop xử lý AI, 1.7GB bộ nhớ HBM3e, băng thông bộ nhớ 32 TB/s, và được làm mát bằng chất lỏng. Nvidia gọi server blade này là Blackwell Compute Node.

Không chỉ có B200 và CPU Grace, mà Blackwell Compute Node còn trang bị những con chip và bo mạch xử lý chuyên biệt kết hợp lại với nhau với một mục đích duy nhất, đó là tạo ra băng thông bộ nhớ và sức mạnh xử lý AI nhanh nhất. Trong đó bao gồm cầu nối dữ liệu ConnectX-800G Infiniband, DPU Bluefield 3 phục vụ xử lý networking, quản lý bộ nhớ lưu trữ và bảo mật.

Quảng cáo



Rồi khi xếp 18 server rack Blackwell Compute Node, chúng ta có một hệ thống với 36 CPU và 72 GPU, mô tả khả năng scale lên quy mô vận hành rất lớn, phục vụ cho các tập đoàn công nghệ vận hành những giải pháp AI phục vụ cho hàng tỷ người trên thế giới:

NVIDIA-Blackwell--8-1456x819.png
NVIDIA-Blackwell--9-1456x819.png
NVIDIA-Blackwell--10-1456x819.png
NVIDIA-Blackwell--11-1456x819.png
NVIDIA-Blackwell--12-1456x819.png

Riêng bản thân con chip NVLink Switch cũng là một thứ đáng đề cập, khi nó được ứng dụng tiến trình 4NP của TSMC để trang bị 50 tỷ transistor, vận hành 72 port SerDes (serializer/deserializer) băng thông 200 GB/s, cùng 4 cầu nối NVLink băng thông 1.8 TB/s.

NVIDIA-Blackwell-GPU---DGX-Superchip-Platform--2 copy.jpg

Quảng cáo



Tối đa, GB200 cho phép tạo ra một data center quy mô khổng lồ với 32 nghìn GPU, 13 petabyte RAM HBM3e, sức mạnh xử lý 645 exaflop, tính riêng hiệu năng xử lý dữ liệu network cũng tính bằng đơn vị petaflop.

NVIDIA-Blackwell--19-1456x819.png
NVIDIA-Blackwell-GPU---DGX-Superchip-Platform--1-1456x819.png

Tại GDC 2024, Nvidia cho biết, Blackwell GB200 sẽ được trang bị trên những hệ thống DGX Cloud, ra mắt nửa cuối năm 2024. Rồi sau đó, những đơn vị OEM cũng sẽ có những giải pháp máy chủ trang bị những chip xử lý AI thế hệ mới nhất này, bao gồm Dell, Cisco, HPE, Lenovo, Supermicro, Aivres, ASRock Rack, ASUS, Eviden, Foxconn, Gigabyte, Inventec, Pegatron, QCT, Wistron, Wiwynn & ZT Systems.
59 bình luận
Chia sẻ

Xu hướng

Thế là lại tiếp tục dẫn đầu thêm 1 thời gian nữa. Không biết bao lâu nữa thì Nvidia vượt Apple về giá trị vốn hóa đây.
magez
CAO CẤP
3 tháng
@lucky10000 Dự là trong năm nay hoặc đầu năm sau thôi.
Nvidia gần như là độc quyền trong lĩnh vực này rồi, hoàn toàn ko có đối thủ xứng tầm.
Thằng đứng thứ 2 là AMD vẫn còn cách quá xa, cả về phần cứng GPU lẫn giải pháp phần mềm.
Mà lĩnh vực AI hiện tại nhu cầu quá khủng, nhà nhà đều chạy theo AI, muốn mua mấy con chip mạnh của Nvidia mà còn phải xếp hàng do cung ko đủ cầu nữa => giá đội lên gấp nhiều lần
Quý nào Nvidia cũng báo lãi khủng hết, và họ dự báo nhu cầu vẫn cao & khan hiếm cho tới 2025 lận.
Với tình hình hiện tại thì Nvidia lên ngồi chung mâm với MS hay Apple là hoàn toàn có khả năng xảy ra, chỉ trong hơn 1 năm mà họ từ vài trăm tỉ lên 2000 tỉ luôn mà.
@lucky10000 Nvidia đang uptrend, Apple đang vào downtrend.
@lucky10000 Giờ này ai nắm AI là ngon?
H200 là đỉnh của job, giờ thêm B200.
Sao tuần suất ra mắt H100, rồi H200, giờ B200 ra nhanh thế, thậm chí 3 đời sản phẩm ra chỉ trong 12 tháng. Với cái đà này thì Nvidia vượt qua Apple có thể nhanh hơn nữa.
Hot.Buns
TÍCH CỰC
3 tháng
@XuyenViet2019 vì nó ghép lại với nhau, đâu phải phát triển mới
@XuyenViet2019 Tăng tốc cuộc đua A.I đẩy hiệu năng x lần thì giá tỷ lệ thuận y lần cho nhu cầu chạy đua vũ trang của mấy công ty không quan tâm về chi phí, tài chính tới đâu đua tới đó, chứ "lỡ" mua con trước cũng không phải hàng lỗi thời.
@Hot.Buns cầu nối 10TB/s đâu phải đơn giản bạn ! cực kỳ phức tạp nha bạn
kynam91
ĐẠI BÀNG
3 tháng
@Hot.Buns Hiệu năng tăng chục lần, điện năng giảm chục lần mà ko mới nữa hả bạn
Dark Man
ĐẠI BÀNG
3 tháng
@kynam91 nhầm, điện năng không giảm tý nào ở gen này nhé
Cây nến lại dài ra như gậy như ý mỗi sáng nữa rồi. đỉnh cao phần cứng.
Kinh khủng, hóng Apple chơi trội mua cấu hình tối đa từ Nvidia là 32.000 con gpu B200 đẻ train AI Giá chắc cả tỏi đô quá
@odysseyntn kẹo như apple thì hẻm có nha. spo còn di chôm công nghệ mà.
@odysseyntn Nghe nói là Apple không chơi với Nvidia.. Trước chưa chuyển sang ARM máy mac toàn dùng AMD làm card đồ họa
dlcr
TÍCH CỰC
3 tháng
Tao thề có ngày AI nó sẽ xâm chiếm trái đất như MA trận
AI lại mạnh thêm rồi, căng
Apple và Intel ngủ quên trên chiến thắng rồi
@lucky10000 lại ảo tưởng? giờ inteo cỏn đu tsmc 7nm kìa. mơ làm nvidia?
@luuthienloc Định hướng sp của Apple và Nvidia khác nhau hoàn toàn
@luuthienloc Họ ko ngủ quên đâu, họ làm tốt việc họ vẫn làm, nhưng sẽ có những thứ mới mẻ hơn mà họ ko thể theo kịp. Thời nào cũng vậy, mạnh đến mấy cũng vậy.
Duy chỉ có 1 lĩnh vực mà có thể trường tồn đó là ẩm thực.
Bố nào mà train được con AI đoán đúng giá Stock thì...
Khôn như mày :D
hitman88
ĐẠI BÀNG
3 tháng
@Khoa - iOS Sheeple train không bao h được vì giá chạy bằng tâm lý nhà đâu tư, AI nào mà đoán được người nào muốn bán người nào muốn mua =))
Lại bỏ xa đối thủ 😆
trivonfam
ĐẠI BÀNG
3 tháng
Kiến trúc Như bán cầu não trái và phải vậy =))
danh sách OEM mua ko có Apple à ae, thấy có foxconn thôi
loài người nghiên cứu và làm ra những thứ kinh thật 😆
bidnah003
ĐẠI BÀNG
3 tháng
@chuthoong610 Apple đâu phải OEM
LYSM
TÍCH CỰC
3 tháng
Vãi, đời sau hơn đời trước từ 250-500%, chẳng bù cho bên CPU giờ toàn bèo nhèo 10-20%
@LYSM Bình thường thì khoảng 40-50% thôi.
Này là ghép 2 die vào làm 1 nên nó mới mạnh thế.
Đi kèm với tăng hiệu năng là tốn điện hơn và yêu cầu tản nhiệt cồng kềnh hơn.

Nhìn chung chơi kiểu chiplet thì thông số vậy chưa phải là cái gì đó quá bất ngờ. Nếu giữ kích thước mà tăng được 100% mới gọi là đỉnh của chóp
LYSM
TÍCH CỰC
3 tháng
@Nguyệt Thần Không cần biết cách làm là gì, quan tâm kết quả thôi bạn
@Nguyệt Thần hiệu năng tăng 30 lần điện năng giảm 25 lần thì là tốn quá chưa
Dark Man
ĐẠI BÀNG
3 tháng
@LYSM hiệu năng tăng thêm do xài toán tử mới thôi, chứ ráp toán tử cũ vô méo được hype vậy đâu =))))))

các mô hình AI mà chả áp dụng toán tử mới thì tăng bèo bèo thôi
Quá đã!
Đúng là CEO phải giỏi sale, cha này lướt trend AI lên phát biểu mấy câu mị dân vclin
@blackberry97 Thế mà mấy doanh nghiệp bị mị dân tới mức không biết gì luôn ấy nhỉ, cmt siêu ngoo
@blackberry97 lướt trend cái đầu óc bò, đâu từ từ chục năm trước giờ hưởng thành quả
pikupi
TÍCH CỰC
3 tháng
@blackberry97 ỗng xuất thân dân kỹ thuật hàng thất giá thật mà nói về ỗng như thằng sale Bđs nhỉ? nhờ vào tầm nhìn mà Nvidia đi trước nghiên cứu chip cho train AI cả mười mấy năm, giờ AI bùng nổ thì Nvidia gặt hái thành quả, sống ở nước đáy xh bị nhồi sọ đến hỏng não rồi hả? khai thật đi bị lùa nhiêu lần rồi? làm cái con Chip AI như ông Huang đang cầm mà dễ như thằng sale thế này?
@blackberry97 Tao hỏi mày nek ! cái này là Chip bán dẫn - chứ không phải cuốc đất trồng rau - mày hiểu chưa ! chém hay không chém thì họ vẫn là ra ở tiến trình 4nm cực kỳ khó ! còn loại như mày - mõm là giỏi
ZippoCNT
ĐẠI BÀNG
3 tháng
Siêu thật , cập nhật bản mới quá nhanh , đã vậy còn mạnh gấp mấy lần phiên bản cũ , kiểu này Nvidia còn thống trị mảng chip AI còn dài dài .
congtan98
ĐẠI BÀNG
3 tháng
cuối cùng cũng chơi chiplet à
Cười vô mặt
Nivi quá mạnh. Ngày xưa ko hiểu sao họ bỏ mảng chip di động.
Như này Nvidia nhăm nghe soán ngôi các hãng sản xuất máy chủ DC kiểu HP, Dell EMC roài

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019