Laptop Acer



Chip xử lý Nvidia Blackwell gặp lỗi thiết kế, lỗi do cả Nvidia lẫn TSMC, hoãn ra mắt vài tháng

P.W
5/8/2024 5:46Phản hồi: 23
Chip xử lý Nvidia Blackwell gặp lỗi thiết kế, lỗi do cả Nvidia lẫn TSMC, hoãn ra mắt vài tháng
Thế hệ chip xử lý AI trên data center Blackwell của Nvidia đang gặp lỗi nghiêm trọng trong quá trình sản xuất thương mại số lượng lớn. Sự cố này sẽ ảnh hưởng tới doanh thu và doanh số sản phẩm bán ra thị trường trong quý III và quý IV năm nay của Nvidia. Để bù đắp cho việc trì hoãn ra mắt thế hệ chip Blackwell, Nvidia sẽ tăng sản lượng chip Hopper, H100 và H200 để giao cho khách hàng và bù đắp doanh thu của tập đoàn.

Sự cố mang tính kỹ thuật này cũng đã khiến Nvidia phải thiết kế lại toàn bộ hệ thống chip xử lý kiến trúc Blackwell, dẫn tới những hệ lụy không đáng có với cả những đối tác trong chuỗi cung ứng và phân phối.

Con chip xử lý tối tân mà Nvidia tạo ra phục vụ cơn sốt AI, thuộc thế hệ kiến trúc chip Blackwell có tên GB200. Với con chip này, Nvidia lựa chọn ứng dụng những tiến bộ kỹ thuật gia công bán dẫn mới nhất mà TSMC tạo ra. Với con chip này, Nvidia trang bị được một hệ thống 72 chip GB200, mang tên DGX GB200 NVL72. Máy chủ này ngốn tới khoảng 125 kW điện, cao hơn rất nhiều so với con số trung bình từ 15 đến 20 kW điện cho mỗi rack máy chủ trong data center hiện nay.

NVIDIA-DGX-GB200-NVL72.jpg

Với DGX GB200 NVL72, Nvidia tạo ra được mật độ hiệu năng xử lý và tiêu thụ điện năng chưa từng có. Nhưng khi xét đến mức độ phức tạp của toàn bộ hệ thống hay chính bản thân từng con chip xử lý GB200 đơn lẻ trong máy chủ DGX, rất nhiều vấn đề đã nảy sinh. Từ việc cấp điện, nhiệt năng tỏa ra, hệ thống làm mát bằng chất lỏng, rồi ống dẫn nước làm mát bị rò rỉ do thiết kế tháo lắp nhanh phục vụ cho sự tiện lợi của nhân sự bảo trì hệ thống, và cả những rắc rối đến từ thiết kế bo mạch quá phức tạp…


Tuy nhiên, vấn đề mấu chốt ảnh hưởng tới tốc độ sản xuất và cung cấp đơn hàng chip GB200 Blackwell đến từ chính thiết kế bán dẫn của Nvidia, kết hợp với những rắc rối trong quá trình đóng gói die silicon để tạo ra con chip kích thước cực lớn, dựa trên kỹ thuật CoWoS-L của TSMC.

Tóm tắt lại quy trình CoWoS (Chip-on-Wafer-on-Substrate) của TSMC. Kỹ thuật này ứng dụng một lớp interposer RDL với cầu nối silicon interconnect (LSI) cùng những die silicon làm cầu nối trong lớp interposer, để kết nối tất cả các die silicon xử lý logic, rồi bộ nhớ HBM xung quanh con chip xử lý lại với nhau. Bên cạnh CoWoS-L, quy trình đóng gói die silicon bán dẫn được ứng dụng để sản xuất ra GB200 cho Nvidia, TSMC còn có CoWoS-S, với bức độ phức tạp và diện tích lớp interposer trên nền substrate silicon nhỏ hơn nhiều.

704928a8-97a2-4f1b-bcfd-ba03150875bc-1293x488.webp
e92064aa-964b-4f15-852a-cc75a550abc6-1600x466.webp

CoWoS-L chính là bản nâng cấp, mở rộng kích thước chip xử lý thế hệ mới của TSMC, dựa trên thiết kế CoWoS-S. Lý do cần có CoWoS-L đến từ chính những yêu cầu về hiệu năng của những thế hệ chip tăng tốc xử lý AI mới, với yêu cầu nhồi nhét càng lúc càng nhiều nhân xử lý logic, bộ nhớ và chip xử lý tín hiệu I/O.

Hiện tại, CoWoS-S đang được TSMC ứng dụng để gia công những con chip Instinct MI300 của AMD. Nhờ kỹ thuật đóng gói chip xử lý này, con chip thành phẩm hàn lên PCB để tạo ra sản phẩm thương mại có kích thước lên tới 3.5 lần kích thước gia công tối đa mà những cỗ máy quang khắc EUV hiện tại có thể làm được thông qua những thấu kính điều hướng ánh sáng dùng trong quá trình quang khắc. Và con số tỷ lệ kích thước này cơ bản cũng là giới hạn của CoWoS-S hiện tại.

b5f7ce7a-f2d7-4d9d-bfff-17dfeb2a935a-1100x500.webp

Có nhiều lý do khiến TSMC không thể làm ra một con chip kích thước khổng lồ ghép nhiều die silicon lại với nhau, vượt quá tỷ lệ kích thước 3.5 lần so với một die silicon dạng monolithic mà máy có thể quang khắc. Nhưng lý do mấu chốt, silicon là thứ chất liệu rất giòn. Làm ra những die bán dẫn kích thước bằng móng tay thì không sao, nhưng khi tạo ra những lớp interposer vừa mỏng vừa có diện tích lớn, rắc rối trong khâu gia công sẽ nảy sinh. Rồi chi phí cũng sẽ tăng khi lớp interposer làm nền cho cả con chip đóng gói dựa trên kỹ thuật CoWoS cũng sẽ tăng theo, vì phải ghép các die bán dẫn lại với nhau.

Quảng cáo


Có một giải pháp là ứng dụng cầu nối interposer hợp chất hữu cơ, vì độ bền của chúng cao hơn so với silicon nguyên chất. Vấn đề lại nằm ở chỗ, hợp chất hữu cơ lại không có khả năng vận hành cấp điện tốt như silicon, và không có băng thông I/O đủ cao để ứng dụng sản xuất những chip xử lý AI hiện tại.

c6be5954-7924-4000-984a-bc1cca1e203c-2584x808.webp

Vậy là TSMC thiết kế ra kỹ thuật đóng gói die silicon CoWoS-L, coi đó là tương lai của ngành công nghiệp bán dẫn. Vấn đề lại nằm ở chỗ, Nvidia và TSMC đang hơi kỳ vọng quá mức, cũng như triển khai lịch trình gia công GB200 dựa trên CoWoS-L có phần vội vàng. Hệ quả tiêu cực tất yếu xảy ra.

Thứ nhất, cầu nối interposer có thể hình thành những khu vực mấp mô trên bề mặt, từ đó tạo ra chênh lệch hệ số nở nhiệt giữa những die silicon, cầu nối và substrate. Vậy là chip sẽ bị cong.

Áp dụng vào trường hợp của một con chip hiệu năng cao trang bị trong máy chủ, điều đó không được phép xảy ra, nhất là với một sản phẩm sở hữu cầu nối kết nối hai die chip xử lý logic cùng băng thông lên tới 10TB/s giữa hai con chip. Rồi bản thân thiết kế cầu nối kết nối dữ liệu giữa hai die logic trong GB200 cũng được cho là gặp vấn đề. Nvidia đang phải thiết kế lại cầu nối này. Một tin đồn khác, là Nvidia đang phải thiết kế lại lớp kim loại kết nối các die silicon lại với nhau.

Vì lý do đó, GB200 sẽ chậm giao hàng vài tháng.

Quảng cáo


Cũng có một nguồn tin khác cho biết rằng, TSMC không đủ quy mô gia công chip xử lý AI dựa trên công nghệ đóng gói CoWoS-L. Trong những năm gần đây, TSMC đã và đang mở rộng quy mô sản lượng chip đóng gói dựa trên kỹ thuật CoWoS-S, Nvidia chính là đối tác lớn nhất đặt hàng chip xử lý máy chủ dựa trên công nghệ đóng gói này.

111(8)-1280x720.jpg

Hiện tại TSMC đang vừa xây dựng fab mới mang tên AP6, chỉ dùng để đóng gói chip CoWoS-L, cùng lúc nâng cấp fab AP3 để chuyển đổi quy trình CoWoS-S sang CoWoS-L. Chính vì lẽ đó, tốc độ gia công chip dựa trên kỹ thuật CoWoS-L sẽ còn chậm hơn so với dự kiến.

Kết hợp cả hai yếu tố, vấn đề của quá trình thiết kế con chip của Nvidia với sản lượng gia công chip CoWoS-L của TSMC, có khả năng TSMC sẽ không kịp sản xuất và cung ứng chip GB200 theo yêu cầu đơn hàng mà Nvidia đặt ra.

Hệ quả là Nvidia sẽ tập trung sản xuất ra những hệ thống GB NVL 36x2 và NVL72. Những máy chủ thiết kế HGX sẽ được tập trung sau, với những chip B100 và B200 bên trong.

Cùng lúc, Nvidia cũng sẽ phải ra mắt trước một sản phẩm mới có tên B200A, GPU dựa trên die chip B102. Bản thân con chip này cũng chính là phiên bản mang tên B20, được Nvidia cắt giảm hiệu năng và băng thông bộ nhớ theo quy định cấm vận của Mỹ để được bán tại thị trường Trung Quốc. B102 là một nhân GPU monolithic kẹp chung với 4 die HBM RAM xung quanh. Với kích thước như vậy, Nvidia và TSMC có thể tận dụng được kỹ thuật đóng gói CoWoS-S vốn đã hoàn thiện, thay vì dựa vào CoWoS-L. Mà thậm chí nếu cần, Nvidia còn có thể đem nhân GPU B102 sang những đối tác khác như Amkor, ASE SPIL và cả Samsung để tạo ra sản phẩm thương mại.

nvidia-twin-gb200-system.jpg

B200A sẽ phục vụ nhu cầu điện toán với hiệu năng thấp hơn so với B100 và B200, trang bị trong những dàn máy chủ xử lý AI mức giá khởi điểm hoặc tầm trung, ví dụ như máy chủ HGX với 8 chip B200A, tối đa 144GB bộ nhớ HBM3E, tiêu thụ điện từ 700 đến 1000W mỗi máy chủ, băng thông tối đa 4TB/s.

Còn với anh em đang đợi RTX 5000 series, cũng dựa trên kiến trúc Blackwell, tất cả những rắc rối kể trên về cơ bản là không phải lo ngại, vì card đồ họa tiêu dùng với những die GPU như B103 hay B104 vẫn sẽ sử dụng thiết kế monolithic, cùng RAM GDDR6X hoặc GDDR7, không gặp những vấn đề rắc rối trong quá trình thiết kế và gia công như vì không ứng dụng kỹ thuật CoWoS-L của TSMC.

Theo SemiAnalysis
23 bình luận
Chia sẻ

Xu hướng

GPU phổ thông to bằng đầu ngón tay, GPU chuyên dụng to bằng nửa cái bàn tay 😂
@Lizzie Kute Do giới hạn máy khắc thôi, nếu không nó còn to bằng cái mâm.
@Lizzie Kute To cũng tốt, đỡ đau đầu vụ giải nhiệt
LYSM
TÍCH CỰC
2 tháng
Có lẽ đây cũng là nhịp để Nvidia nghỉ để thị trường có sự cạnh tranh tốt hơn
Thời của AMD tới rồi chăng? Cả Intel & Nvidia đều gặp sự cố.
@Khoa - iOS Sheeple Thời AMD gì, tiến trình mới nhất AMD làm gì có cửa mà được sx trước do TSMC gia công. Nvidia và Apple là 2 khách hàng luôn được ưu tiên sx tiến trình quang khắc CPU/GPU mới nhất. May cho AMD xếp hàng phía sau thôi.
zitkolong
ĐẠI BÀNG
2 tháng
@NgoHongMinh9981 AMD ổn nhưng chưa cạnh tranh được hàng top với NVIDIA ... mình nước bt cứ p/p tốt mà mua thôi
@Khoa - iOS Sheeple có làm có sai, muốn ko sai chỉ có ko làm thôi, nên hãy bình thường hóa chuyên sai sót đi , quan trọng biết sai mà sửa và chấp nhận trả giá vì sai sót là ok
@zitkolong dạo này chứng cháo sao rồi bác?
@Khoa - iOS Sheeple AMD với kiến trúc Zen 5% vẫn quá ảo
Khâu gia công bắt đầu gặp khó với việc tăng kích thước bà nhồi nhét quá nhiều linh kiện vào. Toàn ông lớn thiết kế và sản xuất mà dạo này toàn gặp lỗi, căng rồi.
@mandiesel Lỗi chính ở nhân Nvidia chứ không phải linh kiện. Nó thuộc về giới hạn vật lý, giờ phải Fix thiết kế lại kiến trúc GB200 để cầu nối không bị lỗ đứt kết nối...
Chính Intel cũng vừa bị lỗi nguyên lô 13th, 14th. Đóng gói Chip/ Khác ở chỗ Nvidia không cố đấm ăn xôi mà bỏ luôn nguyên lô GB200 sx đầu. Thiết kế sửa lỗi chậm lại vài tháng/
@NgoHongMinh9981 2 sp target hoàn toàn khác nhau. Nvidia phục vụ đối tượng doanh nghiệp nếu có vấn đề gì thì đền hợp đồng ốm đòn luôn chứ mà cố đấm ăn xôi
@21stAugust Chắc đối tượng Intel không phải khách hàng doanh nghiệp ? Khách hàng nào của Nvidia đã trên tay sản phẩm và bị thiệt hại chưa?. Ga tô vừa thôi Thanh niên. Nvidia rất có trách nhiệm với sản phẩm của mình. Ở VN có doanh nghiệp nào như Nvidia chưa? Hay cố đấm ăn xôi bán ra rồi thuê Seeder cả vú lấp miệng em ? Cố mà tẩy trắng Intel thì vãn không tẩy nổi đâu./
Toàn lùa gà.
Mộc9
TÍCH CỰC
2 tháng
AMDanh is coming
Sói Ca!
TÍCH CỰC
2 tháng
Chờ apple làm thôi mấy cái hãng ăn hại này làm được trò trống gì
@Sói Ca! Chuẩn rồi. Chờ tái định nghĩa =))
Thế mới viết sự phức tạp của 1 con chip
@Bơm Lốp Tàu Hỏa Nói câu thừa thãi vậy bạn, có người vẫn nghĩ con chip nó đơn giản à?
Hay có khi vì vậy nên hôm nay giá mới cắm đầu, tranh thủ tát nước theo mua chốt lãi, đề phòng bị các Chính phủ úp sọt, vì thường công nghệ ít khi bị ảnh hưởng bởi tin suy thoái.
Thôi nghỉ ngơi cho đàn em còn theo kịp tạo cú hít trên thị trường chứ anh cả mà nước rút quá đàn em lại hít khói
aiaominh
ĐẠI BÀNG
2 tháng
Tinhte ơi làm ơn tổ chức 1 phòng kiểm duyệt nội dung đi.
Tiếng việt viết còn sai: "với bức độ phức tạp"
Lấy đâu ra mà gọi tinh tế nữa

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019