Intel Gaudi 3: Chip xử lý AI cạnh tranh trực tiếp với Nvidia H100 và B200

P.W
11/4/2024 8:32Phản hồi: 38
Intel Gaudi 3: Chip xử lý AI cạnh tranh trực tiếp với Nvidia H100 và B200
Tuần này, Intel tổ chức sự kiện Vision 2024 tại Phoenix, Arizona, nơi họ giới thiệu những thông tin đầu tiên về kiến trúc chip xử lý AI Gaudi 3, hiện được công ty con thuộc Intel, Havana Labs nghiên cứu phát triển.

Trước đó, Intel đã khoe về sức mạnh của Gaudi 2, hiệu năng tiệm cận rất gần với Nvidia H100, một trong những lựa chọn hàng đầu về hiệu năng huấn luyện cũng như vận hành LLM phục vụ các doanh nghiệp và tập đoàn công nghệ. Còn với Gaudi 3, Intel tự tin nói rằng, hiệu năng của con chip xử lý AI này đủ sức vượt qua H100 trong tác vụ vận hành những mô hình ngôn ngữ, nền tảng của những chatbot và dịch vụ AI phổ biến hiện nay. Nhưng thời điểm Gaudi 3 ra mắt cũng sẽ là lúc Nvidia giao những con chip khổng lồ B200 kiến trúc Blackwell cho các đối tác và khách hàng.

Nvidia Blackwell B200: Chip AI mạnh nhất thế giới, mạnh hơn H200 từ 2.5 đến 5 lần, thiết kế chiplet

GTC 2024, sự kiện công bố những sản phẩm phần cứng và phần mềm mới của Nvidia đã khai mạc, và trung tâm của sự kiện, và được trông đợi nhất có lẽ là kiến trúc chip GPGPU (general purpose graphics processing unit) mới của Nvidia, tên mã Blackwell…
tinhte.vn


Google Axion: Chip xử lý AI cho data center, kiến trúc ARM

Google Cloud vừa công bố một chip xử lý kiến trúc ARM mới, đặt tên là Axion. Con chip xử lý phục vụ riêng nhu cầu vận hành những dịch vụ AI này sẽ chỉ hiện diện trong những data center lớn vận hành tính năng AI trên đám mây…
tinhte.vn


Chi tiết kiến trúc


Kiến trúc của Gaudi 3 gần như giống hệt như Gaudi 2 vể kết cấu transistor và cách những cụm nhân xử lý tensor và ma trận được triển khai trên bề mặt die.

Nhưng có thể đưa ra những so sánh về mặt kết cấu giữa Intel Gaudi 3 và Nvidia B200. B200 là hai die GPU kết hợp lại với nhau thông qua cầu nối interconnect, vì giới hạn 800mm2 mỗi die silicon dạng monolithic mà thiết bị gia công bán dẫn hiện hành của các fab có thể làm được. Tương tự như vậy, Intel ghép hai die chip xử lý lại với nhau bằng cầu interconnect băng thông cao để tạo ra Gaudi 3.

Mỗi cụm nhân xử lý AI trên Gaudi 3 trang bị 48 MB bộ nhớ đệm nằm ở vị trí trung tâm. Xung quanh cụm bộ nhớ đệm là 4 matrix engine và 32 cụm nhân tensor. Rồi nếu anh em nhìn vào tấm hình cover, 8 die RAM băng thông cao đặt ngay sát cụm nhân xử lý AI, kết hợp với những cụm nhân xử lý hạ tầng mạng hay xử lý media trên bề mặt con chip silicon.

1.png

Intel cho biết, với những bài thử nghiệm xử lý số thực dấu phẩy động 8-bit, Gaudi 3 có sức mạnh xử lý AI gấp đôi so với thế hệ chip trước. INT8 là mấu chốt của quá trình huấn luyện những mô hình transformer. Còn với số thực dấu phẩy động BFloat 16, hiệu năng của Gaudi 3 tăng gấp 4 lần so với Gaudi 2.

Intel Gaudi 3 vs Nvidia H100


Tại sự kiện Vision 2024, Intel đưa ra dự báo rằng, so sánh với H100, tốc độ huấn luyện mô hình với 175 tỷ tham số như GPT-3 của Gaudi 3 sẽ nhanh hơn 40%. Những mô hình từ 7 đến 8 tỷ tham số như những phiên bản LLaMa 2 của Meta thậm chí sẽ còn tạo ra chênh lệch hiệu năng lớn hơn, rút ngắn thời gian huấn luyện mô hình ngôn ngữ.

Còn về hiệu năng nội suy dữ liệu từ mô hình ngôn ngữ, nói cách khác là quá trình vận hành mô hình ngôn ngữ trong những ứng dụng thương mại, chênh lệch hiệu năng có phần sát sao hơn. Chẳng hạn như với hai phiên bản mô hình LLaMa của Meta, Gaudi 3 tạo ra hiệu năng tương đương 95 đến 170% so với H100 của Nvidia. Với mô hình Falcon 180B, 180 tỷ tham số, huấn luyện dựa trên 3.5 nghìn tỷ token, có lúc Gaudi 3 tạo ra hiệu năng nội suy văn bản nhanh gấp 4 lần so với H100.

Nếu so sánh với H200, sức mạnh của Gaudi 3 dao động từ 80 đến 110% hiệu năng H100 với LLaMa, và vận hành Falcon 180B nhanh hơn 3.8 lần.

Quảng cáo



Cùng lúc, Intel cũng đề cập tới tiết kiệm điện năng khi vận hành Gaudi 3 trong những data center. So sánh với H100, performance/watt của Gaudi 3 cao hơn H100 220% khi chạy mô hình LLaMa, 230% khi chạy mô hình Falcon.

Intel Gaudi 3 vs Nvidia B200


Hiện giờ cả hai sản phẩm này đều chưa được ra mắt chính thức, chưa được ứng dụng vận hành trong những data center chạy những dịch vụ AI phục vụ cho hàng chục, hàng trăm triệu người trên toàn thế giới. Nhưng cũng có vài chi tiết thông số kỹ thuật có thể đem ra so sánh giữa Gaudi 3 và B200. Quan trọng nhất, là dung lượng và băng thông bộ nhớ HBM trên die chip xử lý AI.

Bên cạnh sức mạnh xử lý của những cụm nhân tensor và matrix, thì bộ nhớ cũng như dung lượng bộ nhớ luôn là thứ cực kỳ quan trọng với ngành nghiên cứu và vận hành AI. Khi những mô hình AI giờ hoạt động dựa trên hàng chục tỷ tham số về mặt quy mô và kích thước, thì hai khía cạnh này lại càng trở nên quan trọng.

2.png

Cả Intel Gaudi 3 lẫn Nvidia B200 đều được trang bị những die RAM HBM, chồng những lớp DRAM lên trên bộ controller để cung cấp dữ liệu cho chip xử lý vận hành. Để những cụm HBM nằm chung với những nhân xử lý tensor và matrix trên những con chip xử lý AI, cần tới những công nghệ đóng gói chip cao cấp nhất hiện giờ, như cầu nối silicon EMIB của Intel, hay CoWoS của TSMC, tạo ra những cầu nối băng thông cao giữa bộ nhớ và chip logic.

Quảng cáo


Gaudi 3 có bộ nhớ cao hơn Nvidia H100, nhưng lại thua H200, B200 của Nvidia và Instinct MI300 của AMD. Việc sử dụng công nghệ chip nhớ HBM2e so với HBM3 như 4 sản phẩm được đem ra so sánh có thể sẽ tạo ra lợi thế cạnh tranh về giá mỗi con chip mà Intel bán cho các khách hàng.

Một yếu tố cần đề cập nữa, Gaudi 3 được gia công trên tiến trình N5 của TSMC chứ không phải Intel 7 hay Intel 4. Blackwell B200 thì được gia công trên tiến trình N4, phiên bản 5nm nâng cấp của TSMC thay vì N3, hiện tại đang được ứng dụng để gia công những chip xử lý tiêu dùng cho Apple, trang bị trong iPhone và máy tính Mac. Theo TSMC, N4P tạo ra hiệu năng cải thiện 11%, hiệu quả tiêu thụ điện tăng 22% và mật độ transistor tăng 6% so với N5.

Theo IEEE Spectrum
38 bình luận
Chia sẻ

Xu hướng

Ngoài chuyện nóng, bú điện vs render kém ra thì tèo chả đc tích sự gì 😁
@para-hạ-sốt Render kém? À, kém hơn mấy con thredipper trăm củ
Mà không kém hơn mới lạ
Mấy con này ra chắc cũng cho mấy cty nhỏ nghiên cứu, chứ Nidia nó kín lịch bán cho mấy tập đoàn lớn hết rồi.
Có điều ra sau nhưng vẫn ko đọ được với H100 trong khi NVidia chuẩn bị giao B200 rồi, đó là chưa kể phần mềm CUDA quá bá đạo
Nói chung Intel, AMD chủ yếu là fill thị trường nhỏ lẻ, ngách thôi chứ GPU thì Nvidia nó dẫn quá xa rồi.
@magez Ai cũng biết chip Nvidia tốt nhưng giá cao, lại khan hàng. Các công ty, tổ chức cũng muốn đa dạng hóa, muốn tùy chỉnh mô hình AI của mình sao cho phù hợp nên họ sẽ luôn để mắt đến các sản phẩm tiềm năng của các hãng khác, ngoài ra còn tự phát triển hàng riêng cho mình nữa. Nên mình nghĩ sản phẩm của cả Intel lẫn AMD cũng vẫn có chỗ dùng.
@nghaimin thì đương nhiên rồi, mình có nói ở trên đó, phần lớn thị phần là Nvidia chiếm hết rồi, còn lại nhỏ lẻ thì 2 thằng này chia nhau
@nghaimin no. 1 là họ mua cái nào hiệu quả và hỗ trợ tốt chứ ko ai ham rẻ 1 chút để đổi lấy rắc rối cả. mà inteo chắc gì đã rẻ? còn nếu tự làm thì họ dùng arm làm riêng core Ai như google hay amazon
chưa thấy lôi Apple vào!?!
@GLES ủa, Apple nó làm chip M cho datacenter hả thằng đần, đần như mày tao ko thèm quote thôi
@QuanLyNhaNghi Chip nào mạnh chẳng làm server với data center được. Nhưng mà nó phải thực sự mạnh cơ chứ không phải đem mấy cái bảng ra lừa người. Chỉ có đám cừu mới tin.
@QuanLyNhaNghi miễn m cay là được vì thật ra m méo thể rep lại bằng phương pháp kỹ thuật, và thg nào đần thì cứ dựa vào comment

=)))))
@Doof Heinz bác rep giùm tui nhé, vì nó quá đần nên tui éo thèm rep nữa, có link chứng minh thực lực táo thối hay gì cũng méo đem ra được. cảm ơn bác nha
Xịn, Danh chắc cay lắm.
Yêu quá
@Nguyễn Chí Danh nhìn stock inteo thắc mắc là sao còn có người mua sàn phẩm inteo luôn
@sky_tiger có gì lạ đâu bác, 2 lý do 1 là chơi oc quá mức hơn 6ghz thì phải lúc này cpu nóng, bus, ram này nọ nóng lên nên hoạt động ko chính xác lỗi văng app, do xài 10nm+++++++++++++1+1+ nên đẩy xung cho cố để khè điểm và hậu quả lỗi. lý do thứ 2 lá đám core e rác, app nào ko control bị đẩy vào core e rác chạy ko nổi văng app.
@sky_tiger dòng 13 náy lỗi thấy inteo list 1 đống từ i5 đến i9 dòng K F và inteo ngưng sản xuất và tuyên bố miễn trừ trách nhiệm. chuyến này fan inteo vui rùi được xài đam cpu lỗi.
Mấy lỗi trên đời 13 14 đã fix chưa intel. Báo cáo doanh thu quý 1 như thế nào rồi. Giờ đúng chỉ có mõm thôi
2 năm nữa cơn sốt AI đi qua thì chip lại rẻ như cát biển.
Khác với AMD anh Tèo đã tham gia cuộc đua AI từ sớm, không biết driver cho GPU thế nào giờ đấm nhau với CUDA thôi chứ benchmark toàn mõm
vấn đề là đối tác nào gan dám xài mấy con Ai của intel nhỉ? Giá thì khỏi nói nhưng hiệu năng và phần mềm sao bằng nvidia?
1 ông trùm thì chắc sớm muộn cũng kịp nhanh thôi. Mới đó VGA cũng nhanh ghê. Tóm lại là mỹ nó chi phối toàn TG
Intel bán rẽ con này làm vga chơi game thì ngon
@PhươngNguyễn (GaRiHp) ngon gì? đám arc đó thím mua đi. lỗi tưng bừng kìa.
@ragefighter bác nhát chứ tui thì nỗ care:
nếu mà nó làm con nào ddr tầm 20-36 Gb là tui quất luôn 2 con chạy song song xem sao: bữa tính làm con rẽ nhất a380 về xài rồi đợi con 16gb giãm giá hốt luôn mà nhìn cái giá bán vs khan hàng nên thôi:
tầm nhìn cũa intel về vga quá tệ:
đã biết zô sau: ế: mà toàn chơi ngu: nếu tui: bãn rẽ 6gb ddr: bãn trung là 12gb: thì bãn cao là 24gb luôn:
vậy cho người dùng đỡ lăn tăn:
@PhươngNguyễn (GaRiHp) inteo có hỡ trợ chạy spng aong 2 gpu ko? 1 con còn lỗi lên lỗi xuống, thấy mấy ông kia test game muốn đập gpu. inteo làm gì có rẻ mà mơ?
Có ai biết AI đã có thành tựu gì giúp giảm giá thành sản phẩm, dịch vụ nào trong thực tế chưa nhỉ?
@bbvc Gần gũi nhất thì giúp thợ sửa ảnh với video giảm được cả mớ thời gian chỉnh sửa ảnh rồi, xa xôi hơn thì giúp các công ty, tổ chức tài chính giảm được tiền lương chi chả cho các chuyên viên phân tích tài chính, giúp các nhà cái đưa ra các kèo đấu hấp dẫn hơn, giúp các bên nghiên cứu khoa học giảm thời gian phân tích dữ liệu ...

Mới đâu chatGPT còn được viết tên trên credit của một bộ phim chiếu trên Netflix thì phải, nó viết một phần nhạc của bộ phim đó. Thế là tiết kiệm được khối tiền làm nhạc.
@bbvc Khả năng AI chỉ làm giảm giá người bán dịch vụ thôi chứ người mua vẫn trả như thế
Gáy to vc, cạnh tranh trực tiếp được với H100.
Thế giới AI Server đang khan hàng, một mình Nvidia ăn hết là không thể nhưng có một vấn đề mà mod ko nói tới, đó cũng là lý do khách hàng hiện nay chỉ mua H100 (còn H200, B200 chỉ là x2 DIE với x2 giá) của Nvidia mà ko mua Intel or AMD chính là phần mềm CUDA độc quyền. Đến khí nào Intel, AMD và các ông lớn như microsoft, google, OpenAI.v.v… hợp lực làm ra một phần mềm mã nguồn chung cho các nhà phát triển thì lúc đó mới có cơ hội dành thị phần của Nvidia.
- Intel, AMD giờ thừa sức cạnh tranh với Nvidia nhưng mới về phần cứng thôi, phần mềm nó sẽ quyết định trong thời gian tới khi có sự hợp tác của các ông lớn PC, Software và AI company tham gia.
@XuyenViet2019 Từ xưa đến nay các bên mua hàng đều cố gắng tránh thế độc quyền của bên bán hàng bằng cách support để tạo ra một bên thứ 2 đủ khả năng cạnh tranh nếu như trên thị trường chỉ có 1 bên bán. Microsoft đã có kinh nghiệm từ vài chục năm trước buff máu cho AMD đấu với Intel để giảm giá chip, thậm chí còn từng đầu tư vào Apple để chính mình không bị chính phủ ngắm nghía vụ độc quyền. Tương lai Intel có thể không có được vị thế như Nvidia nhưng chắc cũng sẽ có được một thị phần tương đối, cùng lắm thì như AMD và Intel bây giờ.
ra nhanh còn kịp miếng hàng hot. Chứ bong bóng AI qua đi là lại tèo

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019