Startup máy chủ AI đám mây: AMD MI300X ngon và rẻ hơn Nvidia H100

P.W
17/4/2024 8:38Phản hồi: 23
Startup máy chủ AI đám mây: AMD MI300X ngon và rẻ hơn Nvidia H100
Cuộc chạy đua hiệu năng chip xử lý các dịch vụ AI trang bị trong những máy chủ đám mây đang khiến chính bản thân các đơn vị vận hành những máy chủ này phải tính toán lại chi phí để mua hàng nghìn, thậm chí hàng chục nghìn con chip dạng GPGPU (General Purpose Graphics Processing Unit) chuyên biệt để xử lý những mô hình AI.

Từng có thời điểm, tiêu chuẩn vàng của ngành nghiên cứu, vận hành và dịch vụ AI thương mại là Nvidia H100. Không thiếu những đơn vị vận hành máy chủ đám mây lựa chọn cách mua hàng vạn GPU mẫu này để trang bị cho data center như CoreWeave, Lambda hay Voltage Park. Nhưng hiện giờ đã bắt đầu có những cái tên như TensorWave chuyển qua sử dụng lựa chọn mà AMD tạo ra để cạnh tranh, mang tên Instinct MI300X.

TensorWave cho biết, chi phí thuê máy chủ vận hành dịch vụ AI với những chip MI300X sẽ chỉ bằng một phần so với chi phí máy chủ trang bị chip H100.

AMD Instinct MI300X 192GB: Câu trả lời của AMD trước chip xử lý AI của Nvidia

Bên cạnh những con chip xử lý máy chủ EPYC, trong đó có cả những phiên bản trang bị 3D V-cache, tại sự kiện công bố sản phẩm doanh nghiệp của AMD, GPU flagship phục vụ xử lý HPC, data center nói chung và AI nói riêng…
tinhte.vn


Đồng sáng lập TensorWave, Jeff Tatarchuk khẳng định rằng, chip tăng tốc xử lý mô hình AI mới nhất của AMD, ra mắt hồi giữa năm ngoái, bắt đầu giao hàng từ tháng 12/2023 có những đặc tính, hiệu năng và chi phí vận hành rẻ và cạnh tranh hơn hẳn so với H100. Điều đầu tiên và quan trọng nhất, là đặt hàng MI300X là có hàng chứ không phải đợi cả năm trời. Đó là lý do từ nay đến cuối năm 2024, TensorWave đã đặt hàng và sẽ nhận 20 nghìn GPU MI300X từ AMD. Sang năm, sẽ bắt đầu có những hệ thống xử lý AI được trang bị tản nhiệt nước để tối ưu hiệu năng.


Tuyên bố kế tiếp của Tatarchuk sẽ khiến nhiều người tranh luận: “Nếu chỉ xét trên cấu hình cơ bản, thì MI300X vượt xa H100.”

Con chip với TDP 750W của AMD ứng dụng 12 chiplet kết nối với nhau bằng cầu nối interconnect, kết hợp thêm 8 module bộ nhớ VRAM HBM là 20 cụm chiplet trên một chip xử lý. Theo AMD, hiệu năng tính toán số thực dấu phẩy động của MI300X mạnh hơn 32% so với H100. Cùng với đó, dung lượng bộ nhớ cấp cho chip tính toán cũng nhiều hơn, băng thông cũng cao hơn. MI300X trang bị 192GB HBM3, băng thông 5.3 TB/s. Nvidia H100 trang bị 80GB HBM2e, băng thông bộ nhớ 3.35 TB/s.

Đến thế hệ chip H200, Nvidia ứng dụng công nghệ bộ nhớ HBM3e, để tạo ra băng thông bộ nhớ lớn hơn, giúp vận hành những mô hình với hàng tỷ đến hàng chục tỷ tham số ở tốc độ nhanh nhất có thể.

GKIhwX3X0AId6q4.jpg

Đối với TensorWave, trong những hình ảnh chia sẻ lên mạng xã hội, các kỹ sư của startup này lắp ráp những máy chủ 8U Supermicro AS-8125GS-TNMR2 vào server rack. Khi ấy có những dự đoán cho rằng, hệ thống này nếu làm mát bằng quạt thổi, sẽ không thể trang bị đầy đủ lượng máy chủ mà một rack có thể hỗ trợ, nhất là khi ở chế độ vận hành công suất tối đa, điện năng tiêu thụ có thể đạt ngưỡng 10 kW.

Nhưng thật ra không phải. TensorWave vẫn có kế hoạch lắp đủ lượng máy chủ mà mỗi server rack hỗ trợ, tiêu thụ điện tổng cộng lên tới 40 kW, làm mát nhờ những radiator ở mặt sau của từng máy chủ. Bản thân giám đốc vận hành của TensorWave cũng thừa nhận, những công nghệ làm mát chip xử lý mới nhất giờ cũng đang là thứ được cả ngành AI quan tâm đặc biệt, thành ra giống hệt như bản thân tình trạng thiếu hụt chip xử lý AI, linh kiện và hệ thống tản nhiệt máy chủ cũng đang trong tình trạng làm không đủ để bán.

Về mặt hiệu năng, Tatarchuk cho biết, TensorWave tự tin vào hiệu năng của MI300X. Ngành vận hành dịch vụ AI đương nhiên có quan tâm tới MI300X, nhưng lo ngại lớn nhất của họ luôn là việc liệu hiệu năng của con chip do AMD tạo ra có so sánh được với H100 của Nvidia hay không.

Về mặt vận hành, theo TensorWave, những máy chủ kể trên sẽ được kết nối với nhau thông qua hai giao thức kết nối bộ nhớ RDMA và kết nối mạng RoCE. Chi phí vận hành một máy chủ như trong hình sẽ chỉ ở mức 1 USD/1 giờ/1 GPU.

Quảng cáo



Trong tương lai gần, TensorWave muốn kết nối toàn bộ hệ thống máy chủ lại với nhau dựa vào công nghệ FabreX nền giao thức PCIe 5.0 của GigaIO, kết nối tối đa 5750 GPU lại với nhau thành một khối để dễ quản lý và phân chia công việc, với tổng cộng hơn 1 petabyte bộ nhớ HBM3 tốc độ cao.

Một giải pháp kết nối những GPU xử lý AI khác là TensorNODE, cũng của GigaIO, dựa trên kiến trúc SuperNODE được giới thiệu vào năm ngoái. Với giải pháp này, switch PCIe sẽ được ứng dụng để kết nối GPU lại với nhau. Trên lý thuyết, giải pháp này cho phép một CPU quản lý và chia việc cho nhiều hơn 8 GPU như kết cấu máy chủ hiện giờ.

Giải pháp này hơi khác so với NVLink của Nvidia. Giải pháp của Nvidia kết nối tối đa 576 GPU xử lý AI trở thành một GPU đơn khối khổng lồ cả về quy mô, bộ nhớ lẫn sức mạnh. Băng thông bộ nhớ của NVLink cao hơn nhiều, 1.8 TB, còn chuẩn PCIe 5.0 chỉ có tốc độ tối đa 128 GB/s, đổi lại là giới hạn kết nối tối đa thấp hơn.

Theo The Register
23 bình luận
Chia sẻ

Xu hướng

Cuộc đua chỉ mới bắt đầu :v
Tội nghiệp
Nếu mà nói về hiệu nặng thuần thì amd ăn đứt nvidia và intel cộng lại:
những mà độ ỗn định tỗng thể thì amd lại thua xa
nếu là doanh nghiệp lớn : toàn cốt vs lõi: thì họ xài amd là lợi nhất: vỳ số tiền và sức mạnh mang lại rất ok:
Những vs dân mơ: và người dùng làm ăn: thì các bạn cứ intel và nvidia mà phang:
Vỳ 2 thằng này làm sẵn hết : cứ xài mà đếm tiền thôi:
TKNRCT
ĐẠI BÀNG
một tháng
@PhươngNguyễn (GaRiHp) đâu ra, workbook, amazon thuê gpu cũng toàn h100 của nvi chứ thấy amd đâu
@PhươngNguyễn (GaRiHp) Riêng lĩnh vực chip xử lý AI này cả Intel và AMD đều là cửa dưới so với Nvidia.

MI300X của AMD còn có doanh nghiệp mua như trong bài viết. Chứ Intel Gaudi thì không biết có ma nào mua không nữa.
@sky_tiger Uhm
: đấy là tầm nhìn cũa các kụ thôi:
đễ tui cho vấn đề này nhé:
nếu các kụ làm bài toán đệ quy 1 tỹ tỹ lần: lấy con intel vs amd vs apple ra sô lô xem biết nhau ngay:
sky_tiger
ĐẠI BÀNG
20 ngày
@PhươngNguyễn (GaRiHp) Có bên nào làm thử rồi thì quăng luôn video lên đây. Up mở cái gì?
Thế còn vấn đề về phần mềm...
Yazzol
ĐẠI BÀNG
22 ngày
@lightmore Không biết là Nvidia đầu tư A.I trc tận 10n lận à??
lightmore
ĐẠI BÀNG
22 ngày
@Yazzol 10n là ít, cơ sở cũng phải 20n rồi. NVIDIA chỉ đầu tư mạnh mảng GPU, ngoài gaming còn cả dòng workstation, AMD thì chỉ mới mua ATI từ 2006 nhưng chưa cạnh tranh được, tập trung tiền để phát triển CPU nên GPU không đọ được. Hi vọng sắp tới sẽ ổn hơn theo hướng opensource ROCm: https://github.com/vosen/ZLUDA

GitHub - vosen/ZLUDA: CUDA on AMD GPUs

CUDA on AMD GPUs. Contribute to vosen/ZLUDA development by creating an account on GitHub.
github.com
GLES
ĐẠI BÀNG
21 ngày
@lightmore ặc, emulation layer à bác, tưởng translation layer

thấy có tiềm năng nhưng thấy emulation thì hơi bị kẹt performance "near-native performance". Phải chi nó là translation layer map hàm thì hiệu năng sẽ rất cao, compile code lại cũng ok luôn.
lightmore
ĐẠI BÀNG
21 ngày
@GLES Theo mình thấy dạng dự án này là Simulation layer (không can thiệp ảo hóa phần cứng, chỉ có phần mềm và translation/transformation dùng GPU APIs - ở đây là AMD ROCm). Nhưng mà dự án này chỉ là ví dụ thôi chứ không có tài trợ từ AMD đâu.
Và với dự án tương tự vậy thì lúc develop vẫn dùng NVIDIA, production thì ném lên MI300x hoặc MIxxxx cũng là rất OK cho đội đỏ rồi.
Nhắm mắt cũng biết là mua AMD rẻ hơn, mạnh hơn, tiết kiệm điện hơn. Vậy mà đám doanh nghiệp vẫn đâm đầu mua nVidia. Đúng là tư duy kém thua cả mem tỉnhte 😁
@sốt-siêu-vi-sốt-phát-ban-2024 Tính ra tư duy kém mà toàn startup trăm củ biden, tư bản thật kì lạ 😂
GLES
ĐẠI BÀNG
22 ngày
@bango123 nhiều đứa trên này có biết gì kỹ thuật đâu bác, code cuda từ thập kỷ trước còn cả núi, đâu muốn port là dễ.
@sốt-siêu-vi-sốt-phát-ban-2024 hhhhh
Nghe có vẽ dùng máy chũ Ai đễ bão vệ môi chườn:
hhhhhh
Tau nễ nhất mấy thằng kỹ xừ tầm cõ chụ: đã biết con này 750w nhũng vẫn cài cục tãn thường: nếu là tau: tau xàu tãn khí: ko cần phòng lạnh: phòng 44 độ C cũng đc:
tãn khí có mấy cái lỗ nhét cây ống tãn nc vào: nếu tãn nc có vấn đề thì khí chạy : còn bìn thườn thì chạy cã 2
mụt tiu: tiết kiệm tối đa số tiền cho việt tãn nhiệt
Chí nô có khác..

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019