Có gì trong vi xử lý Prodigy đến 128 nhân của startup bán dẫn Tachyum?
mig0
3 thángBình luận: 22
Có gì trong vi xử lý Prodigy đến 128 nhân của startup bán dẫn Tachyum?
Tachyum Prodigy là 1 vi xử lý đa năng (Universal Processor), có khả năng chạy bất kỳ dòng mã nào nhờ trang bị trình biên dịch nhị phân động (dynamic binary translator). Con chip của startup bán dẫn này có phiên bản cao nhất (dự kiến) sở hữu đến 128 nhân và mức TDP khủng khiếp 950 W.

Tachyum Prodigy Universal Processor


Theo kế hoạch, Tachyum sẽ cung cấp ra thị trường 8 lựa chọn vi xử lý Prodigy, với phiên bản thấp nhất là Prodigy T832-LP có 32 nhân, xung 3.2 GHz, 180 W TDP và cao nhất là Prodigy T16128-AIX với 128 nhân, xung 5.7 GHz, 950 W TDP. Mẫu Universal Processor đầu bảng được trang bị 128 nhân xử lý độc quyền, kết hợp với 16 kênh DDR5, cung cấp giao diện bộ nhớ 1024 bit, hỗ trợ tốc độ truyền dữ liệu đến 7200 MT/s, tương ứng băng thông 921.6 GBps và có 64 làn PCIe 5.0. Prodigy T16128-AIX hỗ trợ tối đa 8 TB dung lượng RAM, hoạt động ở xung 5.7 GHz, được sản xuất trên tiến trình công nghệ N5P tối ưu hóa hiệu suất của TSMC.

tachyum_prodigy_universal_processor_tinhte-1.jpg

Trong mảng ứng dụng HPC (High Performance Computing), Tachyum hi vọng Prodigy T16128-AIX có thể đạt đến mức hiệu suất FP64 là 90 TFLOPS, hiệu suất suy luận và đào tạo AI là 12 PFLOPS. Con chip tiêu thụ đến 950 W điện, có thể thiết lập với cấu hình 2 hoặc 4 CPU. So sánh 1 chút với các sản phẩm hiện có trên thị trường thì AMD Instinct MI250X đạt 96 TFLOPS (FP64) với mức TDP 560 W, trong khi NVIDIA H100 SXM5 có hiệu năng AI vào khoảng 20 PFLOPS (INT8/FP8) ở 700 W. Dĩ nhiên, hiệu năng của GPU sẽ không thể ứng dụng cho các công việc mang tính đa dụng (general purpose workload), nhưng Prodigy của Tachyum thì khác.

Quảng cáo




Thiết kế của Prodigy T16128-AIX có 128 nhân VLIW (Very Long Instruction Word) 64 bit độc quyền, mỗi nhân lại được trang bị 2 đơn vị vector 1024 bit và 1 đơn vị ma trận 4096 bit. Ngoài ra, bộ nhớ đệm cho mỗi nhân gồm 64 KB instruction cache, 64 KB data cache, 1 MB L2 cache, đồng thời có khả năng sử dụng các phần L2 cache đang không được dùng của các nhân khác làm L3 cache. Các nhân VLIW này là loại nhân theo thứ tự (in-order core), tuy nhiên theo như CEO và là đồng sáng lập Tachyum - ông Radoslav Danilak - nếu các nhà sản xuất trình biên dịch có thể tối ưu hóa phù hợp, các nhân VLIW có khả năng hỗ trợ xử lý 4 chiều không theo thứ tự (4-way out-of-order). Kiến trúc tập lệnh của Prodigy đạt được mức độ song song rất cao.

Nhân VLIW chạy được mã gốc (native code) được viết và tối ưu hóa cho Prodigy cũng như các tệp nhị phân x86, Arm, và RISC-V bằng cách sử dụng phần mềm mô phỏng, nhưng không ảnh hưởng đến hiệu suất. Lật lại lịch sử từ trước đến nay thì khi người ta cố gắng tìm cách chạy mã x86 trên vi xử lý VLIW, tất cả đều thất bại, điển hình như Transmeta Crusoe hay Intel Itanium, lý do nằm ở kiến trúc CPU và hiệu suất của phần mềm mô phỏng quá thấp. Danilak thừa nhận rằng hiệu suất khi sử dụng trình biên dịch nhị phân Qemu thì hiệu suất sẽ giảm từ 30% đến 40%, nhưng vẫn hi vọng rằng hiệu suất thực tế vẫn đủ sức cạnh tranh, trong khi đó 1 số phần mềm đã được hỗ trợ native.

tachyum_prodigy_universal_processor_tinhte-3.png

Danilak cho biết: “Chúng tôi hỗ trợ native cho GCC và Linux, và FreeBSD hiện tại đã hoạt động trên Prodigy. Apache, MongoDB hay Python đã chạy native rồi, ngoài ra Pytorch và Tensorflow framework cũng đã có sẵn.”

Phía Tachyum nhấn mạnh rằng Prodigy không phải là 1 con chip tăng tốc (accelerator) mà là 1 vi xử lý (CPU) sẽ hướng đến cạnh tranh với AMD hay Intel cũng như các thương hiệu khác. Kể từ khi giới thiệu lần đầu tiên vào năm 2018, Tachyum đã có nhiều thay đổi trong Prodigy, đảm bảo rằng nó có thể cung cấp hiệu năng cạnh tranh ở khối lượng công việc AI và general purpose. Mục tiêu của Prodigy là 1 sự lựa chọn thay thế cho các vi xử lý HPC trên thị trường, nhắm đến mảng cloud/hyperscaler và viễn thông. Kế hoạch dài hơi của Tachyum là giành được 1 số đơn hàng cho siêu máy tính, vì vậy đơn vị vector/MAC (multiply-accumulate) trong Prodigy được tăng gấp đôi chiều rộng, từ 512 bit lên 1024 bit, cung cấp đường dẫn dữ liệu (datapath) cần thiết cho đơn vị ma trận 4096 bit, phục vụ hoạt động AI.

Là 1 vi xử lý đa dụng, Prodigy của Tachyum sở hữu lợi thế đặc biệt so với các sản phẩm khác là khả năng thực thi nhiều loại mã khác nhau. Nếu hiệu năng tốt với mức công suất phù hợp khi thực thi general purpose workload, Prodigy sẽ mang lại tính linh hoạt cho AWS (Amazon Web Services), Microsoft Azure. Khi đó, các hệ thống chạy Prodigy có thể dùng chung cho nhiều trường hợp ứng dụng, từ AI, HPC đến general purpose. Nhưng trước mắt, chúng ta vẫn còn phải chờ đến lúc chính thức, do hiện tại Tachyum chưa có 1 con chip Prodigy thực thụ nào cả. Những con số mà Tachyum trình bày là kết quả của quá trình mô phỏng, thứ vật lý duy nhất hiện diện là 1 nguyên mẫu (prototype) vi xử lý với đóng gói FPGA.

tachyum_prodigy_universal_processor_tinhte-2.jpg

Quảng cáo


Tachyum đã bắt đầu nhận đơn đặt trước trên Prodigy Evaluation Platform - nền tảng sẽ sử dụng trên 1 số Prodify silicon. Nếu muốn, các đối tác sẽ phải hoàn thành đặt hàng trước 31/7/2022, rồi nhận sản phẩm hoàn chỉnh sau khoảng 6 đến 9 tháng. Giả sử mọi kế hoạch đều đi đúng lộ trình, Tachyum sẽ ra mắt Prodigy silicon vào khoảng trung tuần tháng 8/2022. Đến tháng 12, Tachyum sẽ có mẫu thử (sample) cho những con chip này, và nếu chúng hoạt động ổn định thì sẽ gửi cho đối tác đánh giá. Tachyum hi vọng vi xử lý đầu tiên của họ sẽ bắt đầu sản xuất hàng loạt vào nửa đầu năm 2023. Xa hơn nữa, Danilak cho rằng Prodigy 2 sẽ ứng dụng tiến trình công nghệ N3 của TSMC, cung cấp hiệu suất gấp đôi và hỗ trợ PCIe 6.0.

Phân tích tính khả thi


Đầu tiên, con chip Prodigy của Tachyum là 1 con chip tương lai, nghĩa là ở hiện tại nó không/chưa có cả bản thử nghiệm (sample), mà tất cả những số liệu hiệu năng chỉ là giả định thông qua mô phỏng (simulation). Cách đây 22 năm, kiến trúc Intel Netburst ra đời với dự đoán khả năng mở rộng trong vòng 5 năm lên đến mức xung 10 GHz, nhưng thực tế cho thấy, tất cả chỉ là con số trên giấy mà thôi. Netburst là 1 sự thất bại của Intel, nhưng đó là 1 thất bại cần thiết để khởi đầu cho những thành công về sau. Mình sẽ có 1 bài riêng về câu chuyện của Netburst - Intel Pentium 4.

tachyum_prodigy_universal_processor_tinhte-4.jpg

Kiến trúc VLIW đã từng được sử dụng bởi Intel Itanium và cả Transmeta Crusoe, hiệu năng thực tế rất kém trong khi về lý thuyết lại cực kỳ hấp dẫn. VLIW không tệ, nhưng hiệu năng của nó phụ thuộc hoàn toàn vào trình biên dịch để tạo ra mã siêu tối ưu hóa cho các đường dẫn lệnh rộng và đơn vị thực thi thứ tự. Trong ứng dụng thực tế, điều này khó vô cùng nếu không muốn nói là không thể thực hiện được. Hãy nhìn vào Intel, gã khổng lồ công nghệ đã đổ hàng đống chi phí để tạo ra trình biên dịch VLIW trong nhiều năm qua nhưng vẫn chưa có được 1 compiler nào đủ tốt. VLIW có lẽ phù hợp với những kiến trúc khác trong việc biên dịch mã nhị phân, nhưng nhìn chung chi phí vẫn còn cao và hiệu năng tổng thể khó so sánh được với những vi xử lý native cùng chạy 1 đoạn mã.

Các đơn vị vector/MAC cũng như ma trận chỉ hoạt động hết công suất trên native code, vì vậy các mã nhị phân x86 hay Arm đã được dịch sẽ không tận dụng được lợi thế này. Điều này khiến cho sức mạnh tính toán thực tế của Prodigy đối với các đoạn mã x86 hay Arm sẽ thấp hơn nhiều những gì mà Tachyum công bố.

tachyum_prodigy_universal_processor_tinhte-5.png

Quảng cáo



Cuộc chiến về kiến trúc vào khoảng thời gian những năm 1980 và 1990 đã kết thúc, với phần thắng được chứng minh bằng sự phổ biến hiện tại của x86 và Arm. Đã hơn 30 năm qua và chúng ta gần như hoàn toàn phụ thuộc vào x86 hay Arm, với các phần cứng và phần mềm đằng sau đó. Vì vậy để cho 1 kiến trúc mới hoàn toàn có thể xuất hiện và được chấp nhận thì cần phải có sự vượt trội rất lớn về mặt hiệu năng, đủ sức hấp dẫn để khiến người dùng và cả các nhà sản xuất quyết định chuyển đổi, làm lại từ đầu. Các công ty công nghệ trên thế giới đã dồn rất nhiều thứ vào x86 lẫn Arm, từ công sức, tiền bạc, chất xám và cả tâm huyết nữa, do đó việc tạo ra 1 thứ kiến trúc mới có hiệu suất cao hơn đáng kể là điều không thể xảy ra. Ngay cả kiến trúc RISC-V - kiến trúc tập lệnh phần cứng mã nguồn mở dựa trên kiến trúc tập lệnh máy tính rút gọn RISC (Reduced Instruction Set Computer) - còn được tồn tại là nhờ chi phí cấp phép và thiết kế thấp chứ không phải vì hiệu suất cao.
22 bình luận
Khiếp hồn cái bánh vẽ có TDP 950w
Siêu máy tính rồi.
Chắc dùng cho tính toán phân tích là chính.
Bánh vẽ to vI 🤣
Giờ thì mới hiểu tại sao mọi người comment "bánh vẽ" đã tốn công vẽ to to xíu rồi thực tế tính sau 😁
Xin chào người anh em @mig0 🙂
@mig29f =))))
@HaoTran20 =}}
1 nhân lên 5,7 GHz đã thấy tản nước chạy phọt c*t rồi.
128 nhân cùng ở mức 5,7 GHz nghe nó cứ điêu điêu 🙂
@Di Hoa Tiếp Ngọc Bác cứ nghĩ đến ấm đun siêu tốc là hợp lí hết =))
Xung cao chưa chắc đã mạnh, xưa mấy con amd cũng rất nhiều bài ep xung lên đến 5ghz bằng nito lỏng như so với những con 4ghz bây giờ thua gấp nhiều lần dù cùng số nhân.
Đọc đến đoạn cuối hóa ra mới chỉ là CPU trên giấy. Chẹp !
"Những con số mà Tachyum trình bày là kết quả của quá trình mô phỏng, thứ vật lý duy nhất hiện diện là 1 nguyên mẫu (prototype) vi xử lý với đóng gói FPGA." thế là mõm thôi à
GGDWW
CAO CẤP
3 tháng
Bạn này cũng nick là mig kìa
Hy vọng bản nâng cấp sẽ lên 1500W hoặc 2000W. Giá gas giờ khá cao, được mình sẽ ủng hộ bếp từ này
950W mà sao tản nhiệt êm thế =))
Azkan
TÍCH CỰC
3 tháng
@choigiky Ở cái hình đầu tiên thì mỗi con chip đi cùng tản đấy là 1 con FPGA thôi, mỗi FPGA có 2 cores. Thường thì FPGA còn chẳng cần dùng tản, con này dùng tản nghĩa là đã tốn kha khá điện rồi đấy.
Kyll_hd
ĐẠI BÀNG
3 tháng
@choigiky Hình ảnh chỉ mang tính chất minh hoạ
Cười ra nước mắt
Chốt lại là mới chỉ trên giấy
chắc mạnh lắm
Hồi những năm 2k, trên PCWorld hay quảng cáo máy của Fujitsu bé, đẹp, xịn chạy chip Transmeta Crusoe và pin gấu lắm, nhưng rồi hóa ra là để làm những thứ nhẹ nhàng thôi chứ không làm được gì cao siêu. Để hiện thực hóa được cái lý thuyết đẩy việc cho phần mềm làm nó cần người tài giỏi nhiều đến mức không biết bao giờ cho đủ . . .
TiaMa
ĐẠI BÀNG
3 tháng
phần cứng có mạnh vô hạn đi nữa mà phần mềm ko ổn thì cũng toang thôi








  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2022 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02862713156
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019