Như vậy là chip GPU mạnh nhất mà Nvidia từng tạo ra đã được giới thiệu vào hôm thứ 5 tuần này, GA100 dựa trên kiến trúc Ampere 7nm. Đến cỡ tháng 9 năm nay anh em gamer có thể sẽ được trải nghiệm game trên card đồ họa mới trang bị những phiên bản thấp hơn của GPU Ampere, còn GA100 được thiết kế dành riêng cho thị trường HPC (High Performance Computing), như nghiên cứu khoa học, nghiên cứu AI, Deep Neural Networking và AI Inferencing.
GA100 GPU được trang bị trên bo mạch xử lý Tesla A100 bên trong các hệ thống xử lý hiệu năng cực cao vừa được giới thiệu, như DGX A100 hay HGX A100 của Nvidia.
Dù được sản xuất trên tiến trình 7nm, nhưng GA100 là một con quái vật cả về hiệu năng lẫn kích thước. Diện tích chip xử lý ở mốc 826mm2, to hơn cả GV100 thế hệ kiến trúc Volta (815mm2). Nhờ sản xuất trên tiến trình 7nm, tổng số transistor cũng nhiều gấp đôi thế hệ GPU trước, từ 21,1 lên tận 54 tỷ transistor xử lý thông tin. Không chỉ mạnh nhất, mà tính đến thời điểm hiện tại có lẽ GA100 là GPU có mật độ transistor nhiều nhất trên thế giới.
Thông số kỹ thuật của GA100 cũng rất đáng nể:

GA100 GPU được trang bị trên bo mạch xử lý Tesla A100 bên trong các hệ thống xử lý hiệu năng cực cao vừa được giới thiệu, như DGX A100 hay HGX A100 của Nvidia.
Dù được sản xuất trên tiến trình 7nm, nhưng GA100 là một con quái vật cả về hiệu năng lẫn kích thước. Diện tích chip xử lý ở mốc 826mm2, to hơn cả GV100 thế hệ kiến trúc Volta (815mm2). Nhờ sản xuất trên tiến trình 7nm, tổng số transistor cũng nhiều gấp đôi thế hệ GPU trước, từ 21,1 lên tận 54 tỷ transistor xử lý thông tin. Không chỉ mạnh nhất, mà tính đến thời điểm hiện tại có lẽ GA100 là GPU có mật độ transistor nhiều nhất trên thế giới.

Thông số kỹ thuật của GA100 cũng rất đáng nể:
8 GPCs, 8 TPCs/GPC, 2 SMs/TPC, 16 SMs/GPC, 128 SMs trên mỗi GPU
64 FP32 CUDA Cores/SM, 8192 FP32 CUDA Cores trên mỗi GPU
4 Tensor Cores thế hệ thứ 4/SM, 512 Tensor Cores thế hệ thứ 3 trên mỗi GPU
6 HBM2 stacks, 12 512-bit memory controllers
Còn khi được trang bị trên module Tesla A100, GA100 được giảm cấu hình “một chút”:
7 GPCs, 7 hoặc 8 TPCs/GPC, 2 SMs/TPC, tối đa 16 SMs/GPC, 108 SMs
64 FP32 CUDA Cores/SM, 6912 FP32 CUDA Cores mỗi GPU
4 Tensor Cores thế hệ 4/SM, 432 Tensor Cores thế hệ 3 per GPU
5 HBM2 stacks, 10 512-bit memory controllers

GPU Ampere được thiết kế dựa trên 5 tiến bộ mới của đội xanh:
- Kiến trúc Ampere của Nvidia, dựa trên tiến trình 7nm của TSMC
- Tensor Cores thế hệ thứ 3 với khả năng xử lý TF32: Tensor Core trên GPU giờ nhanh hơn, dễ sử dụng hơn và linh hoạt hơn, nhờ đó có thể ứng dụng xử lý TF32 cho nghiên cứu trí thông minh nhân tạo, mạnh gấp 20 lần khả năng xử lý FP32, mà không cần sửa code. Thêm nữa, Tensor Core giờ cũng hỗ trợ FP64, giúp tốc độ tính toán nhanh hơn gấp 2,5 lần so với những thế hệ GPU trước sản xuất cho nhu cầu HPC.
- Multi-instance GPU: Tính năng ký thuật này có thể “chia” GPU A100 thành tối đa 7 GPU con để đảm trách tính toán nhiều phần việc khác nhau, tối ưu ở mức tối đa.
- NVLink thế hệ thứ 3: Tăng gấp đôi tốc độ kết nối giữa các GPU để tối ưu hóa hiệu năng scaling trên máy chủ.
- Tối ưu cấu trúc thưa, tăng gấp đôi hiệu năng xử lý của trí thông minh nhân tạo.

GA100 sở hữu interface 6144-bit bus, hỗ trợ tối đa 48GB VRAM HBM2e trên 6 stack đặt xung quanh GPU. Mỗi die VRAM trên stack có dung lượng 2GB, vì thế 48GB VRAM sẽ bao gồm 4 hi-stack chập thành một (8GB), rồi nhân lên với 6 stack là đủ VRAM cho mọi nhu cầu của các nhà khoa học và doanh nghiệp. Theo Nvidia, bộ nhớ của GPU chạy ở tốc độ 2.0 Gbps, tổng cộng tạo ra băng thông lên tới 1.6 Tbps! Tuy nhiên đó là ở thời điểm hiện tại. Nếu muốn, Nvidia vẫn có thể tung ra những bản GPU A100 với 6 hoặc 8 hi-stack mỗi stack VRAM, nâng tổng số bộ nhớ cho GPU sử dụng lên đến 72 hoặc 96GB.
Thế còn gamer chúng ta thì sao?
Còn bây giờ, có lẽ chúng ta sẽ phải ngồi chờ đến tháng 9 để được tận mắt chứng kiến những gì Ampere có thể làm được với những sản phẩm dành cho gamer. Theo vài nguồn tin đồn, GA102 trên RTX 3080 Ti sẽ thay thế TU 102 trên RTX 2080 Ti, GA 104 sẽ thay thế cho TU 104 (RTX 2080 Super, 2070 Super), GA106 thay thế cho TU 106 (RTX 2070 Super). Những thong tin nội bộ Nvidia bị tiết lộ cho thấy, RTX 3080 và 3080 Ti có thể sẽ là những con quái vật khi chơi game ở độ phân giải 4K.
GA102 sẽ được trang bị 5.376 CUDA core, xung nhịp lên tận 2.2 GHz nhờ công nghệ 7nm, và ngay cả khi bị cắt giảm hiệu năng, tốc độ xử lý của nó vẫn có thể đạt ngưỡng 21 TFLOPs (Xbox Series X cũng chỉ có 12 TFLOPs thôi). Những chip GPU nhỏ hơn có thể vượt qua mốc xung nhịp 2.5 GHz. Tất cả sẽ được dùng bộ nhớ GDDR6, tốc độ 18 Gbps, tạo ra băng thông 863 GB/s, cao hơn RTX 2080 Ti những 40%, nếu memory bus được đặt ở mức 384-bit. Nhắc đến hiệu năng chơi game, GA102 có tốc độ khung hình cao hơn RTX 2080 Ti (xin nhắc lại là ở độ phân giải 4K) từ 40 đến tận 70%, phụ thuộc vào việc những trò chơi có được các hãng tối ưu tốt hay không.

Bên cạnh đó, có thể DLSS 3.0 cũng sẽ được ra mắt, kết hợp với Tensor Core thế hệ mới trên GPU Ampere tạo ra hiệu năng đáng kinh ngạc khi chơi game, nhờ Tensor Core xử lý AI bù lấp những thiếu sót trong chi tiết đồ họa lúc chơi game với DLSS, chỉ cần render ở độ phân giải 1080p là đã upscale lên được 4K. Hiện giờ DLSS 2.0 trong hai tác phẩm Control và Mech Warrior 5 cũng đã vô cùng ấn tượng rồi, chơi game ở độ phân giải 2K max setting nhưng chỉ render game ở độ phân giải 940p nhưng nét không kém gì khi render game ở độ phân giải gốc như anh em có thể thấy trong tấm screenshot trên đây.
Mời anh em đọc thêm: Trải nghiệm DLSS 2.0, xử lý hình ảnh trong game bằng AI: Tương lai của đồ họa game là đây?
Theo WCCFTech, TechPowerUp