Bên trong mỗi chiếc GPU trang bị trên card đồ họa RTX 3080 hay 3090 vừa mới ra mắt thị trường thời gian gần đây là nhân xử lý ray tracing riêng thế hệ thứ 2, và nhân Tensor Cores xử lý deep learning thế hệ thứ 3. Cùng với đó là nhân xử lý SM (streaming multiprocessors) mới phục vụ cho một mục đích duy nhất của anh em: Chơi game mượt hơn, đem lại chất lượng đồ họa cao hơn. Còn đối với những streamer hay content creator, RTX 30 series cũng đủ sức phục vụ với những tính năng riêng được Nvidia phát triển. Những tính năng đó là gì, mình sẽ đề cập cụ thể trong bài viết này.
Nhưng trước hết, phải thừa nhận rằng RTX 30 series sở hữu vài cái “đầu tiên”: Mẫu card đồ họa thương mại đầu tiên được trang bị VRAM GDDR6X, mẫu card đồ họa đầu tiên hỗ trợ chuẩn xuất tín hiệu hình ảnh và âm thanh HDMI 2.1, qua đó cho phép chơi game ở độ phân giải 4K 120Hz hay 8K 60Hz, và phiên bản Founder’s Edition của RTX 30 series cũng là thế hệ card đầu tiên được trang bị cơ chế tản nhiệt dual axial flow, hút thổi hợp lý để làm mát cho GPU vốn đã rất mạnh trên bo mạch.
Nhưng trước hết, phải thừa nhận rằng RTX 30 series sở hữu vài cái “đầu tiên”: Mẫu card đồ họa thương mại đầu tiên được trang bị VRAM GDDR6X, mẫu card đồ họa đầu tiên hỗ trợ chuẩn xuất tín hiệu hình ảnh và âm thanh HDMI 2.1, qua đó cho phép chơi game ở độ phân giải 4K 120Hz hay 8K 60Hz, và phiên bản Founder’s Edition của RTX 30 series cũng là thế hệ card đầu tiên được trang bị cơ chế tản nhiệt dual axial flow, hút thổi hợp lý để làm mát cho GPU vốn đã rất mạnh trên bo mạch.
GA102 và GA104
Ở trái tim của cả RTX 3080 lẫn RTX 3090 là GPU GA102, kiến trúc Ampere của Nvidia, trang bị 28 tỷ transistor và có kích thước 628 mm2. Theo Nvidia, GPU GA102 bao gồm 6 cụm GPC (Graphics Processing Cluster) và trong đó là hàng chục cụm TPC (Texture Processing Cluster). GPU GA102 trên RTX 3090 sử dụng 41 TPC (82 Streaming Multiprocessor), còn trên RTX 3080 là 34 TPC (68 SM). Mỗi SM trên GPU Ampere có 128 nhân CUDA, dẫn tới con số 10496 nhân CUDA trên RTX 3090 và 8704 nhân CUDA trên RTX 3080.
Lượng transistor trên kiến trúc Ampere gần gấp đôi kiến trúc Turing (GPU TU102). Mật độ transistor của GA102 là 44.6 triệu transistor trên một milimet vuông chip bán dẫn, còn đối với TU102 là 24.67 triệu transistor trên một milimet vuông. Có được thành tựu này cũng nhờ vào tiến trình 8nm của Samsung.
Mỗi SM kể trên được trang bị 4 nhân tensor và 1 nhân ray tracing. Nhân tensor xử lý những tác vụ deep learning, một trong số những tác vụ quan trọng nhất đối với anh em là xử lý DLSS trên những tựa game hỗ trợ. Thay vì anti aliasing thông thường, thì DLSS sẽ dùng thuật toán deep learning để xử lý sample hình ảnh độ phân giải thấp, qua đó nâng cấp hình ảnh lên độ phân giải cao hơn mà chất lượng đồ họa vẫn được đảm bảo. Còn ray tracing thì trong vài năm vừa qua những tác phẩm như Control, Battlefield V hay Metro Exodus đều đã nhận ra tiềm năng của công nghệ xử lý hình ảnh này rồi. Thay vì để TPC xử lý ray tracing, thì RTX 30 series có nhân RT riêng để xử lý ánh sáng, bóng đổ, tạo ra thế giới ảo chân thực nhất.
Trên RTX 3080, bản vẽ mô tả rất rõ ràng bộ nhớ đệm L2 5MB, còn với RTX 3090 là 6MB cho tất cả các cụm GPC dùng chung. GA102 trên RTX 3080 trang bị 10 controller 32-bit, bus 320-bit, còn trên RTX 3090 là 12 controller 32-bit, bus 384-bit.
Tương tự như vậy với GPU GA104 trên RTX 3070 sẽ ra mắt vào ngày 29/10 tới. GPU này sở hữu 46 SM, tổng cộng 5888 nhân CUDA, 184 nhân Tensor và 46 nhân RT. GA 104 sở hữu 4MB cache L2 tất cả các cụm GPC sử dụng chung, cùng 8 controller 32-bit, tạo ra băng thông bộ nhớ 256-bit.
Quảng cáo
Ampere SM: Hiệu năng xử lý FP32 tăng gấp đôi
Có lẽ không ai giải thích điều này hợp lý và dễ hiểu hơn chính Tony Tamasi, phó chủ tịch công nghệ ở Nvidia:
“Một trong những mục tiêu khi thiết kế SM trên kiến trúc Ampere là đạt được gấp đôi tốc độ xử lý FP32 so với SM trên GPU Turing. Để đạt được điều này, Streaming Multiprocessors của GPU Ampere được thiết kế đường dẫn dữ liệu mới để xử lý FP32 và INT32. Một đường dẫn dữ liệu ở mỗi phân vùng bao gồm 16 nhân CUDA FP32, mỗi nhịp xử lý được 16 phép tính FP32. Một đường dẫn dữ liệu khác bao gồm 16 nhân CUDA FP32 và 16 nhân CUDA INT32. Kết quả của thiết kế mới này là, mỗi phân vùng SM trên GPU Ampere có khả năng xử lý hoặc 32 phép tính FP32 hoặc 16 phép tính FP32 + 16 phép tính INT32 mỗi nhịp. Bốn phân vùng SM kết hợp lại sẽ xử lý được 128 phép tính FP32 mỗi nhịp, hoặc 64 phép tính FP32 + 64 phép tính INE32, gấp đôi hiệu năng xử lý trên SM của GPU Turing.
Tăng gấp đôi hiệu năng xử lý FP32 giúp tăng hiệu năng xử lý những tác vụ đồ họa, thuật toán thông thường. Tác vụ shader trong game hiện giờ thường là những phép tính thuật toán FP32 như FFMA, FADD hay FMUL, kết hợp với những phép tính số nguyên đơn giản hơn để truy xuất dữ liệu, so sánh floating-point, hay đặt giá trị tối thiểu/tối đa cho kết quả xử lý,… Một trong những lợi thế rõ ràng nhất của việc sở hữu gấp đôi hiệu năng xử lý FP32 chính là khả năng xử lý ray tracing denoising shader.
Tăng gấp đôi hiệu năng tính toán đồng nghĩa với việc phải tăng gấp đôi đường dẫn dữ liệu hỗ trợ, đó là lý do vì sao SM trên GPU Ampere cũng tăng gấp đôi bộ nhớ và hiệu năng cache L1 cho các SM. Tổng băng thông cache L1 trên RTX 3080 là 219 GB/s so với 116GB/s trên RTX 2080 Super.”
Quảng cáo
GDDR6X: Vũ khí tạo ra băng thông dữ liệu gần 1TB/s
Nếu GPU Ampere đã khủng, thì VRAM GDDR6X do Micron sản xuất trang bị trên RTX 3080 và 3090 cũng giúp khả năng xử lý game trở nên nhanh và khỏe hơn thế hệ card đồ họa trước. Đầu tiên là VRAM công nghệ mới cho phép xử lý gấp đôi lượng dữ liệu đầu vào và đầu ra. Trên RTX 3090, GDDR6X giúp card đạt được băng thông 1TB/s dữ liệu, qua đó góp phần giúp ích cho quá trình xử lý những bộ texture và mô hình nhân vật đủ nét để chơi game ở độ phân giải 4K hoặc 8K.
Bản thân GDDR6X của Micron đạt tốc độ lý thuyết lên tới 21 Gbps, dù rằng trên RTX 3090 tốc độ VRAM là 19.5 Gbps nhưng vẫn đủ để khiến anh em cảm thấy ấn tượng khi nhảy vào thế giới ảo trong những tựa game tuyệt đẹp.
DLSS 2.0
Nhờ sự hỗ trợ của Deep Learning Super Sampling (DLSS) mà Nvidia đã có thể tận dụng sức mạnh của AI để hỗ trợ quá trình render, tạo ra cái gọi là super resolution, trong đó chỉ cần render một ít điểm ảnh sau đó dùng AI để tái tạo lại những hình ảnh với độ nét và độ phân giải cao hơn nhưng không đòi hỏi nhiều phần cứng như xưa nữa. Nvidia cho biết trên những con GPU GeForce RTX được trang bị các nhân Tensor nhằm chạy các tác vụ AI, sử dụng DLSS 2.0 để tăng tốc độ khung hình trong khi vẫn đảm bảo tạo ra những hình ảnh đẹp, sắc nét trong game. Nhờ đó người dùng sẽ hoàn toàn có thể mạnh tay trong việc đẩy setting ray tracing lên cao nhất có thể, đồng thời đẩy cả độ phân giải lên.
DLSS ngon như thế nào, mời anh em xem lại hai khung hình mình chụp khi review Death Stranding bản PC. Hình bên trái là DLSS, bên phải là TAA + FidelityFX Sharpening:
DLSS 2.0 cho hình ảnh với chất lượng tương đương với độ phân phân giải native trong khi chỉ cần render 1/4 hoặc 1/2 lượng điểm ảnh. NVIDIA nói rằng công nghệ này sử dụng kỹ thuật hồi đáp tạm thời để tăng chi tiết và độ nét của hình ảnh, đồng thời ổn định từng khung hình một. Với DLSS 2.0, AI sẽ sử dụng các nhân Tensor hiệu quả hơn để đẩy tốc độ tính toán lên cao gấp đôi so với trước đây, nhờ đó mà tốc độ khung hình và những hạn chế trước đây trên GPU, Game Setting và độ phân giải cũng sẽ được đẩy lên thêm một bậc.
HDMI 2.1 và AV1 Codec
Tốc độ phát triển của ngành TV thế giới đã nhanh chóng khiến tốc độ phát triển của chuẩn kết nối HDMI trở nên tụt hậu. Những màn hình 4K hay 8K ngày càng phổ biến trên thị trường, nhưng những cáp kết nối và cổng kết nối chuẩn cũ như HDMI 2.0 không bắt kịp được với nhu cầu. Trên HDMI 2.0, hình ảnh xuất lên màn hình bị giới hạn ở ngưỡng 4K HDR 98Hz. Vì lý do đó, RTX 30 series hỗ trợ chuẩn kết nói HDMI 2.1, băng thông 48 Gbps, hỗ trợ xuất hình ảnh lên màn hình 8K chỉ bằng một cọng cáp HDMI, và cho phép chơi game ở độ phân giải 4K 120Hz, hoặc 8K 60Hz.
Còn bên cạnh đó, việc RTX 30 series hỗ trợ chuẩn AV1 cũng sẽ cho phép streamer truyền tín hiệu hình ảnh lên những kênh stream của họ với băng thông giảm lên đến 50% so với chuẩn H.264, qua đó cho phép stream game ở độ phân giải 4K, thứ mà trước giờ khá hiếm.
Dual axial cooling
Thứ mà cá nhân mình thực sự thấy ấn tượng với hệ thống heatsink và đôi chiếc quản tản nhiệt phức tạp hơn nhiều so với RTX 2080 Ti, được Nvidia trang bị cho RTX 3080 và 3090. Nvidia chọn hệ thống đôi quạt push-pull cùng dàn heatsink hợp kim nhôm mạ nano carbon. Quạt dưới đáy hút khí tươi, quạt trên thổi khí ra để làm mát cho GPU. Nvidia nói rằng hệ thống này giúp lượng khí làm mát tăng 55% và mát hơn nhiều so với GPU trên RTX 2080 Ti. Cùng với đó, hệ thống tán âm với thiết kế 3 slot PCIe giúp RTX 3090 hoạt động êm hơn gấp 10 lần so với RTX Titan thế hệ trước.
Nvidia Reflex
Công nghệ này của Nvidia hướng tới cộng đồng gamer eSports, giảm độ trễ hình ảnh hiển thị trên màn hình game trong những trận đấu chuyên nghiệp. Độ trễ khi chơi game đến từ cả phần cứng lẫn đường truyền mạng internet. Cái thứ hai thì Nvidia không sửa được, chỉ có nâng cấp đường truyền khỏe hơn thôi. Nhưng với độ trễ hệ thống, Nvidia đã có giải pháp. Độ trễ này xuất hiện giữa khoảng thời gian anh em nhấn chuột và khẩu súng trong game xả đạn.
Giữa khoảng thời gian đó, rất nhiều thứ diễn ra trong cỗ máy tính của anh em: Độ trễ từ lúc nhấn chuột đến khi máy tính nhận lệnh input, độ trễ từ lúc máy tính render xong một khung hình đến khung hình kế tiếp, và cuối cùng là độ trễ từ khi render xong một khung hình đến khi nó được hiển thị lên màn hình máy tính. Những khoảng thời gian này chỉ tính bằng mili giây, nhưng đôi khi cũng quyết định anh em bắn trúng hay trượt đối thủ.
Một ví dụ đơn giản cho việc độ trễ hệ thống ảnh hưởng thế nào đến chơi game nó như thế này. Bỏ qua độ trễ đường truyền (vì thử nghiệm trong chế độ tập luyện của Valorant), và bỏ qua luôn cả độ trễ phản xạ (chỉ tính thời gian từ lúc click chuột). Kết quả là 38ms. Lấy ví dụ Valorant chạy ở tốc độ “tạm ổn” là 150 FPS, thì độ trễ lý tưởng giữa mỗi khung hình sẽ là 6,7ms. 38 ms tương đương với khoảng gần 6 khung hình, dư sức cho đối thủ nhảy qua một khe cửa hẹp mà anh em không kịp phản ứng rồi:
Mục tiêu của Nvidia với Reflex là giảm tác động tiêu cực từ độ trễ hệ thống, sử dụng phần mềm và tối ưu driver để giảm độ trễ, từ đó những hành động trong game của anh em sẽ chính xác hơn nhiều. Bộ phần mềm Reflex cho phép các nhà phát triển game tối ưu cả engine phát triển trò chơi để giảm tối đa độ trễ khi GPU render một khung hình, xóa bỏ tình trạng khung hình “xếp hàng” chờ được GPU render, cũng như giảm tác động của CPU lên những cảnh game cần nhiều sức mạnh từ GPU.
Hiện tại Nvidia Reflex đang được ba game hỗ trợ là Apex Legends, Fortnite và Valorant, nhưng trong tương lai những game khác như CoD: Black Ops Cold War, Destiny 2 hay Mordhau cũng sẽ ứng dụng công nghệ này. Những card đồ họa từ GTX 970 cho tới RTX 3090 đều sẽ hỗ trợ Reflex. Còn nếu game không được nhà phát triển hỗ trợ, anh em có thể tự bật tính năng này trong Nvidia Control Panel, ở mục “Manage 3D Settings” rồi tìm đến mục “Low Latency Mode” và chọn Ultra.
Nvidia Broadcast
Ứng dụng tensor core trong những chiếc card đồ họa RTX để xử lý AI, những streamer hay anh em “work from home” hoàn toàn có thể ngồi ngay ở phòng ngủ của mình mà vẫn tạo ra được không gian stream game hoặc làm việc từ xa thông qua phần mềm ứng dụng ba tính năng deep learning rất hay. Ngoài ba chiếc card đồ họa ra, mình nghĩ đây là sản phẩm ứng dụng AI hiệu quả nhất của Nvidia chỉ sau DLSS đối với người tiêu dùng.
Anh em hẳn còn nhớ ứng dụng RTX Voice, ghi nhớ âm thanh thu vào microphone để xóa tạp âm như tiếng xe cộ, tiếng quạt hay tiếng người nói ồn ào rất ngon ra mắt trước đó? RTX Voice giờ là một trong ba tính năng chủ yếu trong Nvidia Broadcast. Hai tính năng còn lại là tạo background ảo hệt như Zoom, nhưng “xóa phông” chính xác và đẹp hơn nhiều, cũng như tự động theo dõi cử động đầu của người dùng để tự động giữ khuôn mặt của streamer ở trung tâm khung hình (Nvidia mô tả nó giống như một người quay phim ảo theo sát nhất cử nhất động của anh em).
Mua card mới sẽ được tặng game mới, free 100%
Tất cả những lợi thế mà mình mô tả cũng như phân tích trên đây khi anh em sắm RTX 3080 hay 3090 về đều sẽ chẳng có nghĩa lý gì, nếu không đi kèm với nó là những tựa game hỗ trợ tối đa những công nghệ mới nhất như DLSS 2.1 hay ray tracing. Tin mừng là, chỉ cần mua card đồ họa RTX 3070, 3080 và 3090, bất kể của hãng nào, hoặc những hệ thống máy tính trang bị card đồ họa RTX 30 series, anh em đều sẽ được tặng miễn phí key bản quyền của Watch Dogs: Legion.
Bối cảnh của game diễn ra sau một vụ đánh bom khủng bố khiến chính quyền thủ đô London của Anh phải nhờ tới công ty tư nhân Albion để giữ cho dân chúng an toàn. Nhưng mục tiêu của giám đốc Albion, Nigel Cass là thống trị London, và anh em sẽ gia nhập một nhóm những người kháng chiến để giành lại London khỏi bàn tay độc tài. Cái hay của Watch Dogs Legion là anh em sẽ không vào vai một nhân vật chính cụ thể, mà gần như tất cả những nhân vật NPC có mặt trong thế giới mở của London đều sẽ là những nhân vật anh em có thể điều khiển.
Từ anh công nhân, anh lái taxi, đến hacker, cựu điệp viên, thậm chí cả những chiến binh của Albion bất mãn với những gì công ty này đối xử với người dân, tất cả đều có thể thu phục để trở thành điệp vụ phá hoại tham vọng của Albion. Mỗi nhân vật đều có thế mạnh riêng, đều có lối chơi khác biệt phù hợp với từng nhiệm vụ khác nhau. Kết nạp được càng nhiều thành viên, anh em sẽ càng trở nên tự do hơn trong lối chơi. Nhưng về cơ bản, cách chơi kết hợp giữa hành động bắn súng và sử dụng những thiết bị công nghệ để dành lợi thế cho bản thân qua hai phiên bản Watch Dogs trước vẫn tồn tại.
Watch Dogs: Legion sẽ tận dụng tối đa công nghệ xử lý bóng đổ và hình ảnh phản chiếu thông qua RT core, tận dụng công nghệ DLSS giúp tăng hiệu năng xử lý game, từ đó dẫn đến tốc độ khung hình cao hơn, và hiển thị hình ảnh HDR để game có được bộ cánh đồ họa xuất sắc nhất trên những màn hình và TV hỗ trợ chuẩn HDR 10.