Nvidia vừa mới công bố demo của ứng dụng chatbot vận hành dựa trên mô hình ngôn ngữ AI và nhân tensor trên những mẫu card đồ họa tiêu dùng của hãng, Hiện giờ Chat with RTX chỉ vận hành được trên hai thế hệ GPU Ampere và Ada, tức là RTX 30 và 40 series.
Chat with RTX ứng dụng cùng lúc ba giải pháp. Thứ nhất là giải pháp tạo nội dung retrieval-augmented generation, thứ hai là thư viện mã nguồn mở tăng tốc nội suy nội dung của Nvidia mang tên TensorRT-LLM, và thứ ba là khả năng tăng tốc xử lý thuật toán deep learning dựa vào nhân tensor trên những GPU chơi game mà Nvidia tạo ra.
Bên cạnh việc vận hành như ChatGPT, nhưng không phải đợi máy chủ đám mây phản hồi, chỉ cần đợi nhân tensor của GPU trong máy tính của anh em làm việc, thì Chat with RTX còn có thể làm vài việc khác khá hữu ích, chẳng hạn như nhận một đường link video trên YouTube, rồi mô hình ngôn ngữ sẽ theo dõi nội dung clip và trả lời những câu hỏi có liên quan tới video ấy, hoặc tóm tắt nội dung nếu nó quá dài, không thể theo dõi hết.
Về mặt công năng, RAG, retrieval-augmented generation là một kỹ thuật cải thiện mức độ chính xác và mức độ tin cậy của những mô hình AI tạo nội dung, dựa vào thông tin từ những nguồn bên ngoài, chẳng hạn như kết quả tìm kiếm trực tuyến chẳng hạn.
Chat with RTX ứng dụng cùng lúc ba giải pháp. Thứ nhất là giải pháp tạo nội dung retrieval-augmented generation, thứ hai là thư viện mã nguồn mở tăng tốc nội suy nội dung của Nvidia mang tên TensorRT-LLM, và thứ ba là khả năng tăng tốc xử lý thuật toán deep learning dựa vào nhân tensor trên những GPU chơi game mà Nvidia tạo ra.
Bên cạnh việc vận hành như ChatGPT, nhưng không phải đợi máy chủ đám mây phản hồi, chỉ cần đợi nhân tensor của GPU trong máy tính của anh em làm việc, thì Chat with RTX còn có thể làm vài việc khác khá hữu ích, chẳng hạn như nhận một đường link video trên YouTube, rồi mô hình ngôn ngữ sẽ theo dõi nội dung clip và trả lời những câu hỏi có liên quan tới video ấy, hoặc tóm tắt nội dung nếu nó quá dài, không thể theo dõi hết.
Về mặt công năng, RAG, retrieval-augmented generation là một kỹ thuật cải thiện mức độ chính xác và mức độ tin cậy của những mô hình AI tạo nội dung, dựa vào thông tin từ những nguồn bên ngoài, chẳng hạn như kết quả tìm kiếm trực tuyến chẳng hạn.
Và nhờ vào việc vận hành local trên cấu hình PC của anh em, giống hệt như những giải pháp tạo hình dựa trên model cảu Stable Diffusion, và được huấn luyện dựa trên dữ liệu của chính anh em, Chat with RTX có thể vừa nhanh vừa có những câu trả lời thực sự liên quan tới nhu cầu tìm kiếm thông tin. Cùng lúc, theo Nvidia, kết quả văn bản mà Chat with RTX tạo ra cũng sẽ bảo mật, vì chạy trên thiết bị đầu cuối, không gửi dữ liệu của anh em về máy chủ ở bất kỳ đâu.
Theo Tom Warren của The Verge, người đã được trải nghiệm phiên bản beta của Chat with RTX, mặc dù vận hành còn chưa ưng ý, nhưng đây có thể là một công cụ đầy hữu ích để hỗ trợ các nhà báo và phóng viên theo dõi và phân tích một lượng lớn tài liệu giàu thông tin.
Lấy ví dụ, với chatbot vận hành local của Nvidia, Warren đã có thể tóm tắt toàn bộ chiến lược của Microsoft đối với dịch vụ cho thuê game Xbox Game Pass, dựa vào những tài liệu pháp lý được công khai trong vụ kiện giữa Microsoft và FTC hồi năm ngoái, trước khi thương vụ mua lại Activision Blizzard được hoàn tất.
Nhưng trong khi đó, phân tích nội dung video clip thì vẫn chưa vận hành như ý muốn vì chatbot tải nhầm transcript phụ đề của một đoạn video hoàn toàn khác chứ không phải video muốn thử nghiệm.
Những anh em đang sở hữu card đồ họa RTX thế hệ 30 hay 40 series muốn dùng thử Chat with RTX có thể lên trang chủ của Nvidia để tải file cài đặt và dùng thử tại đây. Anh em sẽ còn cần phải cài thêm Python, và bản thân ứng dụng Chat with RTX sẽ có dung lượng chừng 40GB.
Theo Techspot