Nvidia vừa công bố NVLM 1.0, một mô hình ngôn ngữ lớn đa model (LLM) của hãng, với khả năng xử lý vượt trội các nhiệm vụ liên quan đến hình ảnh và ngôn ngữ. Theo Nvidia, NVLM 1.0 có khả năng cạnh tranh được với các mô hình ngôn ngữ lớn độc quyền của các big tech - đơn cử như GPT-4o của OpenAI hay các mô hình với mã nguồn mở như Llama 3-V 405B của Meta hay InternVL 2 của OpenGVLab.
Khả năng xử lý của Nvidia NVLM 1.0
Nvidia cho biết họ đã tiến hành so sánh NVLM 1.0 với các LLM hàng đầu hiện nay, như GPT-4o và Llama 3-V 405B. Kết quả cho thấy NVLM 1.0 đạt điểm số cao trên các bài kiểm tra OCRBench và VQAv2, vượt trội hơn hoặc tương đương với GPT-4o trong hầu hết các tiêu chí đánh giá quan trọng, bao gồm MathVista, ChartQA và DocVQA. Đặc biệt, sau quá trình huấn luyện, mô hình NVLM-1.0 72B thể hiện sự cải thiện đáng kể trong các bài kiểm tra toán học và lập trình chỉ dựa vào văn bản, với độ chính xác trung bình tăng 4,3 điểm.
Khả năng suy luận của Nvidia NVLM-1.0 dựa vào hình ảnh
Mô hình NVLM-1.0-D 72B cho thấy khả năng giải quyết tốt với các yêu cầu khác nhau. Mô hình có thể tự điều chỉnh độ dài nội dung tạo ra và cung cấp mô tả chi tiết về hình ảnh được cung cấp. NVLM-D-1.0-72B thể hiện khả năng kết hợp nhiều yếu tố như OCR, suy luận và kiến thức chung, cho phép nó hiểu sâu sắc các khía cạnh trong những hình ảnh và bối cảnh khác nhau.
Khả năng xử lý toán và hướng dẫn từng bước trên Nvidia NVLM-1.0
Ví dụ, mô hình có thể nhận diện và phân thích các meme bằng cách sử dụng các kỹ thuật nhận diện văn bản (OCR) và suy luận để làm rõ ý nghĩa, cũng như trả lời các câu hỏi về vị trí một cách chính xác. Bên cạnh đó, NVLM còn có khả năng thực hiện các phép toán và lập trình dựa trên thông tin hình ảnh.
Một số thử nghiệm trên Nvidia NVLM-1.0
Tuy nhiên, với sự phát triển của AI mã nguồn mở, cũng xuất hiện những lo ngại về việc sử dụng sai mục đích và các vấn đề đạo đức. Ngành AI hiện đang phải đối mặt với thách thức trong việc thúc đẩy sự đổi mới trong khi vẫn phải đảm bảo việc sử dụng AI một cách có “đạo đức”.
Theo Nvidia
Hiệu suất hứa hẹn của Nvidia NVLM 1.0
Khả năng xử lý của Nvidia NVLM 1.0
Nvidia cho biết họ đã tiến hành so sánh NVLM 1.0 với các LLM hàng đầu hiện nay, như GPT-4o và Llama 3-V 405B. Kết quả cho thấy NVLM 1.0 đạt điểm số cao trên các bài kiểm tra OCRBench và VQAv2, vượt trội hơn hoặc tương đương với GPT-4o trong hầu hết các tiêu chí đánh giá quan trọng, bao gồm MathVista, ChartQA và DocVQA. Đặc biệt, sau quá trình huấn luyện, mô hình NVLM-1.0 72B thể hiện sự cải thiện đáng kể trong các bài kiểm tra toán học và lập trình chỉ dựa vào văn bản, với độ chính xác trung bình tăng 4,3 điểm.
Khả năng của NVLM-1.0
Khả năng suy luận của Nvidia NVLM-1.0 dựa vào hình ảnh
Mô hình NVLM-1.0-D 72B cho thấy khả năng giải quyết tốt với các yêu cầu khác nhau. Mô hình có thể tự điều chỉnh độ dài nội dung tạo ra và cung cấp mô tả chi tiết về hình ảnh được cung cấp. NVLM-D-1.0-72B thể hiện khả năng kết hợp nhiều yếu tố như OCR, suy luận và kiến thức chung, cho phép nó hiểu sâu sắc các khía cạnh trong những hình ảnh và bối cảnh khác nhau.
Khả năng xử lý toán và hướng dẫn từng bước trên Nvidia NVLM-1.0
Ví dụ, mô hình có thể nhận diện và phân thích các meme bằng cách sử dụng các kỹ thuật nhận diện văn bản (OCR) và suy luận để làm rõ ý nghĩa, cũng như trả lời các câu hỏi về vị trí một cách chính xác. Bên cạnh đó, NVLM còn có khả năng thực hiện các phép toán và lập trình dựa trên thông tin hình ảnh.
Quyết định công khai Nvidia NVLM-1.0
Quyết định của Nvidia trong việc công khai trọng số mô hình và mã huấn luyện trên nền tảng Megatron-Core không chỉ giúp các nhà nghiên cứu dễ dàng tiếp cận công nghệ AI này mà còn thách thức xu hướng đóng của các mô hình ngôn ngữ AI độc quyền hiện nay. Hành động này đã nhận được phản ứng tích cực từ cộng đồng, với nhiều chuyên gia khen ngợi khả năng của NVLM 1.0 trong việc thúc đẩy nghiên cứu và phát triển AI toàn cầu.Một số thử nghiệm trên Nvidia NVLM-1.0
Tương Lai Của AI mã nguồn mở Mở
Sự ra mắt của Nvidia NVLM 1.0 đánh dấu một bước ngoặt quan trọng trong ngành công nghiệp AI, mở ra cơ hội cho các nhóm nghiên cứu nhỏ hơn và các nhà phát triển độc lập có thể tham gia vào cuộc chơi. Điều này có thể định hình lại cách thức các công ty công nghệ hoạt động và buộc họ phải xem xét lại chiến lược kinh doanh của mình.Tuy nhiên, với sự phát triển của AI mã nguồn mở, cũng xuất hiện những lo ngại về việc sử dụng sai mục đích và các vấn đề đạo đức. Ngành AI hiện đang phải đối mặt với thách thức trong việc thúc đẩy sự đổi mới trong khi vẫn phải đảm bảo việc sử dụng AI một cách có “đạo đức”.
Theo Nvidia