Google vừa công bố Gemini Robotics 1.5, một bước tiến lớn trong kỷ nguyên robot thông minh, nơi máy móc không chỉ nhìn và làm theo lệnh, mà còn biết lập kế hoạch, suy nghĩ, sử dụng công cụ và hành động để giải quyết các nhiệm vụ phức tạp nhiều bước.
“Nghĩ trước khi làm”: mô hình giải thích quy trình, cho thấy cách nó đánh giá và quyết định, giúp người dùng hiểu rõ hơn cách robot xử lý vấn đề.
Học kỹ năng nhanh hơn nhờ khả năng chuyển đổi qua nhiều dạng robot (embodiment), thay vì chỉ giới hạn ở một loại thiết bị. Nói cách khác, Gemini Robotics 1.5 là “bộ não” có thể quan sát, lên kế hoạch, hành động cho robot.
Gemini Robotics 1.5 - “bộ não” hành động cho robot
Đây là mô hình Vision-Language-Action (VLA) tiên tiến nhất của Google: nhận thông tin từ hình ảnh và hướng dẫn ngôn ngữ, sau đó chuyển thành lệnh vận động cụ thể cho robot.“Nghĩ trước khi làm”: mô hình giải thích quy trình, cho thấy cách nó đánh giá và quyết định, giúp người dùng hiểu rõ hơn cách robot xử lý vấn đề.
Học kỹ năng nhanh hơn nhờ khả năng chuyển đổi qua nhiều dạng robot (embodiment), thay vì chỉ giới hạn ở một loại thiết bị. Nói cách khác, Gemini Robotics 1.5 là “bộ não” có thể quan sát, lên kế hoạch, hành động cho robot.
Gemini Robotics-ER 1.5 - chuyên gia lập kế hoạch
Song song với đó, Google cũng ra mắt Gemini Robotics-ER 1.5, một mô hình Vision-Language (VLM) chuyên về:- Hiểu biết không gian vật lý (spatial understanding).
- Gọi trực tiếp công cụ số khi cần (tool use).
- Tạo ra các kế hoạch chi tiết, nhiều bước để hoàn thành một nhiệm vụ phức tạp.
Mô hình này đạt điểm tuyệt đối trong nhiều bài benchmark về tư duy không gian.
Robot nào dành cho ai?
Gemini Robotics-ER 1.5: đã có cho lập trình viên qua Gemini API trên Google AI Studio.Gemini Robotics 1.5: cung cấp cho một số đối tác chọn lọc, hướng tới triển khai vào các hệ thống robot thực tế.
Điểm khác biệt quan trọng là robot giờ đây không còn chỉ “làm theo”, mà đã có khả năng tự phân tích, lập kế hoạch và lựa chọn công cụ. Điều này mở đường cho các ứng dụng trong:
Logistics & sản xuất: robot có thể thích ứng với môi trường thay đổi, không cần lập trình cứng nhắc.
Dịch vụ & chăm sóc: robot hiểu tình huống, chọn hành động phù hợp theo ngữ cảnh.
Khám phá không gian & khoa học: xử lý nhiệm vụ phức tạp nhiều bước.
Xem thêm về Gemini Robotics tại Google.
