Cách đây không lâu thì Google trình làng thế hệ model AI mới nhất của họ, cũng là phiên bản nâng cấp của Gemini, gọi là Gemini 1.5. Google Gemini 1.5 mang lại khả năng suy luận tốt hơn nhiều so với Gemini 1.0, vẫn sẽ có ba phiên bản Nano, Pro và Ultra. Hiện tại Gemini 1.5 vẫn đang được thử nghiệm và nó có thể xử lý đến 1 triệu tokens, nhiều hơn so với Gemini 1.0 trước đây.
Việc xử lý đến 1 triệu tokens cho thấy sự nâng cấp vượt trội của Google với model AI của mình, tiếp nối thành công của Gemini 1.0. Việc hiểu ngữ cảnh dài hơn sẽ giúp Gemini mở ra nhiều khả năng trợ giúp người dùng tốt hơn so với ChatGPT hay Copilot, Claude…Hiện tại Google đã mở Gemini 1.5 Pro cho các nhà phát triển thử nghiệm qua Google AI Studio, anh em nếu muốn đăng ký dùng thử có thể đăng ký tại đây.
Theo Google, Gemini 1.5 được xây dựng dựa trên sự kết hợp giữa kiến trúc Transformer và MoE, tận dụng sự tối ưu hoá về cách chọn lọc và chia nhỏ các mạng “chuyên gia” (”expert” neural networks) của MoE so với kiến trúc Transformer truyền thống. Tuỳ thuộc vào loại input mà MoE sẽ chọn lọc các “chuyên gia” phù hợp trong mạng lưới của nó, từ đó cải thiện đáng kể hiệu suất của mô hình.
Việc xử lý đến 1 triệu tokens cho thấy sự nâng cấp vượt trội của Google với model AI của mình, tiếp nối thành công của Gemini 1.0. Việc hiểu ngữ cảnh dài hơn sẽ giúp Gemini mở ra nhiều khả năng trợ giúp người dùng tốt hơn so với ChatGPT hay Copilot, Claude…Hiện tại Google đã mở Gemini 1.5 Pro cho các nhà phát triển thử nghiệm qua Google AI Studio, anh em nếu muốn đăng ký dùng thử có thể đăng ký tại đây.
Những điểm nổi bật chính của Google Gemini 1.5 Pro:
- Sử dụng kiến trúc MoE (Mixture-of-Experts) giúp Gemini 1.5 có hiệu suất tổng thể tốt hơn. MoE cũng đang được OpenAI sử dụng cho GPT-4.
- Tối ưu cho các mô hình đa phương thức (multimodal LLM).
- Xử lý độ dài ngữ cảnh lên đến 1 triệu tokens, so với GPT-4 Turbo là 128.000 hay Claude 2.1 là 200.000 và với chính Gemini 1.0 Pro là 32.000 tokens.
- Phân tích các tập dữ liệu lớn và xác định các mẫu ẩn với độ chính xác cao hơn.
- Giúp tạo ra các ứng dụng AI hiệu quả hơn, đáp ứng các yêu cầu chuyên sâu hơn.
- Qua các bài benchmark, Gemini 1.5 Pro vượt trội hơn 87% so với Gemini 1.0 Pro và tương đương với mẫu Gemini 1.0 Ultra (mẫu đang có sẵn trên Google Gemini Advanced).
- Gemini 1.5 Pro cũng có thể học-hiểu kỹ năng mới từ những yêu cầu (prompt) rất dài mà không cần fine-tuning.
Theo Google, Gemini 1.5 được xây dựng dựa trên sự kết hợp giữa kiến trúc Transformer và MoE, tận dụng sự tối ưu hoá về cách chọn lọc và chia nhỏ các mạng “chuyên gia” (”expert” neural networks) của MoE so với kiến trúc Transformer truyền thống. Tuỳ thuộc vào loại input mà MoE sẽ chọn lọc các “chuyên gia” phù hợp trong mạng lưới của nó, từ đó cải thiện đáng kể hiệu suất của mô hình.
Google là người tiên phong sử dụng MoE trong deep learning với các nghiên cứu như Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4…Kết quả là Gemini 1.5 Pro học các tác vụ phức tạp nhanh hơn, duy trì chất lượng, đồng thời tiết kiệm tài nguyên khi huấn luyện và vận hành.
1 triệu tokens của Google Gemini 1.5 Pro có thể làm được gì?
Token là đơn vị xử lý thông tin cơ bản với các model AI, context window (không biết dịch sao cho đúng 😁) của một model AI được tạo từ các tokens. Tokens có thể là toàn bộ hoặc 1 phần của từ, của hình ảnh, video, code…
Context window càng lớn thì model AI càng xử lý được nhiều thông tin trong một yêu cầu (prompt) cụ thể, kết quả cuối cùng cho ra sẽ ngon, hiệu quả và tối ưu. Ví dụ, Gemini 1.0 có thể xử lý 32.000 token và Gemini 1.5 Pro có thể xử lý lên đến 1 triệu token, quy đổi ra có thể là xử lý tốt với đoạn video dài 1 tiếng, bản ghi âm 11 tiếng, 30.000 dòng code hoặc văn bản 700.000 từ. Đó là con số mà Google công bố với người dùng, còn khi thử nghiệm nội bộ thì con số này là 10 triệu token.
Những video của Google dưới đây sẽ mô tả cụ thể hơn về những gì mà Gemini 1.5 Pro có thể làm được với 1 triệu token.
Google có thể đọc hiểu 402 trang tài liệu về dự án Apollo 11 với tổng cộng 326.000 tokens và đưa ra đáp án chính xác với những yêu cầu được hỏi, trước đây Gemini 1.0 Pro không thể làm được vì giới hạn chỉ 32.000 tokens. Không chỉ là tài liệu, Gemini 1.5 Pro còn có thể xử lý và hiểu được trên nhiều phương thức dữ liệu như video hay hình ảnh.
Video này cho thấy Google Gemini 1.5 Pro có thể hiểu và phân tích được các chi tiết có thể bị bỏ qua trong bộ phim hài câm dài 44 phút, tiêu tốn khoảng 696,417 tokens.
Quảng cáo