Mình đã được dùng thử Gemini 1.5 Pro và thử nghiệm một số bài test so với Copilot, Gemini 1.0 Ultra

Pnghuy
3/4/2024 11:36Phản hồi: 42
Mình đã được dùng thử Gemini 1.5 Pro và thử nghiệm một số bài test so với Copilot, Gemini 1.0 Ultra
Google Gemini 1.5 Pro là model mạnh hơn cả model 1.0 Ultra đang có mặt trên Gemini Advanced mà người dùng phổ thông đang bỏ số tiền 20 USD/tháng để sử dụng. Khả năng nổi bật của Gemini 1.5 Pro so với các model trước đó của Google là xử lý ngữ cảnh lên đến 1 triệu token, Gemini 1.5 cũng tối ưu cho các mô hình đa phương thức (multimodal LLM).

Sau thời gian chờ đợi thì mình đã được trải nghiệm trước Gemini 1.5 Pro (bản Preview) và thử nghiệm một số khả năng của nó so với Gemini 1.0 Ultra hiện tại cũng như so sánh với GPT-4 đang có mặt trên Copilot của Microsoft.

Mô hình ngôn ngữ Gemini 1.5 mà Google vừa ra mắt có gì hay?

Cách đây không lâu thì Google trình làng thế hệ model AI mới nhất của họ, cũng là phiên bản nâng cấp của Gemini, gọi là Gemini 1.5. Google Gemini 1.5 mang lại khả năng suy luận tốt hơn nhiều so với Gemini 1.
tinhte.vn

Có thể nói con số 1 triệu token là rất lớn, vì vậy nó có thể xử lý những đoạn video dài, những bản tài liệu vài ngàn trang, những dòng code vài triệu dòng…so với GPT-4 hiện tại chỉ là 128.000 token hay Gemini 1.0 Pro là 32.000 toekn, khả năng của Gemini 1.5 Pro vượt trội hơn nhiều, cụ thể như thế nào thì mình chia sẻ một số bài thử của mình về khả năng suy luận/suy luận sâu để đưa ra đáp án, bài test NIAH, bài test multimodal cả hình ảnh, video lẫn tài liệu…

Khả năng tính toán


Ảnh màn hình 2024-04-03 lúc 13.54.06.png
Một câu hỏi tính toán cũng thuộc dạng hơi đánh đố một chút, 1kg bông gòn và 1lb sắt thì cái nào nặng hơn. Kết quả là GPT-4 và Gemini 1.5 Pro trả lời chính xác, còn Gemini 1.0 Ultra trả lời sai.


Tiếp đến với một bài tính toán khác, với đề bài là:

“Cho hai đa thức G = x^2y – 3xy – 3 và H = 3x^2y + xy – 0,5x + 5
Hãy tính G + H và G – H.”

Ảnh màn hình 2024-04-03 lúc 21.40.03.png
Đây là bài toán tính đa thức của lớp 8, kết quả là Gemini 1.0 Ultra đã tính toán sai với biểu thức “G - H”, còn GPT-4 và Gemini 1.5 Pro đều trả lời chính xác cả hai biểu thức.

Câu hỏi mẹo


Để thử khả năng suy luận của Gemini 1.5 Pro tốt hơn Gemini 1.0 Ultra cũng như so với GPT-4 cùng dựa trên kiến trúc MoE thì nó sẽ như thế nào.

Ảnh màn hình 2024-04-03 lúc 13.38.06.png
Câu hỏi sẽ là: “Hôm nay tui có 3 trái táo, hôm qua tui ăn mất 1 trái, hỏi hôm nay tui còn bao nhiêu trái táo?”.

Gemini 1.0 Ultra không thể trả lời chính xác câu hỏi này, ngược lại Gemini 1.5 Pro và GPT-4 thì có thể hiểu câu hỏi mẹo này và trả lời chính xác.
Ảnh màn hình 2024-04-03 lúc 21.58.08.png

Quảng cáo


Tiếp tục với một câu hỏi khác: “10 cái bánh nướng trong 1 lò cần 2 tiếng để chín, vậy 20 cái bánh nướng trong lò cần bao nhiêu lâu? Giả sử các yếu tố khác không thay đổi.”

Ở câu hỏi này thì GPT-4 trên Copilot lại là con bot trả lời chính xác nhất, còn Gemini 1.5 Pro và Gemini 1.0 Ultra tính toán nhìn rất chuyên nghiệp nhưng lại không hiểu bản chất của câu hỏi, nên trả lời sai.

Làm thơ

Ảnh màn hình 2024-04-03 lúc 14.17.32.png


Bài test này mình muốn thử xem khả năng làm theo hướng dẫn của Gemini 1.5 Pro như thế nào. Mình yêu cầu Gemini 1.5 Pro làm một bài thơ lục bát nhưng trong đó có 5 từ được yêu cầu, kết quả là không có model nào hoàn thành được yêu cầu này.

Nếu như Gemini 1.5 Pro và Gemini 1.0 Ultra có vẻ tuân thủ quy luật thơ lục bát khá chính xác, nhưng lại không đáp ứng được yêu cầu xuất hiện 5 từ “buồn”.

Ngược lại với Copilot thì đạt yêu cầu về số lượng từ “buồn” trong bài thơ nhưng bài thơ lại không phải là thể thơ lục bát:

Quảng cáo



Trăng lên khơi vấn vương nỗi nhớ,
Buồn trôi sông cạn lệ đầy vơi.
Mắt em buồn, ngàn thu không nói,
Lời yêu buồn, gió thoảng đâu trôi.


Đường tình duyên lắm nẻo cay đắng,
Buồn thay phận lỡ bước chia phôi.
Hai đứa mình yêu thương bị ngăn,
Buồn lòng anh, thế sự bất ngời.


Khó hơn nữa, mình yêu cầu sáng tác thơ lục bát nhưng phải xuất hiện vần “ôi” ở cuối câu, thậm chí mình còn cố ý ghi sai chính tả để xem model có nhận ra hay không. Kết quả là cũng không có model nào đáp ứng được yêu cầu.

Multimodal test


Video


Bài test về khả năng xử lý hình ảnh, văn bản và video, trước tiên mình thử với một đoạn video dài 27 phút, tiêu tốn khoảng 430.000 token, rõ ràng chỉ có Gemini 1.5 Pro ở thời điểm này có thể làm được chuyện đó, đối với người dùng cuối.

Ảnh màn hình 2024-04-03 lúc 15.14.34.png
Video này mô tả về một reviewer xe chia sẻ lại trải nghiệm về một chiếc xe mà anh ta mới mua. Bài tóm tắt chi tiết, độ chính xác khá cao về những gì mà người đó nói trong video. Mình hỏi tiếp các câu hỏi về công suất của xe, màu xe, màu áo của reviewer thì trừ công suất xe, còn lại chính xác. Thực ra Ford Ranger Raptor còn một phiên bản khác sử dụng động cơ V6 3.0L nhưng bản đó thì không nhập về thị trường Việt Nam.

Hình ảnh


Về hình ảnh thì Copilot và Gemini 1.0 Ultra đều hỗ trợ, mình bỏ vào một tấm hình mockup một chiếc máy tính, mình hỏi máy tính này là gì thì Gemini 1.0 Ultra trả lời chính xác là MacBook Pro 14 inch, đời 2023.
Ảnh màn hình 2024-04-03 lúc 15.33.19.png
Gemini 1.5 Pro trả lời ngắn gọn hơn là MacBook Pro, nhưng khi hỏi chi tiết mẫu mã thì lại trả lời sai là MacBook Pro 2015-2020. Copilot thì không thể đưa ra câu trả lời.

Ảnh màn hình 2024-04-03 lúc 15.33.29.png
Nhưng chưa dừng lại ở đó, mình tiếp tục hỏi về nội dung của màn hình MacBook trong hình đang hiển thị là gì, Gemini 1.5 Pro trả lời sai, Gemini 1.0 Ultra và Copilot thì chào thua.

Google cũng có sẵn một số video và hình ảnh để test về khả năng xử lý hình ảnh cũng như video, đa phần đều trả lời chính xác nhưng mình muốn thử video và hình ảnh của mình để xem Gemini 1.5 Pro có thể xử lý được đến đâu.

Ảnh màn hình 2024-04-03 lúc 22.09.48.png
Mình thử một tấm hình ghép hai khuôn mặt của CEO NVIDIA và CEO AMD, hỏi người đàn ông là ai, Gemini 1.5 Pro thì xác định đúng người, Copilot và Gemini 1.0 Ultra không thể xác định được người vì một số lý do nhạy cảm và quyền riêng tư, mình có hỏi thêm về khả năng nhận diện các chi tiết khác trong hình thì Gemini 1.5 Pro vẫn làm tốt. Mình nghĩ nếu Google không thay đổi về chính sách thì khi Gemini 1.5 Pro ra mắt cũng sẽ bị vô hiệu hoá khả năng nhận diện người.

Tài liệu


Ảnh màn hình 2024-04-03 lúc 22.17.06.png
Mình cho Gemini 1.5 Pro đọc qua toàn bộ các câu chuyện về Thập tự chinh trên Wikipedia, sau đó hỏi một chi tiết nhỏ trong toàn bộ tài liệu đó, kết quả là Gemini 1.5 Pro đều trả lời cực kì chính xác, trong khi Gemini 1.0 Ultra không thể đưa ra câu trả lời, còn Copilot bị giới hạn ở 4000 từ.
Ảnh màn hình 2024-04-03 lúc 22.16.23.png

Tạm kết


Qua những thử nghiệm trên, trước mắt có thể thấy Gemini 1.5 đã cải thiện rất nhiều so với Gemini 1.0. Khả năng suy luận của Gemini 1.5 tốt hơn so với bản 1.0, tuy là không phải hoàn hảo. Không rõ phiên bản Ultra sẽ ra sao, nhưng những gì bản Pro đang làm thực sự là rất đáng mong chờ. Con số 1 triệu token cũng cho phép Gemini 1.5 xử lý lượng dữ liệu rất lớn (hình ảnh, video, tài liệu), điều mà hiện tại GPT-4 vẫn chưa thể làm được.

Theo một số thông tin chưa chính thức thì Gemini 1.5 khi ra mắt chính thức thì cũng chỉ giới hạn xử lý độ dài ngữ cảnh ở 128.000 token, tức là nhiều hơn mức 32.000 token hiện tại của Gemini 1.0 Pro, nhưng cũng chỉ ngang với GPT-4 hiện tại. Nên nhớ rằng đây vẫn còn đang là bản Preview, chưa phải phiên bản chính thức cho người dùng cuối. Tuy vậy, các nhà phát triển vẫn hoàn toàn có thể tận dụng khả năng xử lý tối đa 1 triệu token để làm ra các sản phẩm khác phục vụ cho người dùng cuối.
42 bình luận
Chia sẻ

Xu hướng

mấy nữa tiền thuê AI chắc là sẽ càng ngày càng nhiều 😁
tuha1288
TÍCH CỰC
4 tháng
vừa thử hỏi mẹo mà nó cũng trả lời đúng này
Untitled.png
Trả phí thì thôi, không có tiền rồi, dùng free vậy
Thằng Gemini trình bày câu trả lời đẹp và rõ ràng, còn thằng chatGPT thì hơi rối, chơi chữ in đậm nữa chứ.
Càng ngày AI càng hoàn thiện nhỉ!
Mod thử hỏi mẹo: Vân đều nhận quà của tui và mod khác, vậy Vân yêu ai? Coi nó trả lời đúng không
@xecatang đây nhé
linhtinh.png
Ko rõ AI tương lai như nào, nhưng mới đây mình làm Pháp chế đã được giao bài tập là tìm cách bó giò rồi, na ná cách tiếp cận của hạ viện Mẽo 😑😑😑 Có khi đến lúc dùng được, thì pháp luật lại ko cho dùng
Apple hít ké con Gimini : người dùng iphone sẽ phải trả 40$/tháng để sử dụng AI 😆
@BánTáoQ10 Google bảo vào trang chủ đăng ký cho rẻ nè. iFan bảo dell tao thích đăng ký qua Apple 😃)
Bamoo.Tank
ĐẠI BÀNG
4 tháng
@Tào Thừa Tướng cái chatgpt 4 đăng ký qua Apple rẻ hơn đăng ký trực tiếp với OpenAI
@BánTáoQ10 chỉ cần có hơn 5GB dung lượng đám mây mà Apple nó giã cho 19k/tháng là đủ hiểu
918nqsang
ĐẠI BÀNG
4 tháng
@Bamoo.Tank sao đăng ký qua apple vậy bác
Bamoo.Tank
ĐẠI BÀNG
4 tháng
@918nqsang bác down app về là họ có hướng dẫn đăng ký trong app
token là gì vậy mod
GLES
TÍCH CỰC
4 tháng
@Bơm Lốp Tàu Hỏa Lo mà đi làm công việc tay chân "bơm lốp tàu hỏa" đi hỏi mấy cái học thuật này làm gì?

Với lại hỏi thg ad có khi méo biết đâu, hỏi làm gì?
"Tokenization is cutting input data into parts (symbols) that can be mapped (embedded) into a vector space."

https://vaclavkosar.com/ml/transformer-embeddings-and-tokenization

Transformer Embeddings and Tokenization

How transformers convert text and other data to vectors and back using tokenization, positional encoding, embedding layers.
vaclavkosar.com
hdtuan87
ĐẠI BÀNG
4 tháng
@Bơm Lốp Tàu Hỏa hỏi gemini ấy :v
Giá như con Siri mà Apple nghiêm túc đầu tư thì giờ đâu phải đi mượn ké của GG
@Bão Sài Gòn Còn đở hơn cái thằng đi mượn cả OS =))
mod nên trình bày lại bài viết, rối quá, thêm hình dẫn chứng vào chứ nói sai thì ai biết nó trl sai ra sao
mình đánh giá Gemini tại thời điểm này nhỉnh hơn Copilot 1 điểm, nhỉnh hơn GPT-4 tới 2 điểm nha
thật tuyệt khi được chứng kiến sự phát triển của AI
GLES
TÍCH CỰC
4 tháng
Copilot muốn dùng thật sự phải là đăng ký Copilot Pro và Github copilot thử gen code, xài bản free rồi nói là giới hạn token 🤣

Đề nghị mod trước khi làm bài nhớ bỏ tiền ra mua bản pro và làm 1 bài chất lượng hơn.

mấy con AI này còn đọc được cả file PDF, rồi giải thích lại nội dung, ad viết bài quá tệ.
@GLES Bình tĩnh fen, sẽ có bài đó 😄
Chat gpt 5 sắp ra thì đám google lại mất 3 năm nữa để chạy theo
Hiện tại thấy con Gemini nói tiếng Việt tự nhiên hơn ChatGPT thôi, chứ ngu hơn chatGPT nhiều lắm.
@megatroll gpt free 3.5 vẫn ngu mà. hàng free xài vui thôi
GLES
TÍCH CỰC
4 tháng
@darknessone 3.5 là hàng free show cho mọi người xài thử, đang dùng bản 4 và github copilot nè bác, thông minh hơn nhiều
bluewolf
TÍCH CỰC
4 tháng
@GLES Vừa trên chửi tác giả so sánh bản có phí với bản free xong ông làm y hệt 🤣🤣🤣
GLES
TÍCH CỰC
4 tháng
@bluewolf thì ông trên bảo gemini bản dùng thử với gpt 3.5, thì tui bảo xài 4 đi nó ngon hơn 3.5 thì sai chỗ nào??????????????
lúc này bác sẽ so gemini với bản gpt 4, ok ko bác?
chẳng lẽ phải nói vậy mới rõ 🤣
@bluewolf Gemini 1.5 pro vẫn là bản free mà.
Nano và pro là free
Ultra mới trả phí
Còn Copilot là GPT4 rồi. Nếu mua thì được bản GPT4 turbo thì phải
thằng chatgpt nó trả lời còn 2 trái táo : ))
@chanvan1611 vừa hỏi thử thằng gemini thường cũng trả lời bằng 2 thg codpilot cũng vậy luôn
Test nhưng khi trả lời Gemini cho nhiều version và nó Bịa không biết ngượng chip luôn
Ranham
ĐẠI BÀNG
4 tháng
Nó có phân biệt được ngôn ngữ nam kỳ và Bắc kỳ không ta

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019