Dùng thử GPT-4o với ChatGPT: Nhanh hơn và thú vị hơn GPT-4

GPT-4o là model AI mới nhất của OpenAI, đã mở ra cho toàn bộ người dùng miễn phí, dĩ nhiên là có sự giới hạn. Trong chủ đề bài này mình muốn chia sẻ với anh em về GPT-4o nó có thể làm được gì, nó khác gì so với GPT-4 trước đây.

GPT-4o: Vũ khí mới nhất để OpenAI cạnh tranh với Gemini, hữu ích, thông minh và đa dụng hơn

Đồng ý rằng hiện giờ Gemini vẫn chưa thể cạnh tranh được với GPT-4 về khả năng tạo sinh nội dung. Nhưng nếu cứ ngủ quên trên chiến thắng, OpenAI sẽ để Google vượt qua. Vượt qua ở đây không đơn giản là sức mạnh của bản thân mô hình ngôn ngữ Gemini…

tinhte.vn

Nói nhanh qua về những đặc điểm mới của GPT-4o so với GPT-4, đó là khả năng generate của nó rất nhanh, nhanh hơn đáng kể so với GPT-4, dù vẫn là hoạt động trên cloud. Thứ hai, GPT-4o có thể hiểu được những gì đang xảy ra trên màn hình máy tính hay điện thoại (app), có thể phân tích hình ảnh, video, tài liệu và đưa ra cho bạn câu trả lời chính xác. Thứ ba, GPT-4o có thể hiểu được giọng nói của người dùng, bạn có thể nhờ nó phiên dịch ra các thứ tiếng khác nhau. Cũng từ đó, GPT-4o sẽ có khả năng thông minh hơn, tự nhiên hơn, đó là nâng cấp đáng kể của GPT-4o so với thế hệ trước.

Video nói chuyện thử, nhờ phiên dịch với GPT-4o:

GPT-4o ra mắt thì OpenAI cũng giới thiệu một phiên bản ứng dụng dành cho desktop, nhưng trước hết là trên macOS, như vậy sắp tới người dùng Mac sẽ có thể nhờ GPT-4o phân tích những thứ đang xảy ra trên màn hình máy tính của mình rồi.

Link tải app desktop ChatGPT dành cho macOS.

Khả năng phân tích hình ảnh

Ảnh màn hình 2024-05-16 lúc 19.15.59.png

Trước tiên mình thử một tấm ảnh chụp bằng điện thoại, sau đó nhờ ChatGPT phân tích xem hình ảnh đó đang hiển thị cái gì. Kết quả là GPT-4o phân tích rất chính xác, đặc biệt là tốc độ generate ra câu trả lời của GPT-4o nhanh hơn hẳn so với GPT-4, đó là điều quan trọng mà người dùng cần.
Ảnh màn hình 2024-05-16 lúc 19.19.33.png

Ảnh màn hình 2024-05-16 lúc 19.19.33.png

Mình thử tiếp với một tấm hình khác về chip Intel Lunar Lake, GPT-4o có thể đọc rõ ràng nội dung có trong buổi thuyết trình của CEO Intel Pat Gelsinger, dĩ nhiên là tốc độ vẫn rất nhanh.
Ảnh màn hình 2024-05-16 lúc 22.59.43.png

Ảnh màn hình 2024-05-16 lúc 22.59.43.png

Mình đưa tiếp một hình ảnh roadmap theo dạng biểu đồ Gantt, hình ảnh không thực sự rõ nét, nhưng GPT-4o đưa ra tổng kết hoàn toàn chính xác, rõ ràng và chi tiết. Mình thử đưa cho Gemini 1.5 Pro đọc thì model AI của Google vẫn trả lời được, nhưng độ chi tiết thì không bằng GPT-4o, điều đó cũng đúng với GPT-4.
Ảnh màn hình 2024-05-16 lúc 23.01.04.png

Ảnh màn hình 2024-05-16 lúc 23.01.04.png

Tiếp tục với một bảng khác, chữ nghĩa cũng không thật sự rõ ràng, có cả watermark nhưng GPT-4o vẫn có thể đọc được và cho mình một bảng tóm tắt khác cực kì chi tiết.
Ảnh màn hình 2024-05-16 lúc 23.26.45.png

Ảnh màn hình 2024-05-16 lúc 23.26.45.png

Bên trái là GPT-4, bên phải là GPT-4o.

Mình thử tiếp với một bức ảnh có người, vật, khung cảnh và cả chữ, GPT-4 mô tả khá chi tiết, nhưng GPT-4o mô tả thậm chí còn chi tiết hơn, biết người trong ảnh có đeo kính, những người ngồi phía sau cũng đang thư giãn hoặc đang sử dụng điện thoại, rồi dòng chữ bảng hiệu phía trên, khung cảnh xung quanh GPT-4o dự đoán khá chính xác. Quan trọng là tốc độ “bắn” chữ thì vẫn nhanh hơn GPT-4 nhiều.

Khả năng đọc file tài liệu

Ảnh màn hình 2024-05-16 lúc 23.08.30.png

Mình bỏ vào GPT-4o một file pdf 90 trang với danh sách 6447 cái tên và thông tin cá nhân, mình yêu cầu GPT-4o lọc cho mình đúng cái tên mà mình đang tìm kiếm, dĩ nhiên GPT-4o làm được chuyện này và làm rất nhanh.
Ảnh màn hình 2024-05-16 lúc 23.11.28.png

Ảnh màn hình 2024-05-16 lúc 23.11.28.png

Việc tìm kiếm tên rõ ràng là không khó với GPT-4o, tuy nhiên khi mình hỏi thêm rằng có tổng cộng bao nhiêu cái tên trong danh sách kể trên, lọc theo STT thì GPT-4o trả lời mình chưa chính xác.
Ảnh màn hình 2024-05-16 lúc 20.19.15.png

Ảnh màn hình 2024-05-16 lúc 20.19.15.png

Đem danh sách này sang Gemini 1.5 Pro, nó tiêu tốn đâu đó khoảng 320K tokens, và thời gian để generate câu trả lời lâu hơn GPT-4o nhưng đáp án thì lại chính xác. Tuy vậy, câu hỏi mình dành cho Gemini 1.5 Pro là có bao nhiêu MSSV ở trong danh sách, Gemini 1.5 Pro trả lời đúng, còn GPT-4o trả lời sai.

Khả năng phân tích, tổng hợp video

Ảnh màn hình 2024-05-17 lúc 00.26.42.png

Mình bỏ thử một đường link video YouTube, sau đó nhờ GPT-4o tóm tắt lại nội dung cho mình. Kết quả là GPT-4o trên desktop app macOS không làm được, trong khi đó với ứng dụng điện thoại (Android) và nền web thì lại hoạt động bình thường, mình chưa rõ lỗi ở đâu.

Nếu đã trả lời được, GPT-4o làm rất tốt, nói cụ thể và chi tiết, tương tự như Gemini đang làm. Gemini của Google cũng có khả năng tóm tắt nội dung video trên YouTube. Hiện tại mình đánh giá Gemini và GPT-4o đang làm điều này khá tốt, trong khi Copilot Pro mình thử mấy lần nhưng đều cho đáp án sai.

Khả năng phân tích video

Mình bỏ thử một đường link video YouTube, sau đó nhờ GPT-4o tóm tắt lại nội dung cho mình. Kết quả là GPT-4o trên ứng dụng macOS không làm được, trong khi đó với ứng dụng điện thoại (Android) và nền web thì lại hoạt động bình thường, mình chưa rõ lỗi ở đâu.

Nếu đã trả lời được, GPT-4o làm rất tốt, nói cụ thể và chi tiết, tương tự như Gemini đang làm, Gemini cũng có khả năng tóm tắt nội dung video trên YouTube. Hiện tại có vẻ Gemini và GPT-4o đang làm điều này khá tốt, trong khi Copilot Pro mình thử mấy lần nhưng đều cho đáp án sai.

Ảnh màn hình 2024-05-17 lúc 00.47.10.png

Ảnh màn hình 2024-05-17 lúc 00.47.10.png

Lần này mình thử tiếp một video tự quay bằng điện thoại để xem GPT-4o có tổng hợp được thông tin hay không. GPT-4o vẫn cho phép người dùng upload video nhưng kích thước không quá 512MB. Kết quả là GPT-4o không thể tổng hợp được video mà mình upload lên, dù bằng web hay bằng app.

Chỉ duy nhất Gemini 1.5 Pro là có thể làm được điều này, video dài 55 giây tiêu tốn hết khoảng 337k tokens. Gemini phân tích chính xác những gì mình nói trong video, thậm chí mình hỏi lại rằng có chi tiết đó trong video hay không thì Gemini 1.5 Pro tiếp tục cho câu trả lời chính xác.

Thử làm thơ

Ảnh màn hình 2024-05-16 lúc 23.13.23.png

Đoạn trên là viết bằng GPT-4o, đoạn dưới là viết bằng GPT-4.

Trước đây mình từng nhờ GPT-4 làm thơ lục bát nhưng nó không thể cho được kết quả như ý, nay mình thử lại với GPT-4o thì nó đã làm đúng được cấu trúc thơ lục bát, dù về mặt ý nghĩa thì vẫn chưa đầy đủ và chưa hay cho lắm.

Không chỉ đúng về cấu trúc, GPT-4o còn biết đặt dấu câu hợp lý hơn so với GPT-4, điều này chứng tỏ là khả năng suy luận của GPT-4o đã tốt hơn GPT-4 rất nhiều.
Ảnh màn hình 2024-05-16 lúc 20.30.34.png

Ảnh màn hình 2024-05-16 lúc 20.30.34.png

Tuy nhiên, thứ hay ho nhất của GPT-4o so với GPT-4 đó chính là hiểu ngôn ngữ tự nhiên, trò chuyện với người dùng như chính chúng ta đang trò chuyện với bạn, đó là một tương lai của AI mà rất nhiều người đang hình dung cũng như các nhà phát triển model AI như Google đang hướng đến. Thậm chí, trong tương lai, GPT-4o hoàn toàn có thể đọc được nội dung đang hiển thị trên màn hình máy tính, điện thoại theo thời gian thực, trả lời mọi câu hỏi mà bạn muốn và nhiều thứ hơn nữa.

Thử trò chuyện với GPT-4o

Với ứng dụng dành cho macOS và Android cũng như iOS, GPT-4o có thể trò chuyện được với chúng ta, theo ngôn ngữ mà chúng ta đang nói, hoặc có thể nhờ GPT-4o dịch câu nói của mình sang một ngôn ngữ khác.

Đoạn chat anh em xem ở trên giữa mình và GPT-4o là đoạn hội thoại của mình được chuyển thành văn bản. Theo mình đánh giá, khả năng nó hiểu được mình nói và trò chuyện với mình là rất tuyệt vời, trước đây mình chưa thử điều này trên GPT-4 nên không rõ nó có tốt như GPT-4o hay không, nhưng mình có thể cảm nhận được rằng nó trò chuyện với mình rất tự nhiên.

Tốc độ trả lời và đặc biệt là trả lời bằng tiếng Việt sẽ dựa vào số lượng người kết nối cũng như đường truyền internet tại khu vực của bạn. Mình có thử 1 đoạn nhưng kết nối ban đầu của nó khá là lâu và trong quá trình sử dụng nó hay bị gián đoạn, nói không rõ, mình nghĩ là do đường truyền và đang có quá nhiều người cùng truy cập vào GPT-4o tại cùng một thời điểm.

GPT-4o thú vị và thông minh hơn GPT-4, tuy nhiên…

Đó là cảm nhận của mình khi thử dùng GPT-4o, trước đây mình không sử dụng ChatGPT nhiều vì đã có Gemini và Copilot, nhưng kể từ GPT-4o thì mình sẽ dùng ChatGPT nhiều hơn (chủ yếu là tốn 500k mua bản Plus rồi 😁).

Với mình GPT-4o thông minh hơn so với GPT-4, đa năng hơn vì nó bản chất là multimodal AI, khả năng nó làm được tốt hơn GPT-4, thời gian generate câu trả lời cũng nhanh hơn GPT-4 khá nhiều, mình áng chừng cũng phải nhanh hơn gấp đôi, tiết kiệm thời gian cho chúng ta ngồi đợi.

Dĩ nhiên nó vẫn còn một số hạn chế, ví dụ như khả năng trò chuyện chưa thực sự ngon, kết nối lúc được lúc không, khi giao tiếp mà nếu đường truyền không ổn định thì giọng nói sẽ khá khó nghe, hay khả năng phân tích video online hay offline vẫn chưa bằng được Gemini. Bù lại, GPT-4o nói tiếng Việt rất chuẩn, giọng nói tự nhiên, có chút nhấn nhá giống người thật.

Hiện tại tính năng stream trực tiếp hình ảnh từ camera điện thoại (mobile app) hay màn hình máy tính (desktop app) vẫn chưa được openAI hỗ trợ, tuy nhiên thì nó cũng sẽ tới nhanh thôi, lúc đó mình sẽ thử thêm và chia sẻ với anh em sau.

ntmhung

GÀ

6 tháng

Bấm vào Link tải ra trang tag vậy ad

nickez

@magez chỉ có user Plus được dùng trước thì phải

magez

@nickez Thì mình đang là plus đây mà có dùng được đâu, chắc hạn chế theo vùng gì đó

thanhkhocnhe

@magez nếu bạn đươc cho phép thì nó sẽ gọi ý cho bạn tải khi bạn đang xài bản web, k cần tìm link chi mắc công

trunghieu7393

@ntmhung nó khôn lắm, tải về nó ăn cắp thông tin đó

nonut

Thật sự rất tuyệt.
Lưu ý là bản free chỉ cho upload 3 ảnh thôi nhé, nên các bạn cân nhắc khi test.

Long kengg

@nonut tuyệt thật, mod tinhte tha hồ spam bài chạy kpi lên trang chủ

Pnghuy

@Long kengg Mình dùng Plus bạn ơi 😄

leuthiennhan

ĐẠI BÀNG

Md thật sự

HungNguyen94

@leuthiennhan đm cái này chế à

huyhoangjo

@leuthiennhan này chế chứ đâu ra thế này đc kkk

@huyhoangjo không chế nha

Lin Ga

Nhờ Gpt nó viết code để tạo lisp hoặc Toll trên autocad được không ta?

tranbinh198074

Làm thế nào sử dụng được trên điện thoai Android vậy mod, mình chưa dùng lần nào?

@tranbinh198074 Tải app về dùng thôi bạn

tethien

@tranbinh198074 Cài app ChatGPT vào.
Chạy nó rồi chọn login bằng Google là xong

@tethien Cảm ơn bác.

Vaanres

Link không tải được ông ơi

@Vaanres Đợi mình up file cài lên Drive rồi share cho anh em

toutou

gpt-4o và Gemini 1.5 flash đang đấu nhau.

Thịt xiên nướng

Hình như chỉ cho free để trải nhiệm thôi hay sao ấy mà. chứ muốn xài vẫn phải mua

Giang Cam

Trứng

@Thịt xiên nướng Muốn dùng phải trả phí nha

@Thịt xiên nướng Đúng rồi bạn, GPT-4o bản free giới hạn nhiều thứ, muốn ngon phải dùng Plus

megatroll

@Thịt xiên nướng mình có test qua thì bản free cái ChatGPT 4o tốc độ ngang cái bản trả phí nhé.
Giới hạn là 40 câu/3h.

Về cơ bản thì nó ngang với bản trả phí trước của chatGPT4. Còn hội trả phí hiện tại dc nâng lên 80 câu/3 giờ (đọc thông tin trên mạng, còn cái quảng cáo x5 gì đó hôm workshop thì ko biết).

Nên vô tư dùng tẹt ga bác ạ.

Còn mấy cái Dalle chưa test. Mà cũng ko có nhu cầu dùng.

congtan98

Đưa link tải ra tag tinhte 😔(((

@congtan98 Chờ chút mình upload file cài lên Driver rồi share

GPT-4o vẫn chỉ giới hạn cập nhật thông tin đến tháng 9/21 như GPT-3.5

thhc86

@tethien GPT-4o??

@thhc86 Nhầm. Như GPT-3.5

Huỳnh Trần Hoàng Long

Em thử gửi link video youtube thì nó bảo là "không thể truy cập trực tiếp vào video trên YouTube với liên kết bạn cung cấp". Em cũng đang dùng tài khoản GPT plus nhưng không làm được như anh

@Huỳnh Trần Hoàng Long Bạn dùng app điện thoại nha, nền web có vẻ nó không nhận

Omega_Prince

@Pnghuy mình dùng iOS app đã update mới nhất nhưng vẫn không nhận link Youtube, nhiều khả năng free không support mà cần subcription bản Plus

noctunalguy

Windows sắp tới tích hợp luôn mấy tính năng tương tự trong copilot vào task bar lẫn menu chuột phải rồi, tiện hơn này mà ko bị bắt trả tiền 😄

OpenAI

@noctunalguy Đang phân vân ko biết mua tiếp Poe, Perplexity hay ChatGPT để xài 😅

Shark Hunter

AI giờ nhiều thứ hay thật😀

chanvan1611

TÍCH CỰC

cái đối thoại bằng camera chắc vài tuần nữa mới ra mắt

Methylamine

Voice Mode này cũ mà, đâu phải Voice mode mới như trong demo đâu, voice mode đã roll out đâu

quanghuy1242

Không tin là nó có thể đoán được luôn, hình là mình tự chụp cả :v

daohoa1012

Mình hơi lạc hậu, chưa chơi với con này lần nào 😁

VinaOneX

Bảo nó tóm tắt cá video youtube, nó TỰ SÁNG TẠO RA NỘI DUNG TRỜI Ạ! 😂😂😁

Người Việt tên Trung

AI thực sự rất đỉnh. Bảo sao nvidia to the moon…