Model GPT-4o: nói chuyện tự nhiên, nhìn màn hình lẫn thế giới xung quanh, hiểu "biểu cảm" người dùng

ChatGPT đã hỗ trợ máy tính desktop nhiều hơn để tăng cường trải nghiệm người dùng, đồng thời mô hình mới nhất là GPT-4o cũng đã được giới thiệu với khả năng nghe, nói và nhìn thấy môi trường xung quanh chứ không chỉ đơn thuần là viết text như xưa giờ. Đây chính là những điểm mới cực kỳ đáng chú ý mà OpenAI vừa giới thiệu tại sự kiện đêm qua. Tất cả sẽ được cung cấp miễn phí cho người dùng toàn cầu trong vài tuần tới. Tất nhiên vẫn sẽ có phiên bản trả phí, hơn ở chỗ được dùunfgGPT-4o với tần suất cao hơn gấp 5 lần.

Đầu tiên và quan trọng nhất là mô hình mới mang tên GPT-4o. Chữ o ở đây là omni model, nghĩa là tích hợp toàn bộ các công nghệ và khả năng xử lý nhiều loại data khác nhau như văn bản, hình ảnh, giọng nói,... trong cùng một model duy nhất. Điều này cho phép ChatGPT giờ đây không chỉ phản hồi bằng text hay hình ảnh đơn thuần, mà nó còn phản hồi bằng giọng nói tức thời, lại nhìn được hình ảnh mà người dùng cho nó coi theo thời gian thực qua camera điện thoại, webcam,...

Với mô hình mới, OpenAI giới thiệu tính năng trò chuyện bằng ngôn ngữ giọng nói tự nhiên. Hiện nó hỗ trợ 50 ngôn ngữ, có thể trò chuyện liên tục mà không bị ngắt quãng. Đáng sợ hơn, nó "đọc" được sắc thái cảm xúc của người dùng qua giọng nói và đưa ra phản hồi phù hợp. Khi được cấp quyền "nhìn" hình ảnh từ camera, chatGPT có thể quan sát môi trường xung quanh người dùng, tương tác tức thời khi có lệnh, đồng thời "hiểu" được cảm xúc con người thông qua biểu cảm gương mặt, giỡn đùa vui,...

desktop.jpg.webp

Một điểm ăn tiền khác là ChatGPT hỗ trợ desktop sâu hơn. Bây giờ, ChatGPT có thể "nhìn" màn hình máy tính của người dùng để hỗ trợ giải quyết vấn đề ngay lập tức luôn. Thí dụ như chúng ta đang viết code, chỉ cần hỏi bằng giọng nói là "code này chạy sao", nó sẽ đưa ra phản hồi ngay lập tức. Tương tự, nó có thể đọc các menu của ngôn ngữ mà người dùng không biết và dịch lại để chọn đúng. OpenAI cho biết là sau này, nó còn coi được cả thể thao trực tuyến trên màn hình, rồi giải thích luật chơi cho người dùng khi họ cần.

nịnastorm

VIP

15 ngày

Xịn quá

magez

CAO CẤP

@nịnastorm Vô coi mấy cái video trình diễn thấy kinh thật.
Nó nói chuyện hiểu ngữ cảnh & có cảm xúc y như con người, giọng nói cũng hoàn toàn tự nhiên.

Thằng OpenAI này làm cái nào cũng bá đạo nhất không, đám còn lại méo thể nào đuổi kịp được.
Đã vậy ông CEO còn tuyên bố mô hình GPT4 sẽ sớm là mô hình "ngu" nhất, nghĩa là họ đang có trong tay nhiều model ngon & mạnh hơn n lần nữa.
Hóng cái GPT5 nó bá cỡ nào 😀

https://openai.com/index/hello-gpt-4o/

TKNRCT

ĐẠI BÀNG

@nịnastorm thích openai ra cái gì là ra lẹ lẹ chứ không như ông gg, từ lúc cb đếm lúc sờ được cũng vài tháng rồi giới hạn một số nước

empty77

TÍCH CỰC

@TKNRCT đuổi theo ko kịp nó vậy đó

causelove94

Có thể hiểu 1 phần vì sao Apple chọn hợp tác với OpenAI thay vì Google trong mảng này rồi. Chỉ khi OpenAI nó đứng im thì thằng khác mới đuổi kịp quá! Hiện vào web là đc dùng con GPT-4o free rồi đó ae!

salvorhardin

@causelove94 Thằng này cũng ảo, nó toàn làm sự kiện trước 1 ngày so với Google để lấy bớt fame. Troll đến thế là cùng.

14 ngày

@salvorhardin Thế giới phải có nhiều công ty đứng đầu trong các mảng thì mới cạnh tranh đc, có ông thì đứng đầu về hđh PC, có ông thì đứng đầu về MXH, có ông thì đứng đầu về cloud,… Riêng ông Google đã đứng đầu nhiều mảng rồi (tìm kiếm, email, hđh di động, trình duyệt) thì cũng nên chấp nhận nhường mảng AI cho ng khác thôi, thời thế sinh anh hùng mà ai biết trước đc

Cmt dạo

Quá nguy hiểm.MS lại sắp lên 4k$ đến nơi rồi

Thầy giáo Sang

API con này giảm 1/2 giá, sướng gì đâu :3

congtan98

@Thầy giáo Sang Em vẫn thấy 20$/month mà?

@congtan98 API là chi phí dùng cho ứng dụng của Developer, còn phí 20 đô là dùng chatGPT bạn.

boyhk_206

@Thầy giáo Sang Thầy cho hỏi hiện có ứng dụng nào mình có thể link API vào dùng không?

@boyhk_206 Mình không rành ạ, mình tự tạo ứng dụng để dùng API.

@Thầy giáo Sang Cảm ơn thầy.
Nếu được rất mong thầy lên bài chia sẻ với anh em tinhte

king_of_mar1311

Mới có 1 năm thôi mà phản hồi của MS copilot đã nhanh và tự nhiên, ngắn gọn đúng nội dung hơn rất nhiều rồi.

Thật sự ai mới là thứ cần để thay đổi cách con người tương tác với đt và máy tính. Giờ chỉ hóng ios 18 apple tích hợp Ai vào là khỏi cần sử dụng windows làm gì hết. Khi đó iphone sẽ thay thế hoàn toàn máy tính to nặng hàng ngày con người phải khổ sở mang vác

ragefighter

@king_of_mar1311 ai lởm của apple thím đừng ảo tưởng nhiều.

user1619495855614

@king_of_mar1311 Cười bịnh

quydanh97

Bây giờ thì AI đã chủ động hơn trong việc thu thập và phân tích thông tin rồi.

hadryan

có AI nào mà đọc dc word ko các bác
tac vụ e cần là : lọc ra hết những từ dc in nghiêng / gạch chân / in đậm ra thành 1 danh sách từ vựng
hoặc gạch chân 100 từ vựng B2 trong văn bản

@megatroll nó cũng ko làm dc lệnh: xoa hêt watermark trong file hoặc tự động in đậm, tăng size, căn lề tất cả tiêu đề và các dạng format khác

@causelove94 nó cũng ko làm dc lệnh: xoa hêt watermark trong file hoặc tự động in đậm, tăng size, căn lề tất cả tiêu đề và các dạng format khác

@hadryan tưởng bạn cần lấy dữ liệu từ file ra rồi trả về output chat thôi thì còn đc, chứ đòi edit trực tiếp file doc của bạn thì chịu rồi

megatroll

@hadryan bác nói ko rõ. Chỉ bảo là lọc ra từ 1 danh sách có sẵn. Thì con đó làm dc
Giờ thì bảo phải đi edit. Đi xóa water mark...vv... thì phải làm bằng tay thôi

trunghieu7393

ngon quas

vuanhtuanfpt

Ad cho xin link dùng thử với ạ!

reddog

sáng ra thấy cái mới bảo tạo ảnh bạn tạo nhanh hơn thật

Văn phòng phẩm pk

Có trên ios k nhỉ

đang dùng GPT plus 4.0, lên 4.o ảo thật. Nó ko "rặn" từng chữ 1 như 4.0, mà phản hồi nhanh vèo vèo như Gemini.
Với mình, đó là 1 điểm cộng cực lớn. Vì nhiều task mình ko dùng GPT mà dùng Gemini vì nó trả lời nhanh hơn.

Penn

Thế này mới là digital assistant chứ. Apple với Google mà mở access cho vào core apps với personal info thì con này tiện vô đối.

blackberry97

"code này chạy sao?"
"code zầy sao mà chạy"