ChatGPT đã hỗ trợ máy tính desktop nhiều hơn để tăng cường trải nghiệm người dùng, đồng thời mô hình mới nhất là GPT-4o cũng đã được giới thiệu với khả năng nghe, nói và nhìn thấy môi trường xung quanh chứ không chỉ đơn thuần là viết text như xưa giờ. Đây chính là những điểm mới cực kỳ đáng chú ý mà OpenAI vừa giới thiệu tại sự kiện đêm qua. Tất cả sẽ được cung cấp miễn phí cho người dùng toàn cầu trong vài tuần tới. Tất nhiên vẫn sẽ có phiên bản trả phí, hơn ở chỗ được dùunfgGPT-4o với tần suất cao hơn gấp 5 lần.
Đầu tiên và quan trọng nhất là mô hình mới mang tên GPT-4o. Chữ o ở đây là omni model, nghĩa là tích hợp toàn bộ các công nghệ và khả năng xử lý nhiều loại data khác nhau như văn bản, hình ảnh, giọng nói,... trong cùng một model duy nhất. Điều này cho phép ChatGPT giờ đây không chỉ phản hồi bằng text hay hình ảnh đơn thuần, mà nó còn phản hồi bằng giọng nói tức thời, lại nhìn được hình ảnh mà người dùng cho nó coi theo thời gian thực qua camera điện thoại, webcam,...
Với mô hình mới, OpenAI giới thiệu tính năng trò chuyện bằng ngôn ngữ giọng nói tự nhiên. Hiện nó hỗ trợ 50 ngôn ngữ, có thể trò chuyện liên tục mà không bị ngắt quãng. Đáng sợ hơn, nó "đọc" được sắc thái cảm xúc của người dùng qua giọng nói và đưa ra phản hồi phù hợp. Khi được cấp quyền "nhìn" hình ảnh từ camera, chatGPT có thể quan sát môi trường xung quanh người dùng, tương tác tức thời khi có lệnh, đồng thời "hiểu" được cảm xúc con người thông qua biểu cảm gương mặt, giỡn đùa vui,...
Một điểm ăn tiền khác là ChatGPT hỗ trợ desktop sâu hơn. Bây giờ, ChatGPT có thể "nhìn" màn hình máy tính của người dùng để hỗ trợ giải quyết vấn đề ngay lập tức luôn. Thí dụ như chúng ta đang viết code, chỉ cần hỏi bằng giọng nói là "code này chạy sao", nó sẽ đưa ra phản hồi ngay lập tức. Tương tự, nó có thể đọc các menu của ngôn ngữ mà người dùng không biết và dịch lại để chọn đúng. OpenAI cho biết là sau này, nó còn coi được cả thể thao trực tuyến trên màn hình, rồi giải thích luật chơi cho người dùng khi họ cần.
Đầu tiên và quan trọng nhất là mô hình mới mang tên GPT-4o. Chữ o ở đây là omni model, nghĩa là tích hợp toàn bộ các công nghệ và khả năng xử lý nhiều loại data khác nhau như văn bản, hình ảnh, giọng nói,... trong cùng một model duy nhất. Điều này cho phép ChatGPT giờ đây không chỉ phản hồi bằng text hay hình ảnh đơn thuần, mà nó còn phản hồi bằng giọng nói tức thời, lại nhìn được hình ảnh mà người dùng cho nó coi theo thời gian thực qua camera điện thoại, webcam,...
Với mô hình mới, OpenAI giới thiệu tính năng trò chuyện bằng ngôn ngữ giọng nói tự nhiên. Hiện nó hỗ trợ 50 ngôn ngữ, có thể trò chuyện liên tục mà không bị ngắt quãng. Đáng sợ hơn, nó "đọc" được sắc thái cảm xúc của người dùng qua giọng nói và đưa ra phản hồi phù hợp. Khi được cấp quyền "nhìn" hình ảnh từ camera, chatGPT có thể quan sát môi trường xung quanh người dùng, tương tác tức thời khi có lệnh, đồng thời "hiểu" được cảm xúc con người thông qua biểu cảm gương mặt, giỡn đùa vui,...
Một điểm ăn tiền khác là ChatGPT hỗ trợ desktop sâu hơn. Bây giờ, ChatGPT có thể "nhìn" màn hình máy tính của người dùng để hỗ trợ giải quyết vấn đề ngay lập tức luôn. Thí dụ như chúng ta đang viết code, chỉ cần hỏi bằng giọng nói là "code này chạy sao", nó sẽ đưa ra phản hồi ngay lập tức. Tương tự, nó có thể đọc các menu của ngôn ngữ mà người dùng không biết và dịch lại để chọn đúng. OpenAI cho biết là sau này, nó còn coi được cả thể thao trực tuyến trên màn hình, rồi giải thích luật chơi cho người dùng khi họ cần.