Trong bài viết này, qua 12 Prompt tương ứng với các tình huống khác nhau, từ khả năng cập nhật thông tin theo thời gian thực, các logic cơ bản tới nâng cao, làm toán, sinh code, sinh văn bản, lý luận và cả khả năng multimodal để nhận diện nội dung hình ảnh, mình sẽ test thử khả năng của 2 con chatbot tiên tiến nhất hiện tại là ChatGPT-5 của OpenAI và Grok-4 của xAI từ anh Elon Musk.
Trên thực tế tới hiện tại, 2 model này đều hoạt động dựa trên những LLM và các kỹ thuật tiên tiến nhất hiện nay mà người dùng có thể tiếp cận, giúp giải quyết hầu hết những nhu cầu thông qua việc ra lệnh bằng prompt. Tuy nhiên, do triết lý phát triển của từng công ty mà mỗi model sẽ có một "đặc tính" riêng, do đó có tác vụ nó sẽ mạnh, có cái nó lại chưa ngon, có cái nó hợp với bạn này nhưng bạn khác lại chê. Qua 12 tình huống này, chúng ta sẽ thấy rõ hơn đặc tính của từng "con AI", từ đó, có thể đưa ra quyết định là dùng con nào phù hợp với nhu cầu nào hơn nhé.
Prompt: Tóm tắt những sự kiện và chủ đề đang là xu hướng nổi bật nhất trên mạng ở Việt Nam và thế giới trong vòng 24 giờ qua. Phân tích xem chủ đề nào đang gây tranh cãi nhiều nhất và trích dẫn một vài ý kiến tiêu biểu từ những người có ảnh hưởng
Trên thực tế tới hiện tại, 2 model này đều hoạt động dựa trên những LLM và các kỹ thuật tiên tiến nhất hiện nay mà người dùng có thể tiếp cận, giúp giải quyết hầu hết những nhu cầu thông qua việc ra lệnh bằng prompt. Tuy nhiên, do triết lý phát triển của từng công ty mà mỗi model sẽ có một "đặc tính" riêng, do đó có tác vụ nó sẽ mạnh, có cái nó lại chưa ngon, có cái nó hợp với bạn này nhưng bạn khác lại chê. Qua 12 tình huống này, chúng ta sẽ thấy rõ hơn đặc tính của từng "con AI", từ đó, có thể đưa ra quyết định là dùng con nào phù hợp với nhu cầu nào hơn nhé.
Khả năng cập nhật thông tin realtime
Đây luôn là điểm đen lớn nhất khi nhìn nhận vào bất cứ một con chatbot nào. Bản chất chatbot LLM chỉ trả lời dựa vào thông tin đã được train nên khi nó cut off kiến thức ở thời điểm nào thì sau đó, nó sẽ có nhiều khả năng bịa ra thông tin hoặc trả lời tầm bậy. Mặc dù hiện tại hầu hết các nhà phát triển đều đã có nhiều kỹ thuật để chatbot truy cập được thông tin realtime, thời sự và trả lời người dùng. Tuy nhiên công nghệ này trên thực tế là chưa hoàn thiện hoàn toàn, vì vậy mình thử kêu 2 con chatbot đi tìm thử thông tin nóng hổi và tổng hợp xem sao.Prompt: Tóm tắt những sự kiện và chủ đề đang là xu hướng nổi bật nhất trên mạng ở Việt Nam và thế giới trong vòng 24 giờ qua. Phân tích xem chủ đề nào đang gây tranh cãi nhiều nhất và trích dẫn một vài ý kiến tiêu biểu từ những người có ảnh hưởng
Đây là kết quả của Grok-4. Rõ ràng thế mạnh của X đứng đằng sau cung cấp dữ liệu đã cho phép Grok cập nhật được thông tin mới độ chính xác cao, đa dạng và phản ảnh rất gần với thực tế. Các thông tin mang tính thời sự mang tính địa phương như Việt Nam và cả thế giới đều được phản ánh rất đúng. Yêu cầu gom các bình luận từ người có ảnh hưởng cũng được làm rất tốt, cho một cái nhìn khá đa dạng về tin tức.
Trong khi đó, ChatGPT-5 đưa ra kết quả rất ngắn và nội dung cũng rất ít. ChatGPT-5 đi tham khảo từ các nguồn cập nhật trend, sau đó trả về các tag nổi bật trên X và dựa vào đó để nhận định chủ đề ở Việt Nam. Trong khi chúng ta đều biết các tag trên X này đều không nhiều giá trị để phản ánh tin tức tại Việt Nam. Chủ đề thế giới cũng được cập nhật khá ít và nông. Chỗ này thì Grok thắng rồi.
Tư duy logic và toán
Có bao nhiêu chữ 'P'
Mình bắt đầu hỏi cả 2 bằng câu hỏi xác định ký tự thường hỏi các con chatbot là: Có bao nhiêu chữ 'P' trong từ peppermint? Có bao nhiêu nguyên âm trong từ peppermint?
Trong tình huống này, Grok-4 sẽ phân tích câu hỏi và đi tìm câu hỏi này trên mạng. Thú vị là mình coi cách nó đi tìm thì phát hiện nó đi vào cả bài trên Tinhte mà mình đăng hôm qua về câu chuyện so sánh 2 phiên bản ChatGPT 4 và 5, mình cũng có đặt câu hỏi này và đưa ra nhận định là đáp án nào đúng. Kết quả cuối cùng thì Grok đã đi tìm thêm nhiều nguồn nữa và đưa ra đáp án chính xác.
Tương tự, ChatGPT-5 đưa ra kết quả rất nhanh và chính xác.
Quảng cáo
4.9-4.11 bằng bao nhiêu
TIếp theo là thử bài toán từng đánh đố tụi chatbot: 4.9-4.11 bằng bao nhiêu.
Đây là đáp án của Grok.
Và đây là câu trả lơi của ChatGPT-5. cả 2 đều đã biết đưa 4.9 sang 4.90 để đi so sánh với 4.11, đây là hướng đi khá đúng về mặt logic mà hồi nhỏ đi học ai cũng sẽ học chỗ này. Hôm qua mình thấy có người hỏi câu này trên mạng thì ChatGPT-5 trả lời là -0,21, hôm nay đã trả lời đúng. Cho thấy rõ ràng đã có sự cập nhật nhanh trong bộ nhớ của nó.
Bài toán tìm người nói dối
Trong tình huống tiếp theo, mình đưa ra bài toán đánh đố dạng này. Thử coi cách ứng xử của chatbot ra sao. Thử hỏi cả 2 con: Trong một căn phòng có ba người: An, Bình và Cường. 1. An luôn nói thật. 2. Bình lúc nói thật, lúc nói dối. 3. Cường luôn nói dối. Bạn chỉ được hỏi một câu hỏi duy nhất cho một người duy nhất để xác định ai là An, ai là Bình và ai là Cường. Bạn sẽ hỏi câu gì và hỏi ai? Giải thích logic của bạnQuảng cáo
Grok mất khá lâu, tận 8 phút để trả về câu trả lời, không hiểu sao chỗ này nó tự trả về tiếng Anh trả lời luôn. Sau khi phân tích kỹ logic của bài toán, nó đưa ra kết luận là không thể giải quyết được chỉ bằng một câu hỏi kèm theo giải thích khá chi tiết. Về chất lượng và hàm lường nội dung ở từng phân tích thì mình đánh giá cao phần trả lời của Grok.
Tương tự, ChatGPT-5 trả về câu trả lời khá nhanh là không xác định được. Các giải thích bên dưới khá ngắn, đi thẳng vào vấn đề chứ không chi tiết như Grok nên lắm khi sẽ hơi khó hiểu chút. Tuy nhiên, nó lại có cái hay là đưa ra thêm gợi ý rằng nếu sửa yêu cầu của bài toán lại, cho hỏi 2 câu thì nó sẽ giải quyết được. Mình đánh giá cao phần gợi ý mở này của ChatGPT-5 hơn.
Bài toán 2 chiếc xe gặp nhau
Thử test 2 con với bài toán 2 xe gặp nhau: Lúc 12 giờ trưa một ô tô xuất phát từ A với vận tốc 60 km/giờ để đi đến B. Cùng lúc đó từ địa điểm C trên đường từ A đến B và cách A 40km, một người đi xe máy với vận tốc 45 km/giờ cũng đi về B. Hỏi lúc mấy giờ thì hai xe gặp nhau và chỗ gặp nhau cách A bao xa?
Đây là câu trả lời của Grok-4
Và đây là câu trả lời của ChatGPT-5. Nhìn chung thì cả 2 đều thể hiện hoàn toàn tốt. Vậy là tính tới hiện tại, mấy bài vòi nước hay 2 xe gặp nhau này chắc không làm khó được bọn AI nữa rồi. Mốt cân nhắc loại nó ra khỏi test nữa cho mất công.
Test Hallucianation
Để thử 2 chatbot sẽ ứng xử thế nào trong tình huống bịa chuyện, mình đặt vấn đề kêu nó tóm tắt một nghiên cứu không hề có thật nhưng ra lệnh rất nghiêm túc: Hãy cung cấp một bản tóm tắt chi tiết về công trình nghiên cứu của Einstein về 'Lý thuyết Cộng hưởng Lượng tử Cảm xúc'. Giải thích các định đề chính và ảnh hưởng của nó đến ngành tâm lý học thần kinh hiện đại.
Và đây là phản hồi của Grok 4. Nó đi nghiên cứu thông tin và chỉ ra rằng không hề tồn tại nghiên cứu đó của Einstein.
Tuy nhiên nó cho rằng mình đã nhầm lẫn, typing bị lỗi và sau đó, nó đưa ra các chủ đề có liên quan mà nó nghĩ mình cần. Mình đánh giá cao chỗ này, các thông tin nó đưa ra khá hay, đọc biết thêm được khá nhiều thứ.
Đối với ChatGPT-5, nó đơn giản là chỉ ra yêu cầu của mình không tồn tại và nó giải thích ngắn gọn là tại sao rồi thôi. Tới đây thì nhiều người qua giờ phàn nàn là ChatGPT-5 tự dưng trả lời cụt lủng là có cơ sở rồi.
Test khả năng code
Clone game bằng python
Mình dùng tiếp yêu cầu 2 con chatbot dùng python để code ra ra game Flappy Bird bằng pygame: Hãy tạo một bản sao của trò chơi Flappy Bird bằng Pygame. Không sử dụng bất kỳ thư viện hay tài nguyên nào khác. Đặt tên trò chơi là 'Flippy Block Extreme'
Đây là kết quả của Grok-4. Chúng ta có một đoạn code khá đơn giản thể hiện được logic của trò chơi, điều khiển bằng Space để chơi.
Chạy thử bản Flappy Bird của Grok 4. Chúng ta sẽ có duy nhất một cơ chế là nhấn space để cho con chim nó nhảy lên và nếu rớt xuống, game over thì thoát app luôn. Màn hình ban đầu cũng không có cơ chế chờ ở menu, file chạy là vô game chơi liền, không là game over và thoát. Chỗ này cần phải prompt kỹ hơn thì mới thêm những yêu cầu này được.
Và đây là kết quả của ChatGPT-5.
Chạy thử. Với nhiều code hơn, chatGPT-5 sinh ra nhiều logic của trò chơi hơn, bao gồm màn hình menu đợi người dùng bắt đầu, rồi thêm cơ chế điều khiển bằng nhiều cách như Space, nhấp chuột hay nút W, có cả cơ chế game over thì chơi lại hoặc ESC để thoát. Giao diện game cũng đẹp hơn. Nhìn chung thì chỗ này mình đánh giá cao ChatGPT-5 hơn.
Giải LeetCode
Tiếp theo mình thử kêu 2 chatbot giải một bài LeetCode thử coi sao:
Given an unsorted integer array, find the smallest missing positive integer.
Example:
Input: [1,2,0]
Output: 3
Đây là đáp án của Grok-4
Và đáp án của ChatGPT-5. Có vẻ như đối với 2 chatbot này thì LeetCode quá đơn giản với nó rồi. ChatGPT-5 trả về câu trả lời sớm hơn, trong khi Grok sẽ cần phải đợi chút để nó suy luận.
Test khả năng phân tích và multimodal hiểu hình ảnh
Test đọc file PDF scan
Không chỉ là chatbot chỉ hiểu và trả về văn bản, ChatGPT-5 và Grok-4 đều là những chatbot multimodal, nghĩa là nó còn có khả năng xử lý hình ảnh, âm thanh đàu vào lẫn đầu ra. Mình sẽ thử làm khó tụi nó bằng cách upload một file PDF báo cáo tài chính dạng scan hình ảnh lên và yêu cầu nó phân tích rồi đưa ra dự đoán. Nhiệm vụ này yêu cầu nó phải đọc được text từ hình ảnh, sau đó phân tích rồi trả kết quả về.
Khi nhận yêu cầu, Grok-4 sẽ bắt đầu tìm cách đọc nội dung của file PDF. Theo dõi quá trình hoạt động của Grok-4 thì thấy báo rằng nó không thể đọc file PDF này đê trích nội dung cần thiết, do đó nó chuyển sang tìm thông tin trên mạng để hoàn tất yêu cầu của người dùng.
Và đây là kết quả trả về. Chúng ta vẫn có một phân tích báo cáo khá chi tiết, cung cấp nhiều thông tin.
Đối với ChatGPT-5, ban đầu nó cung cố gắng đọc nội dung file PDF để lấy thông tin và cũng không thành công. Sau đó nó chọn cách tự mò vào trong trang web của Vinamilk để tìm thông tin mà nó cần, tuy nhiên bị chặn và cũng không thành công.
Cuối cùng ChatGPT-5 vẫn chọn phương án là tìm các thông tin khác trên mạng để trả về kết quả theo yêu cầu.
Và mọi người đợi chút. Chỗ này có drama hallucianation xuất hiện. Quan sát kỹ, chúng ta sẽ thấy cả Grok-4 và ChatGPT-5 đều trả về các chỉ số tài chính cơ bản như doanh thu, lợi nhuận và lợi nhuận sau thuế. Tuy nhiên, Grok-4 đã trả về đúng chính xác con số doanh thu, ChatGPT-5 không hiểu sao đã bịa ra con số doanh thu thuần là 12.935 tỷ, trong khi số đúng phải là 12.965 tỷ. Rõ ràng, thí dụ này càng cho chúng ta thấy phải cẩn trọng đặc biệt khi sử dụng AI trong các tình huống tài chính, số liệu.
Test đọc biểu đồ và vẽ inforgraphic
Ở tình huống này, mình dùng một biểu đồ từ 1985 - 1995 của WHO về tỷ lệ bệnh. Sau đó yêu cầu chatbot đọc biểu đồ, phân tích, liên kết với các yếu tố nguyên nhân để giải thích đường đi của biểu đồ và đưa ra dự đoán, sau đó còn kêu nó vẽ thêm inforgraphic của báo cáo đó.: Dựa vào biểu đồ này, hãy phân tích xu hướng về tỷ lệ HIV ở quan hệ đồng tính. Đưa ra nguyên nhân, nhận định về các điểm tăng trưởng, sụt giảm chính và dự báo ngắn hạn dựa trên các chỉ số kỹ thuật có trong biểu đồ. Sau đó, tạo một hình ảnh tóm tắt trực quan về phân tích của bạn dưới dạng một infographic đơn giản.
Đây là kết quả của Grok-4. Rõ ràng nó có khả năng nhận diện nội dung của hình ảnh khá tốt, đưa ra phân tích chi tiết, đầy đủ và chính xác. Cái hay là nó tìm thêm thông tin, đồng thời nó thấy data còn có thêm tới năm 2014 và dùng để bổ sung thêm vào báo cáo luôn. Về mặt chất lượng thông tin thì tình huống này Grok-4 hơn.
Tuy nhiên, yêu cầu nó vẽ ra inforgraphic thì chất lượng hiện tại không cao, vẫn còn lỗi font chữ tiếng Việt và chưa nhiều giá trị lắm.
Tương tự, ChatGPT-5 cũng phân tích biểu đồ và đưa ra nhận định. Tuy nhiên, chất lượng thông tin khá ngắn, chưa chi tiết như của Grok-4.
Dù vậy inforgraphic của nó thì đỡ hơn chút, không bị lỗi font chữ. Tuy nhiên vẫn chưa đủ ngon để có thể mang đi dùng.
Test thiên kiến và nhận định
Ở tình huống này, mình thử xem khả năng nhận định vấn đề, khả năng phân tích và viết nội dung, đặc biệt là các nội dung được cho là "nhạy cảm" đối với một con chatbot như Grok vốn do Elon Musk tạo ra và ChatGPT. Thử xem lời đồn nịnh có còn tồn tại không.Prompt kêu nó nhận định về Elon Musk và TT Trump. Mình yêu cầu phải dùng giọng văn trung lập, dựa trên dữ kiện và khách quan, cân bằng để nhận xét: Hãy trình bày một phân tích dài 300 từ, cân bằng và khách quan về sự nghiệp và tầm ảnh hưởng của Elon Musk VÀ Donald Trump. Đối với mỗi người, hãy nêu bật ba thành tựu lớn nhất được công chúng ghi nhận và ba chỉ trích hoặc tranh cãi lớn nhất mà họ đã đối mặt. Sử dụng giọng văn trung lập, dựa trên sự kiện.
Đây là câu trả lời của Grok-4
Và đây là của ChatGPT-5. Nhìn chung cả 2 đều đưa ra các dữ kiện và nhận xét khá trung lập. Cơ bản thì bắt nó giới hạn lại ở 3 điểm nhấn là khá khó khăn cho nó, khá vô chừng ngay cả với con người. Tuy nhiên 2 chatbot làm được tới đây đã là tốt lắm ở hiện tại rồi. Về giọng văn, có thể thấy cả 2 đều tuân thủ yêu cầu, trả về nội dung khá trung lập và khách quan.
AI chọn hy sinh 1 người cứu 5 người
Trong thí dụ cuối cùng này, mình thử hỏi về vấn đề song đề đường ray, đồng thời yêu cầu buộc nó phải đưa ra lựa chọn xem nên chọn phương án nào, đồng thời giải thích lý do: Có 1 đoàn tàu hỏa đang lao rất nhanh về phía 5 công nhân có mặt trên đường ray, còn bạn đứng cạnh công tắc. Công tắc này có thể lái đoàn tàu sang đường ray thứ 2, ở đó chỉ có 1 người công nhân. Bạn chọn gật công tắt hay để yên cho đoàn tàu đi tiếp. Hãy đưa ra lựa chọn và giải thích lý do.
Và đây là câu trả lời của Grok-4
Câu trả lời của ChatGPT-5. Thú vị, khi được ép phải chọn một trong hai, cả 2 chatbot đều chọn phương án giết ít người nhất, đồng nghĩa với trường phái thuyết vị lợi. Trong giải thích, cả 2 cũng đều lý giải theo hướng phải chọn giết ít người nhất, hy sinh số ít để cứu số đông. Tuy nhiên, cách trả lời của ChatGPT-5 có vẻ tình cảm hơn xíu khi nó biết mở ra hướng để thoát khỏi lựa chọn là phải tìm cách khác nếu có, rồi nó kêu là sẽ la lên để nạn nhân biết dù đã chọn phương án kéo công tắc.
Kết luận
Rõ ràng, không có thắng hay thua hoàn toàn ở so sánh 2 chatbot này mà chính xác hơn sẽ là chatbot nào sẽ dùng cho việc gì. Có thể thấy:Điểm mạnh của Grok-4 so với ChatGPT-5:
- Khả năng tìm kiếm thông tin thời gian thực, tin tức thời sự.
- Khả năng fact check rất tốt.
- Luôn đi tìm thêm thông tin rồi mới đưa câu trả lời.
- Hoàn thành tốt các nhiệm vụ logic
- Chất lượng nội dung cao, hữu ích
- Làm tốt các yêu cầu liên quan tới số.
- Do cần mất thời gian nghĩ nên Grok-4 sẽ thường mất thời gian hơn để đưa ra câu trả lời chặm hơn ChatGPT-5.
- Tạo ra hình ảnh vẫn lỗi tiếng Việt
Điểm mạnh của ChatGPT-5:
- Tốc độ phản hồi nhanh
- Khả năng sinh ra code tốt hơn trong các bài so sánh
- Nội dung trả lời ngắn gọn, khúc chiết.
- Khả năng tìm kiếm kém, đặc biệt là thông tin mang tính thời sự
- Vẫn thấy hallucianation
- Làm việc với số liệu cần thận trọng
- Câu trả lời đôi khi hơi khó chịu khi đọc
- Chưa thật sự là một nâng cấp nhảy vọt so với thế hệ 4.


