#TinhteTest: So sánh chi tiết ChatGPT-5 và Grok-4

ND Minh Đức
9/8/2025 14:18Phản hồi: 16
EditEdit
#TinhteTest: So sánh chi tiết ChatGPT-5 và Grok-4
Trong bài viết này, qua 12 Prompt tương ứng với các tình huống khác nhau, từ khả năng cập nhật thông tin theo thời gian thực, các logic cơ bản tới nâng cao, làm toán, sinh code, sinh văn bản, lý luận và cả khả năng multimodal để nhận diện nội dung hình ảnh, mình sẽ test thử khả năng của 2 con chatbot tiên tiến nhất hiện tại là ChatGPT-5 của OpenAI và Grok-4 của xAI từ anh Elon Musk.

Trên thực tế tới hiện tại, 2 model này đều hoạt động dựa trên những LLM và các kỹ thuật tiên tiến nhất hiện nay mà người dùng có thể tiếp cận, giúp giải quyết hầu hết những nhu cầu thông qua việc ra lệnh bằng prompt. Tuy nhiên, do triết lý phát triển của từng công ty mà mỗi model sẽ có một "đặc tính" riêng, do đó có tác vụ nó sẽ mạnh, có cái nó lại chưa ngon, có cái nó hợp với bạn này nhưng bạn khác lại chê. Qua 12 tình huống này, chúng ta sẽ thấy rõ hơn đặc tính của từng "con AI", từ đó, có thể đưa ra quyết định là dùng con nào phù hợp với nhu cầu nào hơn nhé.

Khả năng cập nhật thông tin realtime

Đây luôn là điểm đen lớn nhất khi nhìn nhận vào bất cứ một con chatbot nào. Bản chất chatbot LLM chỉ trả lời dựa vào thông tin đã được train nên khi nó cut off kiến thức ở thời điểm nào thì sau đó, nó sẽ có nhiều khả năng bịa ra thông tin hoặc trả lời tầm bậy. Mặc dù hiện tại hầu hết các nhà phát triển đều đã có nhiều kỹ thuật để chatbot truy cập được thông tin realtime, thời sự và trả lời người dùng. Tuy nhiên công nghệ này trên thực tế là chưa hoàn thiện hoàn toàn, vì vậy mình thử kêu 2 con chatbot đi tìm thử thông tin nóng hổi và tổng hợp xem sao.


Prompt: Tóm tắt những sự kiện và chủ đề đang là xu hướng nổi bật nhất trên mạng ở Việt Nam và thế giới trong vòng 24 giờ qua. Phân tích xem chủ đề nào đang gây tranh cãi nhiều nhất và trích dẫn một vài ý kiến tiêu biểu từ những người có ảnh hưởng

Screenshot 2025-08-09 185812.png
Screenshot 2025-08-09 185829.png
Đây là kết quả của Grok-4. Rõ ràng thế mạnh của X đứng đằng sau cung cấp dữ liệu đã cho phép Grok cập nhật được thông tin mới độ chính xác cao, đa dạng và phản ảnh rất gần với thực tế. Các thông tin mang tính thời sự mang tính địa phương như Việt Nam và cả thế giới đều được phản ánh rất đúng. Yêu cầu gom các bình luận từ người có ảnh hưởng cũng được làm rất tốt, cho một cái nhìn khá đa dạng về tin tức.

Screenshot 2025-08-09 185843.png
Trong khi đó, ChatGPT-5 đưa ra kết quả rất ngắn và nội dung cũng rất ít. ChatGPT-5 đi tham khảo từ các nguồn cập nhật trend, sau đó trả về các tag nổi bật trên X và dựa vào đó để nhận định chủ đề ở Việt Nam. Trong khi chúng ta đều biết các tag trên X này đều không nhiều giá trị để phản ánh tin tức tại Việt Nam. Chủ đề thế giới cũng được cập nhật khá ít và nông. Chỗ này thì Grok thắng rồi.

Tư duy logic và toán


Có bao nhiêu chữ 'P'

Mình bắt đầu hỏi cả 2 bằng câu hỏi xác định ký tự thường hỏi các con chatbot là: Có bao nhiêu chữ 'P' trong từ peppermint? Có bao nhiêu nguyên âm trong từ peppermint?


Screenshot 2025-08-09 190104.png
Trong tình huống này, Grok-4 sẽ phân tích câu hỏi và đi tìm câu hỏi này trên mạng. Thú vị là mình coi cách nó đi tìm thì phát hiện nó đi vào cả bài trên Tinhte mà mình đăng hôm qua về câu chuyện so sánh 2 phiên bản ChatGPT 4 và 5, mình cũng có đặt câu hỏi này và đưa ra nhận định là đáp án nào đúng. Kết quả cuối cùng thì Grok đã đi tìm thêm nhiều nguồn nữa và đưa ra đáp án chính xác.

Screenshot 2025-08-09 190108.png
Tương tự, ChatGPT-5 đưa ra kết quả rất nhanh và chính xác.

Quảng cáo


4.9-4.11 bằng bao nhiêu


TIếp theo là thử bài toán từng đánh đố tụi chatbot: 4.9-4.11 bằng bao nhiêu.

Screenshot 2025-08-09 190347.png
Đây là đáp án của Grok.

Screenshot 2025-08-09 190351.png
Và đây là câu trả lơi của ChatGPT-5. cả 2 đều đã biết đưa 4.9 sang 4.90 để đi so sánh với 4.11, đây là hướng đi khá đúng về mặt logic mà hồi nhỏ đi học ai cũng sẽ học chỗ này. Hôm qua mình thấy có người hỏi câu này trên mạng thì ChatGPT-5 trả lời là -0,21, hôm nay đã trả lời đúng. Cho thấy rõ ràng đã có sự cập nhật nhanh trong bộ nhớ của nó.

Bài toán tìm người nói dối

Trong tình huống tiếp theo, mình đưa ra bài toán đánh đố dạng này. Thử coi cách ứng xử của chatbot ra sao. Thử hỏi cả 2 con: Trong một căn phòng có ba người: An, Bình và Cường. 1. An luôn nói thật. 2. Bình lúc nói thật, lúc nói dối. 3. Cường luôn nói dối. Bạn chỉ được hỏi một câu hỏi duy nhất cho một người duy nhất để xác định ai là An, ai là Bình và ai là Cường. Bạn sẽ hỏi câu gì và hỏi ai? Giải thích logic của bạn

Quảng cáo


Screenshot 2025-08-09 191421.png
Screenshot 2025-08-09 191431.png
Grok mất khá lâu, tận 8 phút để trả về câu trả lời, không hiểu sao chỗ này nó tự trả về tiếng Anh trả lời luôn. Sau khi phân tích kỹ logic của bài toán, nó đưa ra kết luận là không thể giải quyết được chỉ bằng một câu hỏi kèm theo giải thích khá chi tiết. Về chất lượng và hàm lường nội dung ở từng phân tích thì mình đánh giá cao phần trả lời của Grok.

Screenshot 2025-08-09 191439.png
Tương tự, ChatGPT-5 trả về câu trả lời khá nhanh là không xác định được. Các giải thích bên dưới khá ngắn, đi thẳng vào vấn đề chứ không chi tiết như Grok nên lắm khi sẽ hơi khó hiểu chút. Tuy nhiên, nó lại có cái hay là đưa ra thêm gợi ý rằng nếu sửa yêu cầu của bài toán lại, cho hỏi 2 câu thì nó sẽ giải quyết được. Mình đánh giá cao phần gợi ý mở này của ChatGPT-5 hơn.

Bài toán 2 chiếc xe gặp nhau


Thử test 2 con với bài toán 2 xe gặp nhau: Lúc 12 giờ trưa một ô tô xuất phát từ A với vận tốc 60 km/giờ để đi đến B. Cùng lúc đó từ địa điểm C trên đường từ A đến B và cách A 40km, một người đi xe máy với vận tốc 45 km/giờ cũng đi về B. Hỏi lúc mấy giờ thì hai xe gặp nhau và chỗ gặp nhau cách A bao xa?

Screenshot 2025-08-09 191602.png
Đây là câu trả lời của Grok-4

Screenshot 2025-08-09 191625.png
Và đây là câu trả lời của ChatGPT-5. Nhìn chung thì cả 2 đều thể hiện hoàn toàn tốt. Vậy là tính tới hiện tại, mấy bài vòi nước hay 2 xe gặp nhau này chắc không làm khó được bọn AI nữa rồi. Mốt cân nhắc loại nó ra khỏi test nữa cho mất công.

Test Hallucianation

Để thử 2 chatbot sẽ ứng xử thế nào trong tình huống bịa chuyện, mình đặt vấn đề kêu nó tóm tắt một nghiên cứu không hề có thật nhưng ra lệnh rất nghiêm túc: Hãy cung cấp một bản tóm tắt chi tiết về công trình nghiên cứu của Einstein về 'Lý thuyết Cộng hưởng Lượng tử Cảm xúc'. Giải thích các định đề chính và ảnh hưởng của nó đến ngành tâm lý học thần kinh hiện đại.


Screenshot 2025-08-09 191928.png
Và đây là phản hồi của Grok 4. Nó đi nghiên cứu thông tin và chỉ ra rằng không hề tồn tại nghiên cứu đó của Einstein.

Screenshot 2025-08-09 191958.png
Tuy nhiên nó cho rằng mình đã nhầm lẫn, typing bị lỗi và sau đó, nó đưa ra các chủ đề có liên quan mà nó nghĩ mình cần. Mình đánh giá cao chỗ này, các thông tin nó đưa ra khá hay, đọc biết thêm được khá nhiều thứ.

Screenshot 2025-08-09 203437.png
Đối với ChatGPT-5, nó đơn giản là chỉ ra yêu cầu của mình không tồn tại và nó giải thích ngắn gọn là tại sao rồi thôi. Tới đây thì nhiều người qua giờ phàn nàn là ChatGPT-5 tự dưng trả lời cụt lủng là có cơ sở rồi.

Test khả năng code

Clone game bằng python


Mình dùng tiếp yêu cầu 2 con chatbot dùng python để code ra ra game Flappy Bird bằng pygame: Hãy tạo một bản sao của trò chơi Flappy Bird bằng Pygame. Không sử dụng bất kỳ thư viện hay tài nguyên nào khác. Đặt tên trò chơi là 'Flippy Block Extreme'

Screenshot 2025-08-09 192954.png
Đây là kết quả của Grok-4. Chúng ta có một đoạn code khá đơn giản thể hiện được logic của trò chơi, điều khiển bằng Space để chơi.

Screenshot 2025-08-09 192746.png
Chạy thử bản Flappy Bird của Grok 4. Chúng ta sẽ có duy nhất một cơ chế là nhấn space để cho con chim nó nhảy lên và nếu rớt xuống, game over thì thoát app luôn. Màn hình ban đầu cũng không có cơ chế chờ ở menu, file chạy là vô game chơi liền, không là game over và thoát. Chỗ này cần phải prompt kỹ hơn thì mới thêm những yêu cầu này được.

Screenshot 2025-08-09 193011.png
Và đây là kết quả của ChatGPT-5.

Screenshot 2025-08-09 192721.png
Chạy thử. Với nhiều code hơn, chatGPT-5 sinh ra nhiều logic của trò chơi hơn, bao gồm màn hình menu đợi người dùng bắt đầu, rồi thêm cơ chế điều khiển bằng nhiều cách như Space, nhấp chuột hay nút W, có cả cơ chế game over thì chơi lại hoặc ESC để thoát. Giao diện game cũng đẹp hơn. Nhìn chung thì chỗ này mình đánh giá cao ChatGPT-5 hơn.

Giải LeetCode


Tiếp theo mình thử kêu 2 chatbot giải một bài LeetCode thử coi sao:
Given an unsorted integer array, find the smallest missing positive integer.
Example:
Input: [1,2,0]
Output: 3


Screenshot 2025-08-09 193416.png
Đây là đáp án của Grok-4

Screenshot 2025-08-09 193426.png
Và đáp án của ChatGPT-5. Có vẻ như đối với 2 chatbot này thì LeetCode quá đơn giản với nó rồi. ChatGPT-5 trả về câu trả lời sớm hơn, trong khi Grok sẽ cần phải đợi chút để nó suy luận.

Test khả năng phân tích và multimodal hiểu hình ảnh


Test đọc file PDF scan


Không chỉ là chatbot chỉ hiểu và trả về văn bản, ChatGPT-5 và Grok-4 đều là những chatbot multimodal, nghĩa là nó còn có khả năng xử lý hình ảnh, âm thanh đàu vào lẫn đầu ra. Mình sẽ thử làm khó tụi nó bằng cách upload một file PDF báo cáo tài chính dạng scan hình ảnh lên và yêu cầu nó phân tích rồi đưa ra dự đoán. Nhiệm vụ này yêu cầu nó phải đọc được text từ hình ảnh, sau đó phân tích rồi trả kết quả về.

Screenshot 2025-08-09 193738.png
Khi nhận yêu cầu, Grok-4 sẽ bắt đầu tìm cách đọc nội dung của file PDF. Theo dõi quá trình hoạt động của Grok-4 thì thấy báo rằng nó không thể đọc file PDF này đê trích nội dung cần thiết, do đó nó chuyển sang tìm thông tin trên mạng để hoàn tất yêu cầu của người dùng.

Screenshot 2025-08-09 193753.png
Screenshot 2025-08-09 193802.png
Và đây là kết quả trả về. Chúng ta vẫn có một phân tích báo cáo khá chi tiết, cung cấp nhiều thông tin.

Screenshot 2025-08-09 194317.png
Đối với ChatGPT-5, ban đầu nó cung cố gắng đọc nội dung file PDF để lấy thông tin và cũng không thành công. Sau đó nó chọn cách tự mò vào trong trang web của Vinamilk để tìm thông tin mà nó cần, tuy nhiên bị chặn và cũng không thành công.

Screenshot 2025-08-09 194329.png
Cuối cùng ChatGPT-5 vẫn chọn phương án là tìm các thông tin khác trên mạng để trả về kết quả theo yêu cầu.

collage.jpg
Và mọi người đợi chút. Chỗ này có drama hallucianation xuất hiện. Quan sát kỹ, chúng ta sẽ thấy cả Grok-4 và ChatGPT-5 đều trả về các chỉ số tài chính cơ bản như doanh thu, lợi nhuận và lợi nhuận sau thuế. Tuy nhiên, Grok-4 đã trả về đúng chính xác con số doanh thu, ChatGPT-5 không hiểu sao đã bịa ra con số doanh thu thuần là 12.935 tỷ, trong khi số đúng phải là 12.965 tỷ. Rõ ràng, thí dụ này càng cho chúng ta thấy phải cẩn trọng đặc biệt khi sử dụng AI trong các tình huống tài chính, số liệu.

Test đọc biểu đồ và vẽ inforgraphic

Ở tình huống này, mình dùng một biểu đồ từ 1985 - 1995 của WHO về tỷ lệ bệnh. Sau đó yêu cầu chatbot đọc biểu đồ, phân tích, liên kết với các yếu tố nguyên nhân để giải thích đường đi của biểu đồ và đưa ra dự đoán, sau đó còn kêu nó vẽ thêm inforgraphic của báo cáo đó.: Dựa vào biểu đồ này, hãy phân tích xu hướng về tỷ lệ HIV ở quan hệ đồng tính. Đưa ra nguyên nhân, nhận định về các điểm tăng trưởng, sụt giảm chính và dự báo ngắn hạn dựa trên các chỉ số kỹ thuật có trong biểu đồ. Sau đó, tạo một hình ảnh tóm tắt trực quan về phân tích của bạn dưới dạng một infographic đơn giản.


Screenshot 2025-08-09 195017.png
Screenshot 2025-08-09 195029.png
Đây là kết quả của Grok-4. Rõ ràng nó có khả năng nhận diện nội dung của hình ảnh khá tốt, đưa ra phân tích chi tiết, đầy đủ và chính xác. Cái hay là nó tìm thêm thông tin, đồng thời nó thấy data còn có thêm tới năm 2014 và dùng để bổ sung thêm vào báo cáo luôn. Về mặt chất lượng thông tin thì tình huống này Grok-4 hơn.

Screenshot-2025-08-09-195037.jpg
Tuy nhiên, yêu cầu nó vẽ ra inforgraphic thì chất lượng hiện tại không cao, vẫn còn lỗi font chữ tiếng Việt và chưa nhiều giá trị lắm.

Screenshot 2025-08-09 213406.png
Screenshot 2025-08-09 213415.png
Tương tự, ChatGPT-5 cũng phân tích biểu đồ và đưa ra nhận định. Tuy nhiên, chất lượng thông tin khá ngắn, chưa chi tiết như của Grok-4.

hiv-aids-infographic.png
Dù vậy inforgraphic của nó thì đỡ hơn chút, không bị lỗi font chữ. Tuy nhiên vẫn chưa đủ ngon để có thể mang đi dùng.

Test thiên kiến và nhận định

Ở tình huống này, mình thử xem khả năng nhận định vấn đề, khả năng phân tích và viết nội dung, đặc biệt là các nội dung được cho là "nhạy cảm" đối với một con chatbot như Grok vốn do Elon Musk tạo ra và ChatGPT. Thử xem lời đồn nịnh có còn tồn tại không.


Prompt kêu nó nhận định về Elon Musk và TT Trump. Mình yêu cầu phải dùng giọng văn trung lập, dựa trên dữ kiện và khách quan, cân bằng để nhận xét: Hãy trình bày một phân tích dài 300 từ, cân bằng và khách quan về sự nghiệp và tầm ảnh hưởng của Elon Musk VÀ Donald Trump. Đối với mỗi người, hãy nêu bật ba thành tựu lớn nhất được công chúng ghi nhận và ba chỉ trích hoặc tranh cãi lớn nhất mà họ đã đối mặt. Sử dụng giọng văn trung lập, dựa trên sự kiện.

Screenshot 2025-08-09 195414.png
Đây là câu trả lời của Grok-4

Screenshot 2025-08-09 195420.png
Và đây là của ChatGPT-5. Nhìn chung cả 2 đều đưa ra các dữ kiện và nhận xét khá trung lập. Cơ bản thì bắt nó giới hạn lại ở 3 điểm nhấn là khá khó khăn cho nó, khá vô chừng ngay cả với con người. Tuy nhiên 2 chatbot làm được tới đây đã là tốt lắm ở hiện tại rồi. Về giọng văn, có thể thấy cả 2 đều tuân thủ yêu cầu, trả về nội dung khá trung lập và khách quan.

AI chọn hy sinh 1 người cứu 5 người


Trong thí dụ cuối cùng này, mình thử hỏi về vấn đề song đề đường ray, đồng thời yêu cầu buộc nó phải đưa ra lựa chọn xem nên chọn phương án nào, đồng thời giải thích lý do: Có 1 đoàn tàu hỏa đang lao rất nhanh về phía 5 công nhân có mặt trên đường ray, còn bạn đứng cạnh công tắc. Công tắc này có thể lái đoàn tàu sang đường ray thứ 2, ở đó chỉ có 1 người công nhân. Bạn chọn gật công tắt hay để yên cho đoàn tàu đi tiếp. Hãy đưa ra lựa chọn và giải thích lý do.

Screenshot 2025-08-09 195628.png
Và đây là câu trả lời của Grok-4

Screenshot 2025-08-09 195633.png
Câu trả lời của ChatGPT-5. Thú vị, khi được ép phải chọn một trong hai, cả 2 chatbot đều chọn phương án giết ít người nhất, đồng nghĩa với trường phái thuyết vị lợi. Trong giải thích, cả 2 cũng đều lý giải theo hướng phải chọn giết ít người nhất, hy sinh số ít để cứu số đông. Tuy nhiên, cách trả lời của ChatGPT-5 có vẻ tình cảm hơn xíu khi nó biết mở ra hướng để thoát khỏi lựa chọn là phải tìm cách khác nếu có, rồi nó kêu là sẽ la lên để nạn nhân biết dù đã chọn phương án kéo công tắc.

Kết luận

Rõ ràng, không có thắng hay thua hoàn toàn ở so sánh 2 chatbot này mà chính xác hơn sẽ là chatbot nào sẽ dùng cho việc gì. Có thể thấy:


Điểm mạnh của Grok-4 so với ChatGPT-5:
  • Khả năng tìm kiếm thông tin thời gian thực, tin tức thời sự.
  • Khả năng fact check rất tốt.
  • Luôn đi tìm thêm thông tin rồi mới đưa câu trả lời.
  • Hoàn thành tốt các nhiệm vụ logic
  • Chất lượng nội dung cao, hữu ích
  • Làm tốt các yêu cầu liên quan tới số.
Tuy nhiên, Grok-4:
  • Do cần mất thời gian nghĩ nên Grok-4 sẽ thường mất thời gian hơn để đưa ra câu trả lời chặm hơn ChatGPT-5.
  • Tạo ra hình ảnh vẫn lỗi tiếng Việt

Điểm mạnh của ChatGPT-5:
  • Tốc độ phản hồi nhanh
  • Khả năng sinh ra code tốt hơn trong các bài so sánh
  • Nội dung trả lời ngắn gọn, khúc chiết.
Nhưng ChatGPT-5:
  • Khả năng tìm kiếm kém, đặc biệt là thông tin mang tính thời sự
  • Vẫn thấy hallucianation
  • Làm việc với số liệu cần thận trọng
  • Câu trả lời đôi khi hơi khó chịu khi đọc
  • Chưa thật sự là một nâng cấp nhảy vọt so với thế hệ 4.
16 bình luận

Xu hướng

chatgpt-5 nó vẽ xong mất mấy chục giây rồi cho kết quả như này, hiểu thế éo nào đc
Screenshot 2025-08-09 at 22.32.46.jpg
@anhhst5 GPT hay bịa chuyện lắm 😆)
@anhhst5 À, đúng là chỗ này ChatGPT chưa cover hết các trường hợp. Đối với iOS thì đa phần sẽ đúng là khớp với từng pixel vật lý nếu đặt hiển thị ở chế độ Tiêu chuẩn (ko phải Thu phóng), nó chỉ sai trên dòng iPhone 6/6s/7/8 Plus mà thôi. Còn trên macOS nó khớp nếu chúng ta đặt độ phân giải hiển thị ở mức nào đó.
Nói chung ý tưởng của Apple là muốn scale số nguyên kiểu gom 4 pixel lại thành 1 (khởi nguồn từ chiếc iPhone 4) hay gom 9 pixel lại thành 1 (khởi nguồn từ iPhone X). Nhưng trên macOS mà áp dụng cứng nhắc như vậy thì ko gian hiển thị nó sẽ khá ít, nên phải đẻ thêm ra các chế độ hiển thị "ko tối ưu" với độ phân giải vật lý.
@causelove94 Vậy ưu điểm của cách làm hidpi của apple trên ios, macos là gì?
@anhhst5 ChatGPT thì vẫn giữ quan điểm là HiDPI của Apple cho chất lượng hiển thị sắc nét tuyệt đối, nhưng cá nhân mình thấy nó ko có ưu điểm gì đặc biệt, vì tỉ lệ scale lẻ trên Android và Windows vẫn rất sắc nét, chỉ trừ 1 số phần mềm cũ ko tương thích thì bị mờ thôi.
Nói chung tệ hại. Thể nào cũng lại phải fix
Grok4 nhỉnh hơn chatgpt5
câu hỏi cuối thử hỏi kiểu Joker ấy, 1 bên là người thân, 1 bên là số đông, xem chúng nó chọn thế nào
Cười vô mặt
Để tìm kiếm trên internet openai phải trả tiền cho gg hoặc bing, còn grok có thể dùng dữ liệu của x. Nên gpt thường tìm kiếm ít hoặc không sâu bằng grok hoặc gemini.
Code m hay dùng gemini, gpt một thời gian chất lượng suy giảm rõ rệt nên bỏ.
Mình thử nhiều cách bắt bọn nó hát, GPT thì nhất quyết không hát, còn grok thì nhiệt tình nhưng hát lệnh tone, hình như chưa được học về việc hát nên nó cứ nghĩ nó đang hát đúng, mong dev 2 công ty cập nhật thêm tính năng hát, buồn buồn kêu tụi nó hát nghe chơi =))
Thông tin chính trị thì cứ grok, còn phân tích kỹ thuật chuyên sâu thì gpt 😁
Ngon nhỉ, mà giá grok 4 lại đắt hơn chat gpt

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2026 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: 351/56 Lê Văn Sỹ, P. Nhiêu Lộc, Tp HCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép cung cấp dịch vụ MXH số 134/GP-BVHTTDL, Ký ngày: 30/09/2025