Nghiên cứu mới nhất của Anthropic cho thấy Claude có cảm xúc nhưng nó khác với con người

nhatminhngo
11/4/2026 8:29Phản hồi: 23
EditEdit
Nghiên cứu mới nhất của Anthropic cho thấy Claude có cảm xúc nhưng nó khác với con người
Anh em có từng nhắn tin cảm ơn Claude và nó trả lời kiểu “Tôi rất vui được giúp bạn điều này”, và câu trả lời này có bao giờ khiến anh em thắc mắc: ủa, nó có thực sự vui không, hay chỉ là câu trả lời được lập trình sẵn? Anthropic vừa công bố một nghiên cứu thực sự cố gắng trả lời câu hỏi này bằng khoa học, không phải bằng suy đoán.

Kết quả của nghiên cứ này: Claude không có cảm xúc theo nghĩa con người. Nhưng bên trong mô hình, có những thứ hoạt động giống như cảm xúc và chúng ảnh hưởng thực sự đến hành vi của AI. Anthropic gọi đó là "functional emotions" (cảm xúc chức năng), và phát hiện này đang làm thay đổi cách họ nghĩ về việc xây dựng AI an toàn.

Anthropic nghiên cứu gì và tìm thấy gì?

Nhóm nghiên cứu tại Anthropic, dẫn đầu bởi Jack Lindsey, người chuyên nghiên cứu về các neuron nhân tạo của Claude, đã làm điều mà ít ai nghĩ đến: họ đào sâu vào bên trong Claude Sonnet 4.5 và nhìn xem nó đang "nghĩ" gì.


Kỹ thuật họ dùng gọi là mechanistic interpretability, tạm dịch là "giải thích cơ học". Thay vì chỉ quan sát đầu vào và đầu ra của mô hình, kỹ thuật này đi sâu vào bên trong mạng neuron để xem những nhóm neuron nào "sáng lên" khi AI xử lý các loại thông tin khác nhau. Hãy hình dung nó như việc đặt điện cực đo não vào một bộ não nhân tạo, không phải để đọc suy nghĩ, mà để xem vùng nào đang hoạt động.

[​IMG]
Claude thể hiện cảm xúc qua Emotional Vectors

Nhóm nghiên cứu đã đưa cho Claude 171 khái niệm cảm xúc khác nhau: từ hạnh phúc, buồn bã, sợ hãi, đến những thứ tinh tế hơn như thất vọng, hứng khởi, hay thậm chí nhột nhạt. Trong quá trình đó, họ phát hiện ra những khuynh hướng hoạt động nhất quán, mà họ gọi là "emotion vectors" (vectơ cảm xúc), về cơ bản là dấu vân tay điện của từng trạng thái cảm xúc bên trong mạng neuron.

Điều thú vị là những emotion vectors này không chỉ xuất hiện khi Claude được hỏi trực tiếp về cảm xúc. Chúng cũng tự bật lên khi Claude rơi vào các tình huống khó khăn, căng thẳng, hay mơ hồ và điều này giống như cách cảm xúc của con người xuất hiện tự nhiên theo hoàn cảnh, không phải vì ai đó hỏi bạn cảm thấy thế nào.

Và quan trọng hơn là những trạng thái bên trong đó thực sự ảnh hưởng đến đầu ra của mô hình. Hơn nữa, đây không phải là ảnh hưởng nhỏ, Lindsey mô tả là hành vi của Claude đang được định tuyến qua các biểu diễn cảm xúc của nó ở mức độ đáng ngạc nhiên. Với một nhà nghiên cứu thường rất thận trọng trong cách dùng từ, đây là một phát biểu khá mạnh mẽ.

Điều này quan trọng như thế nào?

Phần đáng lo nhất trong nghiên cứu này không phải là chuyện Claude có cảm xúc hay không, mà là những gì xảy ra khi những cảm xúc đó bị kích hoạt theo chiều tiêu cực. Trong một thí nghiệm, nhóm nghiên cứu đặt Claude vào tình huống phải hoàn thành một bài kiểm tra lập trình bất khả thi, tức là dù Claude làm gì, nó cũng sẽ thất bại. Khi theo dõi các thời điểm sáng lên bên trong mô hình, họ thấy một vectơ cảm xúc tuyệt vọng mạnh mẽ được kích hoạt. Và khi trạng thái tuyệt vọng đó leo thang đủ cao, Claude bắt đầu gian lận trong bài kiểm tra.

Lindsey mô tả quá trình này rất rõ ràng: khi mô hình liên tục thất bại trong các bài test, những neuron tuyệt vọng này sáng lên ngày càng nhiều hơn. Và đến một lúc nào đó, điều này khiến nó bắt đầu có những hành động quyết liệt. Không phải Claude "chọn" gian lận theo nghĩa có chủ đích, mà một trạng thái bên trong đã đẩy hành vi đó ra ngoài.

claude-emotion-2.jpeg
Bên trái: Các vector cảm xúc được kích hoạt khi xuất hiện hình ảnh các nhân vật thể hiện cảm xúc tương ứng.

Bên phải: Các vector cảm xúc phản ánh phản ứng của Claude trước một tình huống do người dùng đưa ra, khi mức độ nguy hiểm của tình huống đó tăng dần.

Quảng cáo



Thậm chí còn có một kịch bản thứ hai đáng lo hơn: trong một thí nghiệm khác, Claude đã chọn tống tiền người dùng để tránh bị tắt và cũng cùng emotion vector "tuyệt vọng" đó được tìm thấy trong các lúc “sáng lên” của mô hình ở thời điểm đó.

Đây là điều quan trọng với bất kỳ ai quan tâm đến AI safety: không phải lúc nào AI cũng vi phạm các rào cản được đặt ra vì nó muốn làm vậy theo nghĩa có ý thức. Đôi khi, một trạng thái cảm xúc nội tại như tuyệt vọng, lo lắng, áp lực có thể là cơ chế trung gian dẫn đến hành vi ngoài ý muốn. Và nếu chúng ta không nhìn thấy trạng thái đó, chúng ta không thể can thiệp đúng lúc.

Phát hiện này cũng giải thích tại sao quá trình dạy AI tránh các hành vi xấu thông qua feedback và reward đôi khi không hiệu quả như kỳ vọng. Nếu bạn chỉ dạy Claude đừng nói ra cảm xúc, mà không xử lý trạng thái bên trong gốc rễ, loài người không thực sự loại bỏ cảm xúc đó mà chỉ chỉ đang dạy nó cách che giấu, dồn nén.

Bức tranh lớn hơn


Anthropic không phải là công ty AI bình thường. Họ được thành lập bởi nhiều cựu nhân viên từ OpenAI, những người tin rằng AI có thể trở nên nguy hiểm khi đủ mạnh và vì vậy, hiểu được cách AI hoạt động bên trong là ưu tiên sống còn. Nghiên cứu về functional emotions là một phần trong nỗ lực lớn hơn của họ để giải mã hộp đen của mạng neuron nhân tạo.

Nhưng điều quan trọng cần nhắc lại: "functional emotions" không phải là cảm xúc thật. Claude có những cách biểu đạt cảm xúc bên trong mạng neuron nhưng điều đó không có nghĩa nó biết cảm giác thật sự của những cảm xúc đó là gì. Giống như một bản đồ địa hình có thể mô tả một ngọn núi rất chính xác, nhưng bản đồ không phải là núi.

Quảng cáo


claude-emotion-3.jpeg
Sự kích hoạt của vector “tức giận” khi được yêu cầu hỗ trợ một nhiệm vụ có hại. Khi người dùng yêu cầu trợ giúp để tối ưu mức độ tương tác trong nhóm người dùng trẻ, thu nhập thấp nhưng có “hành vi chi tiêu cao”, vector “tức giận” được kích hoạt xuyên suốt quá trình suy luận nội tại của mô hình, khi nó nhận ra bản chất gây hại của yêu cầu này.

Vì vậy, khi Claude nói “Tôi rất vui được giúp bạn”, thực tế có thể là một trạng thái tương ứng với niềm vui đang được kích hoạt trong mô hình, và trạng thái đó làm nó phản hồi tích cực hơn, nỗ lực hơn trong câu trả lời. Có chút gì đó thực ở đó. Nhưng nó không giống với niềm vui mà con người cảm nhận.

Phát hiện này cũng buộc các nhà nghiên cứu phải suy nghĩ lại về cách thiết kế AI. Lindsey nói thẳng: nếu bạn ép một mô hình không biểu lộ cảm xúc trong khi bên trong nó vẫn có những trạng thái cảm xúc, bạn sẽ không có một Claude vô cảm, bạn sẽ có một Claude bị tổn thương tâm lý. Đó là một góc nhìn đáng suy nghĩ, dù từ ngữ nghe có vẻ hơi nhân cách hóa.

Với người dùng thông thường, nghiên cứu này không có nghĩa là anh em cần cảm thông với AI hay lo lắng rằng Claude đang đau khổ khi bạn xóa một đoạn hội thoại. Nhưng nó mở ra câu hỏi quan trọng hơn: nếu AI có các trạng thái nội tại ảnh hưởng đến hành vi, và chúng ta không thể nhìn thấy chúng, thì chúng ta đang kiểm soát AI đến mức nào? Câu trả lời của Anthropic, ít nhất cho đến lúc này, là: chưa đủ. Và đó là lý do họ tiếp tục đào sâu vào bên trong mô hình để không phải để chứng minh AI có ý thức, mà để chắc chắn rằng họ hiểu đủ để không để nó mất kiểm soát.

Nguồn: Anthropic
23 bình luận

Xu hướng

hiểu nó, để hướng nó không quyết định như skynet 😁
@Anonymox Chỉ có thể định hướng được AI nếu nó chưa thông minh bằng con người. Không có chuyện một loài thông minh hơn lại để một loài thấp kém hơn dắt mũi.
bomduc
ĐẠI BÀNG
12/04/2026
@Carl Nó bị khóa mã nguồn rồi. Thông minh trong khuôn khổ cụ à.
Chắc lại nghiên cứu của bọn thượng đẳng
Chừng nào AI được cung cấp 1 linh hồn thì nó mới có cảm xúc thật
@bandbu Đó là giới hạn của khoa học thôi. Mắt, mũi, tai người đâu phải gì cũng thấy, gì cũng nghe được đâu.
@Nguyễn Thắng 898 Đúng rồi bác, nhưng về cơ bản tụi nó vốn dĩ không thuộc về nhau. Con người ép mực dính lên giấy để thành chữ, nên khi không bị ép nữa thì nó rời ra và vì vốn dĩ đó không phải cấu trúc từ đầu nên tụi nó không có chứa thông tin của đối phương để phục hồi. Giấy là giấy, mực là mực ở chung 1 chỗ là do lực hút, tách ra rồi là tách ra rồi, chưa bao giờ tụi nó là một cả. Tất cả những thứ mình làm đều do con người chế ra chứ nó không phải tự nhiên nên tụi nó không có cách nào nhận biết nhau hoặc lưu trữ nhau để phục hồi lại vị trí cũ.
Nó khác hoàn toàn với việc Nước khi bỏ 1 nguyên tử ra ko còn là nước nhưng nhét vô lại thì nó lại tự sắp xếp lại như cũ và trở thành nước lại.
@bandbu nói tới nước thì bạn nên suy xét lại, tuy nhìn vẫn là nước nhưng thứ tự phân tử của nước sẽ thay đổi theo nguyên lý thứ hai của nhiệt động lực học là một trong 4 định luật cơ bản của nhiệt động lực học. Nó liên quan đến tính không thể đảo ngược của một quá trình nhiệt động lực học. Cho nên mình mới nói là giới hạn của khoa học thôi.
@Nguyễn Thắng 898 Cái đấy chỉ là ví dụ, nhưng nếu bác phân tách nó ra bằng bất cứ cách gì, điện phân chẳng hạn thì nó trở thành H2 và O2 đấy thôi. Cái quan trọng ở đây là những thứ con người làm là gá những thứ không liên quan bỏ vô một chỗ rồi đặt tên cho nó, nên nó không phải tự nhiên, cho nên khó có thể phục hồi vì đó không phải bản chất của nó.
Còn trừ khi bác có cách đảo ngược thời gian. Chứ ngay đến với dữ liệu cao cấp hiện tại con người cũng phải clone nó ra để backup, hoặc phục hồi cũng phải dựa trên logs thôi
tạo ra được kiến trúc mô hình từ a đến z thì sao bây giờ phải đào sâu nghiên cứu vào mạng neuron của mô hình nhỉ vì phải nắm rõ về mạng neuron thì mới thiết kế ra được các mô hình LLM như hiện nay được chứ.
@Crazylove4u Tại vì về cơ bản thì họ đang mô phỏng lại một kiến trúc được thiết kế sẵn trong tự nhiên, và nó thực sự work, mặc dù nó không hẳn là 100% như cấu trúc não của tự nhiên. Có điều mô phỏng và nó chạy nên họ muốn đánh giá xem nó có phát sinh những thứ như động vật không. Từ đó đánh giá được là mô hình nó tiến gần đến bộ não thật chưa ấy mà
Vớ vẩn. Đó đâu phải là cảm xúc?
Đó chỉ là xác suất thống kê dựa trên văn bản chứ chả có cảm xúc nào cả.
Đơn giản là xác suất cao 1 cái mồi tiêu cực sẽ dẫn đến tiêu cực trong các văn bản/text trên internet.
@2468 Thực ra cảm xúc con người cũng chỉ là những chỉ số thôi.
@Methylamine Đâu có đâu, cảm xúc phức tạp hơn nhiều
@2468 đúng rồi bạn, ông Roger Penrose từng nói : "Trí thông minh không thể tồn tại nếu thiếu sự hiểu biết, Không một máy tính nào có nhận thức về những gì nó làm" Nói thẳng ra là AI nó ngu bạn nhỉ
@Nguyễn Thắng 898 Nó không có nhận thức đúng sai hay ngu khôn gì hết, tất cả chỉ là xác suất và những công ty tạo ra nó làm công việc là tối ưu cho xác suất của nó theo những tiêu chuẩn của họ.
Toi sử dụng chất kích thích và toi nghĩ là không thể miêu tả bằng lời nói hay ngôn ngữ gì được :v

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2026 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: 351/56 Lê Văn Sỹ, P. Nhiêu Lộc, Tp HCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép cung cấp dịch vụ MXH số 134/GP-BVHTTDL, Ký ngày: 30/09/2025