Nghiên cứu của kỹ sư Apple: AI không thể tư duy toán học vì không hiểu bản chất, dễ xao nhãng

P.W
15/10/2024 10:54Phản hồi: 61
Nghiên cứu của kỹ sư Apple: AI không thể tư duy toán học vì không hiểu bản chất, dễ xao nhãng
Lý do nhắc đến khả năng này, và nghiên cứu về nó cũng dễ hiểu. Trong thời gian qua, khả năng lý luận và tư duy của những hệ thống machine learning, mô hình ngôn ngữ hay chatbot AI đã trở thành thứ được nhiều tập đoàn, từ OpenAI cho tới Google quảng cáo rất mạnh, để từ đó khắc họa tiềm năng trở thành một trợ lý ảo thông minh phục vụ cho nhu cầu sử dụng hàng ngày của hàng tỷ người trên thế giới, thông qua mọi thiết bị từ smartphone cho đến laptop, rồi sau này là cả kính thông minh…

Nhưng, vừa rồi đã có 6 kỹ sư của Apple thực hiện một công trình nghiên cứu, xác định khả năng tư duy lý lẽ toán học và logic của một vài LLM phổ biến hiện tại. Kết quả nghiên cứu cho thấy, khả năng đang được quảng cáo rất mạnh từ các tập đoàn công nghệ và startup AI, xét trên ví dụ một số LLM phổ biến hiện giờ thực tế tương đối kém, và không đáng tin cậy.

math-1.jpg

Tình trạng này được mô tả thông qua kết quả thử nghiệm mới, không khác biệt nhiều, thậm chí là ủng hộ những kết quả thử nghiệm trước đây của các nhà nghiên cứu khác. Những nghiên cứu này đều chỉ ra cùng một điểm: Cách vận hành tạo sinh nội dung bằng xác suất của các LLM không thể giúp mô hình AI hiểu được những ý tưởng toán học cơ bản, những thứ cần thiết để máy móc có khả năng tư duy lý luận toán học một cách đáng tin cậy.

Nói theo cách của các kỹ sư Apple thì là như thế này: “Những LLM hiện tại không có khả năng lý luận logic thực sự. Thay vào đó, chúng chỉ bắt chước những bước tư duy đã học được thông qua dữ liệu huấn luyện.”


Đổi đề bài


Để đi đến được kết luận như thế này, 6 nhà nghiên cứu của Apple sử dụng gói dữ liệu bài kiểm tra với 8000 câu hỏi toán học cấp trung học, gọi là GSM8K. Gói bài kiểm tra này là một trong số những công cụ benchmark tiêu chuẩn để đánh giá khả năng tính toán của những LLM hiện đại. Nhưng thay vì cứ để những mô hình ngôn ngữ phổ biến giải quyết những bài toán trong gói GSM8K, các nhà nghiên cứu sử dụng một giải pháp mới, thay đổi một phần dữ kiện các bài toán.

Chẳng hạn như câu hỏi “Sophie có 31 viên gạch đưa cho em” thì đổi thành “Bill có 19 viên gạch đưa cho anh”. Thay đổi những dữ kiện nhỏ này giải quyết được hai vấn đề. Thứ nhất là dữ liệu không bị can thiệp, và bản chất độ khó của bài toán cũng không bị ảnh hưởng, nghĩa là đáng lẽ ra các LLM vẫn sẽ phải giải quyết những bài toán ấy một cách dễ dàng.

Thế nhưng sau khi thay đổi dữ kiện các câu hỏi toán học, các nhà nghiên cứu phát hiện ra rằng, trong số 20 LLM được coi là phổ biến và mạnh nhất hiện tại, từ những giải pháp chạy local cho tới cả giải pháp chạy trên máy chủ như GPT-4o, tỷ lệ đưa ra lời giải chính xác của mỗi LLM sau khi chúng phải tư duy logic giải toán giảm từ 0.3% đối với GPT-4o, có lúc lên tới 9.2% đối với Mistral 7B.

[​IMG]

Khác biệt về tỷ lệ đưa ra câu trả lời đúng của từng LLM đối với gói câu hỏi GSM8K cũng khác biệt trong 50 lượt chạy benchmark GSM-Symbolic, khi mỗi lần, các nhà khoa học lại thay đổi dữ kiện trong từng bài toán một cách thủ công và cẩn trọng. Một LLM có thể tạo ra kết quả benchmark tính toán đúng sai chênh lệch tới 15% giữa kết quả tốt nhất và tệ nhất.

Điều mà các nhà nghiên cứu của Apple phát hiện ra, đấy là càng đổi dữ kiện số trong các bài toán của các em học sinh trung học, thì LLM lại càng dễ có nguy cơ làm toán sai.

Chênh lệch như thế này, giữa cả những lần chạy benchmark GSM-Symbolic lẫn kết quả tính toán những bài toán trong gói GSM8K cũng dễ khiến mọi người bất ngờ. Các nhà nghiên cứu chỉ ra rằng, số bước nội suy mô phỏng tư duy toán học LLM cần thực hiện để giải quyết một bàn toán vẫn giữ nguyên.

Quảng cáo


Nhưng kết quả tính toán có sai lệch, lúc đúng lúc sai, tỷ lệ làm toán đúng không đồng đều của LLM cho thấy, những mô hình ngôn ngữ này không thực hiện tính toán tư duy một cách thật sự, mà thay vào đó “chỉ cố gắng chạy mô hình phân phối một cách phù hợp, căn chỉnh những câu hỏi và các bước giải quyết bài toán tương tự như trên những dữ liệu huấn luyện ban đầu của chúng.”

LLM dễ bị xao nhãng vì dữ liệu không liên quan


Để công bằng với những LLM mạnh nhất thế giới hiện nay, chênh lệch tỷ lệ làm toán một cách chính xác giữa những lần thử nghiệm benchmark làm toán là quá thấp. Lấy ví dụ tốt nhất trong số những mô hình mà các nhà nghiên cứu thử nghiệm là GPT-4o, tỷ lệ chỉ giảm từ 95.2% xuống 94.9%. Đấy vẫn là tỷ lệ tư duy toán học đúng rất cao, bất chấp việc “tư duy toán học” này không dựa trên nguyên lý mà chỉ dựa trên những ví dụ nó đã được học.

Và khi các nhà nghiên cứu thêm vài bước tính toán yêu cầu LLM tư duy, đương nhiên tỷ lệ trả lời đúng của LLM cũng giảm một cách đột ngột.

Còn trong khi đó, những LLM vận hành local thì có kết quả tệ hơn khá nhiều khi bước thứ 2 của thử nghiệm được triển khai. Ở bước này, các nhà nghiên cứu phát hiện ra một điều như thế này, có thể liên quan tới cách chúng ta viết prompt để yêu cầu AI trả lời. Khi thêm những câu tuyên bố tưởng chừng có liên quan tới dữ kiện bài toán những thực tế không có giá trị gì, mọi thứ trở nên tệ hơn nhiều đối với những LLM. Lấy ví dụ benchmark GSM-NoOp, một câu hỏi về số trái cây được hái trong nhiều ngày (đơn giản là tính nhân và tính cộng) đã được thêm một đoạn theo kiểu “5 trái trong số đó nhỏ hơn mức trung bình.”

gsm-study2.png

Số 5 vô giá trị trong bài toán kia bỗng nhiên khiến những LLM không thể trả lời đúng những bài toán ấy. Có thể coi đây là “cá trích đỏ” khiến LLM bị phân tâm và xao nhãng. Hệ quả là tỷ lệ trả lời đúng những bài toán của các LLM được thử nghiệm giảm từ 17.5% lên tới… 65.7%. Chính kết quả này càng củng cố cho nhận định rằng, LLM không thể tư duy mà chỉ dự đoán “pattern matching” sau quá trình huấn luyện, rồi sau đó là “chuyển đổi lời nói thành tác vụ mà chẳng hiểu ý nghĩa của chúng.”

Quảng cáo



Lấy ví dụ, vẫn là bài toán hái trái cây ở trên, hầu hết mọi mô hình đều cố trừ con số “5 trái kiwi nhỏ hơn” khỏi tổng số. Các nhà nghiên cứu cho rằng, lý do là “bộ dữ liệu huấn luyện mô hình bao gồm những ví dụ tương tự, phải chuyển đổi câu nói thành phép tính trừ.”

“Hiểu toán”


Kết quả nghiên cứu này thực tế không phải thứ quá mới mẻ và gây chấn động ngành nghiên cứu AI toàn cầu. Trước đó đã từng có những nghiên cứu nói rằng LLM thực sự không làm những bước tư duy logic, mà chỉ bắt chước kết hợp với nội suy xác suất dựa trên dữ liệu gần giống nhất mà nó biết.

Nhưng nghiên cứu này lại mô tả rằng, chỉ cần thêm một hai câu hay chỉ cần 1 dữ kiện thêm cũng đã đủ khiến LLM bị xao nhãng, bị loạn, rồi làm sai những bài toán cực kỳ đơn giản trong mắt con người. Hệ quả là, khi LLM không thể hiểu những nền móng lý thuyết toán học và tư duy logic cơ bản, rất khó yêu cầu nó có khả năng làm việc như những gì các tập đoàn đang quảng cáo.

SimpleLogic-example.webp

Và đương nhiên, dữ liệu huấn luyện càng nhiều, LLM sẽ càng có tỷ lệ nội suy xác suất ra những câu trả lời đúng. Trong nghiên cứu, các kỹ sư của Apple viết:

“Một trong những nguyên nhân GPT-4 của OpenAI có kết quả ấn tượng trong việc nội suy văn bản, là vì mô hình này đã chạm được tới ngưỡng kích thước đủ lớn để ghi nhớ đủ thông tin dữ liệu trong gói dữ liệu huấn luyện, rồi tạo ra cảm giác trong mắt con người rằng có vẻ như nó thực sự hiểu cách khoa học tự nhiên vận hành.

Nhưng thực tế, một khía cạnh khiến mô hình này thành công là nó biết nhiều kiến thức hơn hẳn so với hầu hết mọi người, rồi gây ấn tượng với chúng ta bằng cách kết hợp những khái niệm theo cách mới. Cứ đủ dữ liệu huấn luyện và sức mạnh điện toán, ngành công nghiệp AI có thể chạm tới được khái niệm gọi là ‘ảo tưởng AI có hiểu biết’, từ đó tạo ra được hình ảnh, thậm chí video nhìn rất giống thật.”

large-language-model-logical-reasoning.jpg

Chuyên gia về AI Gary Marcus cho rằng, bước tiến lớn tiếp theo của công nghệ AI sẽ chỉ đến khi những neural network có thể tích hợp những “thao tác xử lý ký hiệu, trong đó một số kiến thức được mô tả theo cách cực kỳ trừu tượng dưới dạng các biến và phép toán trên các biến đó, giống những gì chúng ta thấy trong môn đại số và lập trình.”

Còn cho tới khi ấy, AI sẽ chỉ có thể “lý luận” bằng cách bắt chước lại mọi ví dụ nó đã được học, đôi khi giải toán còn thua cả máy tính Casio của các em học sinh.

Theo ArsTechnica
61 bình luận
Chia sẻ

Xu hướng

"Chuyên gia về AI Gary Marcus cho rằng, bước tiến lớn tiếp theo của công nghệ AI sẽ chỉ đến khi những neural network có thể tích hợp những “thao tác xử lý ký hiệu, trong đó một số kiến thức được mô tả theo cách cực kỳ trừu tượng dưới dạng các biến và phép toán trên các biến đó, giống những gì chúng ta thấy trong môn đại số và lập trình.”

Chờ Apple tái định nghĩa AI thôi
@Tiến Minh Đỗ thế hắn toxic chỗ nào, thì hắn chỉ kêu là chờ tái định nghĩa thôi mà?

còn lại 4 dòng trên chỉ copy?
@grozar nhạt 😀
@GLES thôi đừng văn vẻ hỏi lại bạn ơi, ý quá rõ ràng rồi 😆 Mình nói mình nhận vậy thôi , còn ngay cả việc anti , toxic dám nói k dám nhận thì....
@Tiến Minh Đỗ nhiều khi hắn nói bâng quơ, bait được ai thì bait =))))
Con người > AI > Trí tuệ Táo 😏
@Crazylove4u Không "trí khôn apple" mới đúng =))
Chỉ biết tập hợp và nối kết các thông tin theo một cấu trúc do bắt chước học theo, và không thể tư duy logic, nếu cứ để nó phát triển theo hướng đó rồi cho nó làm thay con người nhièu thứ...riết nó hủy hại con người thôi.
@Ngiti AI thông minh vừa vừa thôi chứ thông minh quá là oẳng luôn đó
Có vẻ giống ngày xưa dạy đứa em lớp 2 tập đọc, nó đọc được hết nội dung trong cuốn sách giáo khoa. Mình mừng quá đưa nó cuốn truyện tranh đọc thì nó không đọc được bất kỳ chữ nào 😅
Cuối cùng phát hiện ra là nó đi học được cô dạy nhưng kiểu đọc thuộc lòng chứ bản chất là vẫn chưa biết đọc chữ thật sự
Apple có chuyên AI bằng mấy thằng kia không thế =))))))
@Dark Man Chúng nó đang cố tái định nghĩa AI thôi
@Dark Man Trong câu hỏi đã có câu trả lời 😆
@vũ_tú_inh Đặt tên khác là thành công r =)) Trí khôn Táo chẳng hạn :v
kỹ sư Apple có khác, giống như ifan
Đúng là kỹ sư Apple quá đỉnh, vạch mặt rõ yếu điểm của AI hiện nay chỉ là bánh vẽ bịp người dùng
@không_bị_sốt Nhưng mà nó có ích cho cuộc sống chứ có thấy hãng nào nói nó có thể làm tính toán siêu nhanh ko , họ chỉ nói giúp cuộc sống chúng ta dễ dàng hơn thôi chứ . Khen apple ít thôi
@không_bị_sốt :v Người ta nói từ lâu rồi, cái này chả có gì bất ngờ trong giới nghiên cứu cả.
Chẳng may iTinhTe dịch bài của Apple thôi.
Vẫn chưa thể tự diễn biến tự chuyển hoá đc 🙄🙄🙄
đợt trc trên tinhte hay ở đâu có bài báo nói có nhóm nghiên cứu tạo ra con ai mà chỉ cho đầu vào là 100k hay 1tr phép tính toán cơ bản rồi cho nó tự nội suy suy luận gì đó lên cao. sau này giải đc cả toán imo luôn thì có khác biệt với bài này ko nhỉ. do em ko nhớ con ai đó cũng dùng kiểu LLM hay kiểu khác nữa
@qwarl Cũng gần giống nhau á, bài này A nó dìm A.I thôi =))) chứ làm một con chuyên toán là nó làm hết được á mà, mấy con đang dùng là mô hình ngôn ngữ chứ không phải chuyên về các lĩnh vực KHTN.
Tóm tắt bài viết:
Apple: Hai hs trong lớp. Rồi hai hs khác bước vào. Hỏi có bao hs?
AI: 4!
Apple: Vì sao?
AI: 2x2=4
Apple: Chúng mày đéo hiểu Toán.
@T.NC Cảm thấy vừa đúng vừa sai =))
AI nghe ai ko nghe đi nghe thằng táo là dở rồi ahihi
Thế nên ta cứ bú leagacy Iphone và các SP xoay quangh IP là được rồi
đúng không nào
Nghe Apple nói về AI cũng như nghe Samsung nổ về Ê xịt nốt vậy
Cười vô mặt
@ntroppld ít ra ê xịt nó còn thương mại hóa rồi, còn AI của Táo thì vẫn chưa 😁
Phải nói thêm là AI của Apple.
6 thanh niên của 1 công ty A đang cố gắng bao biện cho việc công ty mình đang ko phát triển dc AI nào ra hồn
@vũ_tú_inh paper khoa học thì ko phải là bao biện nữa rồi bác vì phải có phản biện nhiều mới thành paper =)))

nhưng mà táo bón cơ bản bị bỏ lại khỏi cuộc chơi AI hơi xa =)))
Nó chỉ là lưu trữ một thư viện và truy xuất dữ liệu ở mức cao mà thôi
@msh3010 nếu nói nó là thư viện và truy xuất dữ liệu là hoàn toàn sai về mặt kỹ thuật =)))

vì thư viện thì cuốn sách nào cũng được đánh giá ngang hàng nhau về kiến thức
Con cáo và chùm nho.
Căng quá
Chính chúng tư cũng chưa hiểu được bản chất của tư duy và hoạt động của não bộ 🙂
Nên việc tiến hoá của AI cũng là vấn đề thời gian thôi.
AI có một số thứ mà con người không sánh được:
1. Khả năng nâng cấp cả về phần cứng, phần mềm.
2. Hoạt động không mệt mỏi, không bị giới hạn bởi cái chết, bệnh tật....
3. Có thể lưu trữ, truy cập giữ liệu không giới hạn.
4. Tốc độ xử lý vượt trội
....
Nếu có một phần mềm tự biết nâng cấp thì việc vượt qua con người đến nhanh thôi.
@Saga0803 Chúng ta ko bao giờ có thể hiểu đc bản chất của tư duy và hoạt động não bộ của con người.

Nói ví dụ cho bạn dễ hiểu, nếu bạn hiểu đc bản chất tư duy và hoạt động não bộ của Albert Einstein thì chắc chắn bạn phải thông minh hơn Einstein. Vậy thì ai có thể hiểu đc não bộ của bạn?
@centernc6 Đúng là hoạt động của não bộ quá phức tạp.
Nhưng đã là khoa học thì sớm muộn cũng sẽ tìm ra.
....
Những thứ ở xa vô hay nhỏ bé vô cùng, không quan trắc, đo đạc được thì đã đành.
Còn não bộ là thứ gần gũi nhưng quá phức tạp nên chưa thể giải mã được ngay thôi.
@Saga0803 Sớm muộn cũng sẽ tìm ra, thế thì ai hiểu đc bộ não của những nhà khoa học đấy?
@centernc6 Vd một người gầy còm có thể hiểu được tại sao lực sĩ nâng được tạ 100 cân dù bản thân họ không thể nâng được.
....
Não bộ cũng vậy, sẽ có lúc ta hiểu được bộ não tư duy, hoạt động thế nào. Nhưng ta ko thể tư duy như những nhà khoa học vì bộ não của chúng ta có giới hạn về phần cứng.
Lúc đó mang những quy tắc hoạt động của bộ não áp dụng lên một thực thể mới (một mô hình AI mới lên máy móc). Kết hợp với lợi thế của máy móc để tạo ra trí tuệ nhân tạo phổ quát và lúc đó nó có thể tự nâng cấp và vượt xa trí tuệ con người.
@Saga0803 con ng hiểu dc hầu hết cách bộ não vận hành r đó nhưng ứng dụng vs bắt chước cách nó vận hành là chuyện khác

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019