Vì sao AI hay bị "loạn ngôn"?

Ngày 2/4, Tổ chức Y tế Thế giới đã triển khai chatbot vận hành bằng mô hình AI, với mục tiêu tạo ra nguồn thông tin hữu ích cho tất cả mọi người về mọi vấn đề liên quan tới sức khỏe và dịch bệnh. Chatbot này có tên SARAH, viết tắt của Smart AI Resource Assistant for Health, được vận hành dựa trên mô hình GPT-3.5 của OpenAI. Nó cho phép người dùng tìm hiểu những thông tin từ dinh dưỡng, bỏ thuốc lá, xả stress cùng nhiều thông tin khác liên quan tới sức khỏe cho hàng triệu người trên toàn thế giới, thông qua 8 thứ tiếng.

Nhưng giống như mọi chatbot khác, SARAH của WHO cũng có nguy cơ tự tạo ra câu trả lời không dựa trên thông tin chính xác, từ đó gây nhầm lẫn cho người dùng. Trong một trường hợp, SARAH nghĩ ra hẳn cả một danh sách những cái tên và địa chỉ phòng khám không có thật ở San Francisco, Mỹ. WHO sau đó lại phải đưa ra cảnh báo rằng chatbot của họ có khi cũng không đáng tin cậy 100%.

Chatbot bị loạn ngôn, tự nghĩ ra thông tin mới, hầu hết thời gian không chính xác không phải điều gì quá mới mẻ nữa. Nó đã trở thành một chủ đề để người dùng các mạng xã hội trêu đùa khả năng của AI tạo sinh.

Một ví dụ khác là chatbot khoa học hàn lâm Galactica của Meta, tồn tại trong khoảng thời gian rất ngắn vì liên tục tạo ra những thông tin không có thật, ví dụ như những nghiên cứu khoa học hay những thông tin về… loài gấu sống trong vũ trụ. Hồi tháng 2, hãng hàng không Air Canada thì đã buộc phải áp dụng chiến lược hoàn trả tiền vé máy bay, thứ hoàn toàn không tồn tại nhưng được chatbot AI mà họ vận hành tự nghĩ ra. Còn năm ngoái, đã có luật sư bị phạt vì dùng ChatGPT tổng hợp án lệ, chatbot AI nghĩ ra những vụ án và những phiên xử không có thật trong quá khứ.

Xu hướng tự “đẻ” ra những thông tin không có thực gọi là hallucination, tạm dịch là “loạn ngôn”. Đó vẫn đang là rào cản lớn nhất kìm hãm tiềm năng của những chatbot AI được ứng dụng rộng rãi trong nhiều ngành nghề. Câu hỏi được đặt ra là, vì sao những mô hình AI lại loạn ngôn? Và vì sao đến giờ chúng ta vẫn chưa khắc phục được tình trạng này?

Xác suất thống kê + ma thuật máy tính

Để hiểu vì sao mô hình ngôn ngữ có khả năng loạn ngôn, phải nhìn vào cách chúng vận hành. Điều đầu tiên cần nhấn mạnh là, công việc của mô hình ngôn ngữ chính xác là tự tạo ra những nội dung mới. Khi anh em đưa ra một câu hỏi cho chatbot, mô hình AI vận hành chatbot sẽ tạo ra câu trả lời. Nhưng nó hoàn toàn không có khả năng tìm kiếm thông tin trên mạng internet rồi tổng hợp chúng để tạo ra câu trả lời. Đó là nhiệm vụ của RAG - Retrieval Augmented Generation, tạo sinh tăng cường, thứ kết hợp với LLM để vận hành chatbot.

Tạo sinh tăng cường: Lý do những chatbot và trợ lý ảo AI bị "loạn ngôn"

Thực tế hiện nay rất nhiều công cụ AI ứng dụng một kỹ thuật gọi là RAG, viết tắt của retrieval-augmented generation. Nhưng những vấn đề của RAG ứng dụng cùng với AI Overviews, công cụ mới nhất vừa được Google ứng dụng vào công cụ tìm kiếm trực…

tinhte.vn

Còn LLM sẽ vận hành dựa trên hàng tỷ con số. Những con số này được tính toán để tạo sinh nội dung từ con số 0, từ sau kế tiếp từ trước tạo ra một đoạn văn có nội dung mà AI cho là hợp lý nhất và tự nhiên nhất trong mắt con người. Nhờ quá trình huấn luyện với hàng tỷ văn bản và nội dung ngôn ngữ tự nhiên, những gì LLM tạo ra trông giống như được copy rồi paste trực tiếp từ những trang web hay thư viện nội dung. Nhưng thật ra không phải.

AI tạo sinh vận hành thuần túy nhờ xác suất. Dựa trên những gì nó đã được học, LLM sẽ có thể dự đoán từ tiếp theo trong một chuỗi từ. Lấy ví dụ nếu thấy ba chữ “the cat sat”, dựa trên xác suất nội dung nó đã được học, LLM sẽ dự đoán từ tiếp theo là “on”. Rồi khi có cụm “the cat sat on”, LLM sẽ lại dự đoán từ tiếp theo là “the”. Quy trình này vận hành liên tục cho tới khi có một câu hoàn thiện, một đoạn văn hoàn thiện.

Chỉ cần đúng quy trình dự đoán từ ngữ bằng xác suất này, LLM có thể viết từ code lập trình, đến thơ ca, văn học, tất cả dựa trên những gì mô hình ngôn ngữ đã được huấn luyện trước đó.

Nói theo cách của Andrej Karpathy, đồng sáng lập OpenAI, một nhà khoa học máy tính nổi tiếng: LLM học cách “giải mã giấc mơ” dựa trên những văn bản và tài liệu trên mạng internet.

Hàng tỷ con số được đề cập kể trên chính là những tham số. Những chuỗi số này giống hệt như những chìa khóa giải mã, dự đoán xác suất từ tiếp theo trong một câu, một đoạn văn để LLM vận hành. Những giá trị tham số này được thiết lập khi mô hình AI được huấn luyện. Quy trình huấn luyện điều chỉnh tham số một cách liên tục, cho tới khi mô hình ngôn ngữ có khả năng tìm ra những khuôn mẫu ngôn ngữ trong hàng terabyte văn bản thu thập được từ mạng internet.

Để “đoán từ”, tạo sinh ra những đoạn văn và những câu trả lời khi anh em dùng chatbot, mô hình ngôn ngữ sẽ chạy những tham số nói trên. Nó sẽ tính toán điểm xác suất những từ có khả năng xếp kế nhau thành một câu. Từ và cụm từ nào có điểm cao nhất sẽ được lựa chọn và trở thành nội dung tạo sinh. Quy trình đánh giá xác suất dựa trên tham số diễn ra liên tục cho tới khi câu trả lời hoàn thành, trả về cho người dùng. Còn thông tin chính xác hay không, có lẽ LLM không quan tâm, và không thể kiểm soát được, vì nhiệm vụ của LLM không bao gồm việc xác thực thông tin.

LLM luôn “loạn ngôn”, chỉ là loạn theo cách chính xác hay sai lệch

Nói cách khác, quy trình LLM vận hành luôn luôn là quá trình máy móc tự nghĩ ra những câu, những đoạn văn mới dựa trên xác suất. Nhưng chỉ đến khi thông tin sai lệch hoặc đơn giản là không tồn tại, thì chúng ta mới để ý và coi đó là lỗi của mô hình ngôn ngữ. Vấn đề lại nằm ở chỗ, mô hình ngôn ngữ lớn hiện giờ đã vận hành quá tốt, đến mức những thông tin hiển thị trên màn hình chatbot trông rất đáng tin. Thành ra nếu không tự kiểm tra chéo, sẽ rất khó để tin tưởng chatbot.

Liệu con người có thể kiểm soát những gì LLM tạo sinh, để nội dung chúng tạo ra đảm bảo chính xác? Câu trả lời là có thể nhưng rất khó. Số lượng tham số giờ đã quá lớn và quá phức tạp, chỉ có hệ thống tự động điều chỉnh, con người gần như không thể chỉnh sửa. Vài nhà nghiên cứu thì cho rằng, dữ liệu huấn luyện càng nhiều, khả năng tạo ra lỗi sẽ càng thấp. Đây rõ ràng là một xu hướng mà chúng ta đã thấy khi LLM càng lúc càng chạy trên nhiều tham số, kích thước càng lúc càng phình to.

Những hệ thống chatbot AI hàng đầu hiện nay được học từ cơ sở dữ liệu khoảng 3 nghìn tỷ từ, tức là gấp đôi lượng văn bản đang được lưu trữ tại thư viện Bodleian của đại học Oxford, thư viện đã tổng hợp và lưu trữ văn bản của con người từ tận năm 1602. Theo các nhà nghiên cứu AI, những dạng thông tin và dữ liệu có giá trị nhất là những thông tin có giá trị cao như những bài viết và sách được xuất bản, được viết một cách cẩn trọng, rồi được biên tập viên chuyên nghiệp chỉnh sửa.
Cứ tưởng rằng, internet, với những trang web như Wikipedia và Reddit là nguồn thông tin vô tận. Nhưng khi AI phát triển, các tập đoàn công nghệ càng lúc càng muốn nhiều hơn. Những tập đoàn như Google và Meta bị giới hạn bởi luật bảo vệ quyền riêng tư của con người, cũng như quy định của chính họ, bất chấp việc hàng ngày có hàng tỷ người đang sử dụng dịch vụ trực tuyến mà họ cung cấp.

Vừa tạo sinh vừa chỉnh lỗi

Một hướng tiếp cận khác là yêu cầu mô hình ngôn ngữ kiểm tra kết quả tạo sinh dữ liệu, từng bước, từng từ, từng câu. Quy trình tự đánh giá kết quả tạo sinh của LLM được gọi là chain-of-thought prompting, yêu cầu LLM phải tự đánh giá quy trình tư duy dự đoán nội dung theo từng bước. Giải pháp này đã được chứng minh là có thể cải thiện độ chính xác trong kết quả văn bản chatbot trả về cho người dùng.

Hiện giờ có một tính năng chưa khả thi, đó là mô hình ngôn ngữ lớn của tương lai có thể sẽ có khả năng tự kiểm tra mức độ chính xác của thông tin ngay trong quá trình tạo sinh ngôn ngữ, để tự chỉnh sửa hoặc làm lại nếu như nó tự phát hiện ra văn bản tạo sinh bắt đầu có dấu hiệu bị “loạn.”

Vấn đề lại nằm ở chỗ, không có bất kỳ giải pháp nào có thể ngăn chặn tình trạng “loạn ngôn” 100%. Miễn là LLM vận hành dựa trên xác suất, thì những nội dung tạo sinh luôn có khả năng sai lệch và bị “loạn.” Chẳng hạn anh em đổ xúc sắc 100 lần, sẽ có tần số mẫu. Mô hình ngôn ngữ cũng sẽ có tần số xuất hiện lỗi sai. Ngay cả khi chỉ có 1 trong 100 nghìn hay 1 triệu lần tạo sinh nội dung gặp lỗi, cũng đã đủ để con người nghi ngờ khả năng của chatbot AI rồi. Mỗi ngày có hàng triệu lượt sử dụng những chatbot AI, mà cứ lúc nào có lỗi, con người đều sẽ có xu hướng chụp lại rồi đăng lên MXH.

Cũng vẫn phải nhắc lại, hiện giờ, AI là thứ chúng ta không thể tin tưởng 100%. Vậy nên có lẽ cách tốt nhất để giảm thiểu tình trạng loạn ngôn của mô hình ngôn ngữ, chính là bản thân người dùng chatbot AI giảm bớt phần nào kỳ vọng đối với những công cụ này.

Khi vị luật sư nọ quá tin tưởng ChatGPT, tin rằng những án lệ đã diễn ra trước đây mà chatbot tổng hợp là có thật, rồi vô tình tạo ra những văn bản bằng chứng giả mạo đưa ra trước tòa, ông này bất ngờ không kém gì những người khác: “Tôi nghe thấy người ta giới thiệu một trang web, tôi lầm tưởng nó là một công cụ tìm kiếm thông tin siêu cấp. Tôi thực sự không nghĩ rằng công cụ này có thể tự nghĩ ra những thông tin không tồn tại,” vị này giải thích với thẩm phán trước tòa sau khi bị phát hiện.

Theo MIT Technology Review

nghaimin

VIP

3 tháng

Con người cũng loạn ngôn chứ đừng nói gì máy móc được đào tạo bởi con người.

Trí Tuệ Nhân Táo

ĐẠI BÀNG

@nghaimin 8G = 16G cũng là 1 kiểu loạn ngôn

vinhptfpt

@nghaimin ip<=15 không chạy được AI cũng là loạn ngôn nhi?

Xmatphon

CAO CẤP

Vì hiện tại nó chỉ biết copy, học chưa thuộc.

Jala

@Xmatphon Học thuộc rồi bạn, chỉ chưa hiểu ý của chính bản thân nó và con người thể hiện trong câu mà thôi!

devilending

TÍCH CỰC

@Xmatphon Gớm. Bản thân văn phong, ngôn ngữ, ngữ điệu, ngữ pháp mà chính bản thân bác nói và sử dụng hằng ngày cũng là do bác được dạy, đc sao chép và dựa vào dữ liệu từ bên ngoài tác động vào bộ não và chọn lọc học thuộc rồi vận ngôn bằng đường miệng cả chứ có phải là tự bản thân bác đẻ ra đã bik vận ngôn, bik tự nói tiếng Việt, bik dùng từ này từ kia 1 cách tự nhiên đâu mà chê AI 😆 Đến con người còn loạn ngôn nữa huống chi cái máy

Z Fold

AI hiện tại đang ở giai đoạn mới phát triển, ví von thì cũng giống như một đứa trẻ vừa biết nói, học mẫu giáo... Nên loạn ngôn là bình thường

Avatarinternet

Hỏi Cu Hiệp là Biết !!!

hongphuc1992

Vì nó là AI

Saga0803

Nói nhiều mà không hiểu gì là nói linh tinh (loạn ngôn)
AI hiện tại chưa có khả năng "hiểu". Có vẻ nó chỉ đang tìm kết quả phù hợp nhất theo thuật toán để điền vào chỗ trống thôi.

megatroll

Con gemini là đỉnh cao của loạn ngôn. Hết chém gió, lười ko trả lời, thì nó còn tự loạn ngôn ngữ