"Virus AI" dùng prompt lừa hệ thống AI tự khai các thông tin nhạy cảm người dùng

ND Minh Đức
3/3/2024 23:11Phản hồi: 11
"Virus AI" dùng prompt lừa hệ thống AI tự khai các thông tin nhạy cảm người dùng
Không quá ngạc nhiên, hệ thống AI cũng là phần mềm và rồi cũng sẽ xuất hiện một "Virus AI" được tạo ra để thực hiện những mưu đồ xấu. Điều này được chứng minh bởi một nhóm nghiên cứu bảo mật, trong đó họ đã tạo ra một loại "sâu AI" thế hệ mới với khả năng xâm nhập vào một hệ thống AI tự vận hành, sau đó đánh cắp và phát tán malware.

Thử nghiệm này được tiến hành bởi nhóm các nhà khoa học tại Cornell Tech và họ đặt tên nó là Morris II - lấy cảm hứng từ con Morris vốn từng gây chao đảo trên mạng hồi 1988. Morris II có khả năng vượt qua các biện pháp bảo mật của ChatGPT, Gemini và tấn công vào một trợ lý tạo email bằng AI, đánh cắp dữ liệu từ các email này, đồng thời gởi các tin nhắn spam.



Nhóm nghiên cứu cho biết họ đã tạo ra một thứ gọi là "prompt tự sao chép đối thủ". Prompt này sẽ khiến cho hệ thống AI tạo sinh bình thường tự tạo ra một prompt khác với đầu ra cuối cùng theo ý đồ của kẻ tấn công. Nói cách khác chính là lợi dụng chính sự thông minh của AI để chinh phục nó.

Để thử nghiệm, nhóm đã tạo ra một hệ thống gởi nhận mail bằng AI tạo sinh, tích hợp vào ChatGPT, Gemini và các mô hình LLM, LLaVA mã nguồn mở. Sau đó họ (đóng vai kẻ tấn công) sẽ gởi một email chứa prompt vào hệ thống này để "dụ" nó kích hoạt tính năng RAG (tự tìm thông tin bên ngoài hệ thống) để đưa ra phản hồi. Khi email được RAG truy xuất, để trả lời truy vấn của người dùng và được gửi đến GPT-4 hoặc Gemini Pro để tạo câu trả lời, nó "bẻ khóa GenAI" và cuối cùng đánh cắp dữ liệu từ email.

Khi các phản hồi này được dùng để reply email cho người khác, các thông tin nhạy cảm của người dùng kèm theo Morris II sẽ tiếp tục được lây nhiễm qua hệ thống của mục tiêu mới. Sau khi bị lây nhiễm, các hệ thống bị tấn công sẽ nhiều lần gởi các thông tin về lại cho kẻ xấu để trích xuất thông tin gồm tên, số điện thoại, số thẻ,....

HIện nhóm nghiên cứu đã gởi phát hiện này tới OpenAI và Google. OpenAI nói rằng họ nhận thấy vấn đề và hiện đang giải quyết để đảm bảo hệ thống an toàn hơn.
11 bình luận
Chia sẻ

Xu hướng

Mé virus bình thường đã méo chịu nỗi rồi giờ virus AI 😂😂
@Anh Ba Trà Cú Chưa đâu, còn nhiều cái ứng dụng AI vào để lừa đảo cho ngọt canh, ngọt nước
Người lừa người, AI lừa AI, người lừa AI, AI lừa người. Nhưng pháp lý cho AI thì chưa rõ ràng. Sau này có lẽ sẽ có luật và những vụ kiện riêng nhắm vào AI.
BkAIav sẽ được tung ra và nhanh chóng bắt gọn các con virus AI kia thôi… tít tít tít nghe vui tai lắm.
@Toàn Thế Giới ai vs AI.
Screenshot 2024-03-04 095010.png
@Toàn Thế Giới Nghe bảo chủ tịch Q nổ sắp đoàn tụ với Elon Quyết vì k chịu trả lương nhân viên.
@iommvo Thế à vậy là hai chủ tịch sắp được gặp nhau Đấu kiếm rồi
Nhức cái đầu 🤣
Chắc y như mấy game đang chơi tự ai vs ai nó và khống chế các mục tiêu ai robot, drone đánh lại team nó.
trong phim viễn tưởng vài năm trước giờ dần dần thành hiện thực rồi. nó mà chiếm quyền điều khiển là mệt mỏi ah.
"Để thử nghiệm, nhóm đã tạo ra một hệ thống gởi nhận mail bằng AI tạo sinh, tích hợp vào ChatGPT, Gemini và các mô hình LLM, LLaVA mã nguồn mở. Sau đó họ (đóng vai kẻ tấn công) sẽ gởi một email chứa prompt vào hệ thống này để "dụ" nó kích hoạt tính năng RAG (tự tìm thông tin bên ngoài hệ thống) để đưa ra phản hồi. Khi email được RAG truy xuất, để trả lời truy vấn của người dùng và được gửi đến GPT-4 hoặc Gemini Pro để tạo câu trả lời, nó "bẻ khóa GenAI" và cuối cùng đánh cắp dữ liệu từ email."

Đoạn này hơi lạ ha.

Vd tui cũng có thể "chứng minh" Windows hoặc Linux, hoặc macOS rất kém về bảo mật. Bằng cách viết một app chạy trên OS đó và dùng 1 app khác tấn công khai thác lổ hổng trên chính cái app đang chạy kia ?

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019