IFA 2024

IFA 2024


WIRED: Các trang web lớn chặn Apple thu thập dữ liệu để train AI

Lê Q Khánh
4/9/2024 4:51Phản hồi: 30
WIRED: Các trang web lớn chặn Apple thu thập dữ liệu để train AI
Một số hãng tin và mạng xã hội lớn đã từ chối tham gia chương trình đào tạo trí thông minh nhân tạo (AI) của Apple, chưa đầy ba tháng sau khi Apple ra mắt công cụ AI của mình.

Theo nguồn tin từ WIRED, Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, USA Today và công ty mẹ của WIRED, Condé Nast, nằm trong số nhiều tổ chức lựa chọn việc loại trừ dữ liệu của họ khỏi chương trình đào tạo AI của Apple. Sự lạnh nhạt này của các tổ chức lớn phản ánh sự thay đổi đáng kể trong cả nhận thức và cách sử dụng các trình thu thập dữ liệu web trong nhiều thập kỷ vừa qua. Giờ đây, khi các bot này đóng vai trò quan trọng trong việc thu thập dữ liệu đào tạo AI, chúng đã trở thành vùng xung đột về quyền sở hữu trí tuệ và tương lai của web.

apple-ai-block-1.jpg


Công cụ của Apple có tên là Applebot-Extended, cho phép chủ sở hữu trang web yêu cầu Apple không sử dụng dữ liệu của họ để đào tạo AI. (Trong một bài đăng giải thích cách thức hoạt động của nó, Apple gọi tính năng là "kiểm soát việc sử dụng dữ liệu".) Applebot phiên bản đầu tiên, được công bố vào năm 2015, được dùng để thu thập dữ liệu trên internet nhằm cung cấp thông tin chất lượng cho các công cụ tìm kiếm của Apple như Siri và Spotlight. Tuy nhiên, gần đây, mục đích của Applebot đã mở rộng: Dữ liệu mà nó thu thập cũng có thể được sử dụng để đào tạo các mô hình nền tảng mà Apple đã tạo ra cho các dự án AI của mình.

Theo Apple, Applebot-Extended là cách mà hãng công nghệ này tôn trọng quyền của nhà xuất bản. Trên thực tế, nó không ngăn Applebot nguyên bản thu thập dữ liệu trang web, vốn ảnh hưởng đến cách nội dung của trang web đó xuất hiện trong các sản phẩm tìm kiếm của Apple, mà thay vào đó, công cụ này ngăn dữ liệu đó được sử dụng để đào tạo các mô hình ngôn ngữ lớn của Apple và các dự án AI tạo sinh khác. Về bản chất, đây là một bot để tùy chỉnh cách hoạt động của một bot khác.

Các nhà xuất bản có thể chặn Applebot-Extended bằng cách cập nhật file văn bản trên trang web của họ được gọi là “Giao thức loại trừ robot” (Robots Exclusion Protocol) hoặc robots.txt. File này đã quản lý cách các bot thực hiện việc thu thập dữ liệu trên web trong nhiều thập kỷ. Và giống như chính các bot này, giờ đây nó là trung tâm của một cuộc chiến lớn hơn về cách AI được đào tạo. Nhiều nhà xuất bản đã cập nhật file robots.txt của họ để chặn các bot AI từ OpenAI, Anthropic và các công ty AI lớn khác.

Theo WIRED.
30 bình luận
Chia sẻ

Xu hướng

GLES
TÍCH CỰC
7 ngày
bài viết có gì mới ko? robots.txt bao nhiêu năm nay dùng để chặn crawl data rồi

https://stackoverflow.com/questions/28070312/how-to-bypass-robots-txt-while-crawling
@GLES Trước đây các trang web cho phép Apple bot thu thập thông tin cho siri và search nhưng giờ đéo.
GLES
TÍCH CỰC
7 ngày
@EvilArtist tui hiểu ý bác, nhưng đối với dân dev thì rất rành vụ này rồi, nên họ đã chặn nó từ rất lâu.
trungking
TÍCH CỰC
7 ngày
@GLES robots.txt là cơ chế thông báo cho bot đừng thu thập dữ liệu, ko phải là cơ chế chặn bot để mà bypass. Nó ko bắt buộc, ko có tác dụng gì ngăn chặn 1 người cố tình crawl data cả
GLES
TÍCH CỰC
7 ngày
@trungking Yup mình ngày xưa xài beautiful soup để crawl vẫn được. Robot.txt chỉ có tác dụng để các bộ máy tìm kiếm lớn họ làm đúng quy trình thôi
Đọc tin AI mà có liên quan ông Táo vô thấy nó cùi cùi thế nào, làm cái xóa phông còn k xong thì nổ cho lắm để được gì?
@Dragao_ct92 Để doanh thu, doanh số đều cao hơn ổ virus Android cộng lại
@Kelvin Phước Virus bạn nói là ở đâu sao mình sài Android bao đời không Thấy.
@A0kiji Vì toàn virus nên sao thấy được, kiểu ở dơ lâu năm thì ko tắm cũng k thành vấn đề 😆))
Apple là vậy. Rõ ràng, minh bạch, công khai, dân biết dân bàn dân làm dân kiểm tra. Chứ ko như mấy hãng khác lén lút húp dữ liệu người dùng !
@Tiến Minh Đỗ Thế sao phải ngưng SpO2 trên toàn bộ watch vậy con trai?
@airwalker lại ko rành luật rồi đi hỏi. M có 1 căn nhà , m bị người ta kiện, tranh chấp tài sản thì căn nhà đó không thể mua bán. Vấn đề tương tự, Khi chưa ngã ngủ kết quả, thì tạm dừng , đây là luật thường thức. Thiếu học vấn đòi làm Bố, chắc người miền ngoài à 😆)
@Tiến Minh Đỗ Ngã ngủ là ngã thằng bố mày ngủ à 😂😂 mày là miền hang hốc nào mà ngã ngủ.
@airwalker thôi cook đi 😆) chứ thể loại tranh luận không lại, ko có kiến thức, rồi cái bắt bẻ 😃))) kém thật sự
toàn mấy cty bị Apple phá đám vụ chặn QC vào phản đối cho bỏ ghét
@QuanLyNhaNghi tôi nghĩ đúng là chổ này nè ... 😁
Chặn sao đc, cơ bản là để kiếm trác thôi.
Apple thì ko phải xoắn, tiền đè bẹp các pé
Lại vòi tiền là chính ấy mà. Google giờ nó thị phần số 1 tìm kiếm nên thằng nào cũng tha thiết mời nó index để lên top. Còn Apple chân ướt chân ráo mới vào nghề thì chặn là đúng rồi
quanhui
ĐẠI BÀNG
7 ngày
@causelove94 thu thập dữ liệu để train AI thì liên quan gì đến việc index lên top nhỉ ?
@quanhui là các hãng khác không chặn google vì mong google thu thập để lên tốp search, còn apple thu thập thì họ chả có ích gì nên chặn 😃 mà apple sống bẩn nên nhiều người ghét
@quanhui Thì đều là thu thập dữ liệu mà, khác mục đích sử dụng thôi, mà giờ Google có Gemini AI đó, tha hồ dùng
Cowboyz
TÍCH CỰC
7 ngày
Nó đã đọc được trên trình duyệt thì không lý do gì nó không đào dữ liệu được.
Súc v apple
Gà !!!! Thứ gì mà mình không có thì đi ăn cắp thôi 😆)
bắt đầu chèn ép nhau triệt hạ nhau rồi 😆 mà nó chặn apple cũng có lí vì nó sợ thằng apple sau khi đủ lông đủ cánh là triệt hạ bọn nó ngay trên appstore. k biết apple sẽ có động thái thế nào nhỉ
Hyper But
TÍCH CỰC
6 ngày
Ngày càng hấp dẫn, ăn ko được thì phá thôi

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019