Apple đã lên tiếng bác bỏ việc sử dụng dữ liệu thu thập trái phép để huấn luyện Apple Intelligence. Tuy nhiên, Apple thừa nhận rằng đã dùng dữ liệu này cho một dự án khác. Apple đã nói với Apple Insider rằng họ không dùng tập dữ liệu ăn cắp này cho bất kỳ tính năng AI hoặc Machine Learning nào của hãng, tất nhiên là bao gồm Apple Intelligence.
Vài ngày trước, một thông tin cho biết startup nghiên cứu AI có tên EleutherAI đã thu thập phụ đề từ các video YouTube và nhiều bên khác mà không được sự cho phép từ người tạo ra chúng. Sau đó, dữ liệu này được thêm vào bộ dữ liệu có tên “the Pile.”
Chi tiết bộ dữ liệu này trích từ bài của PW: “Đó là gói dữ liệu tổng hợp nội dung dưới dạng văn bản của 173.536 video YouTube, từ hơn 48 nghìn kênh YouTube nổi tiếng. Trong số đó là những kênh YouTube kiến thức với hàng triệu người đăng ký, như MIT, Khan Academy hay kênh YouTube của đại học Harvard, cho tới cả những kênh tin tức chính thống như The Wall Street Journal, NPR hay cả BBC nữa. Cùng với đó là những video với nội dung giàu tính ngôn ngữ, như những chương trình talkshow. Những content creator nổi tiếng như MrBeast, Jacksepticeye và cả PewDiePie cũng bị lấy nội dung clip dể huấn luyện mô hình AI.”
Nvidia, Apple, Google, Meta... huấn luyện AI nhờ nội dung từ YouTube, không xin phép ai
Câu chuyện này không mới, nhưng gần đây video phóng sự điều tra của Proof News mới mô tả thực sự chi tiết quy mô tận dụng nội dung transcript âm thanh từ hàng trăm nghìn video trên YouTube thành văn bản…
tinhte.vn
Vài ngày trước, một thông tin cho biết startup nghiên cứu AI có tên EleutherAI đã thu thập phụ đề từ các video YouTube và nhiều bên khác mà không được sự cho phép từ người tạo ra chúng. Sau đó, dữ liệu này được thêm vào bộ dữ liệu có tên “the Pile.”
Chi tiết bộ dữ liệu này trích từ bài của PW: “Đó là gói dữ liệu tổng hợp nội dung dưới dạng văn bản của 173.536 video YouTube, từ hơn 48 nghìn kênh YouTube nổi tiếng. Trong số đó là những kênh YouTube kiến thức với hàng triệu người đăng ký, như MIT, Khan Academy hay kênh YouTube của đại học Harvard, cho tới cả những kênh tin tức chính thống như The Wall Street Journal, NPR hay cả BBC nữa. Cùng với đó là những video với nội dung giàu tính ngôn ngữ, như những chương trình talkshow. Những content creator nổi tiếng như MrBeast, Jacksepticeye và cả PewDiePie cũng bị lấy nội dung clip dể huấn luyện mô hình AI.”
EleutherAI chia sẻ mục tiêu của họ là giảm bớt rào cản phát triển AI cho những người ngoài Big Tech. Tuy nhiên, các công ty như Nvidia, Salesforce, và Apple đều đã sử dụng the Pile để huấn luyện nhiều dự án AI khác nhau.
Apple hiện đã lên tiếng, khẳng định mặc dù đã sử dụng the Pile, nhưng bộ dữ liệu này không được dùng cho Apple Intelligence mà được sử dụng để huấn luyện các mô hình OpenELM mã nguồn mở và Apple cho biết họ tạo ra OpenELM để đóng góp cho cộng đồng nghiên cứu.
Apple cũng nhấn mạnh rằng các mô hình OpenELM chưa bao giờ được dự định sử dụng cho Apple Intelligence. Họ cũng nói rằng không có kế hoạch xây dựng bất kỳ phiên bản AI mới nào dựa trên mô hình OpenELM.
Apple đã thật sự tái định nghĩa AI !
Ở trong bài tổng hợp trước đó về những tin đồn trước thềm sự kiện, mình đã đặt ra 1 câu hỏi rằng là Apple liệu có tái định nghĩa được AI? Và khi coi hết sự kiện thì câu trả lời của riêng mình là họ đã làm được, và còn làm rất tốt.
https://tinhte.
tinhte.vn
Apple Insider