Nvidia, Apple, Google, Meta... huấn luyện AI nhờ nội dung từ YouTube, không xin phép ai

Câu chuyện này không mới, nhưng gần đây video phóng sự điều tra của Proof News mới mô tả thực sự chi tiết quy mô tận dụng nội dung transcript âm thanh từ hàng trăm nghìn video trên YouTube thành văn bản, rồi dùng chúng để huấn luyện những mô hình ngôn ngữ của các tập đoàn khổng lồ. Bài phóng sự của Proof News nêu ra đầy đủ những tập đoàn công nghệ nổi tiếng nhất hành tinh: Apple, Nvidia, rồi cả Anthropic hay Salesforce nữa.

Hành vi của các tập đoàn này đi ngược lại hoàn toàn quy định sử dụng dịch vụ của YouTube, trong đó có mục cấm hành động thu thập dữ liệu ở quy mô lớn từ nền tảng mà không xin phép. Nhưng thực tế thì OpenAI hay chính bản thân Google cũng đã và đang thực hiện việc thu thập lượng dữ liệu văn bản khổng lồ, được chuyển đổi từ dữ liệu âm thanh của hàng nghìn, hàng vạn video người dùng đăng tải lên YouTube:

Gói dữ liệu transcript nội dung âm thanh video thành văn bản có tên là “YouTube Subtitles.” Đây là một gói dữ liệu nằm trong cơ sở dữ liệu lớn được ví von bằng cái tên “The Pile”. Đó là gói dữ liệu tổng hợp nội dung dưới dạng văn bản của 173.536 video YouTube, từ hơn 48 nghìn kênh YouTube nổi tiếng. Trong số đó là những kênh YouTube kiến thức với hàng triệu người đăng ký, như MIT, Khan Academy hay kênh YouTube của đại học Harvard, cho tới cả những kênh tin tức chính thống như The Wall Street Journal, NPR hay cả BBC nữa. Cùng với đó là những video với nội dung giàu tính ngôn ngữ, như những chương trình talkshow. Những content creator nổi tiếng như MrBeast, Jacksepticeye và cả PewDiePie cũng bị lấy nội dung clip dể huấn luyện mô hình AI.

Cộng tác viên của Proof News, Alex Reisner đã phát hiện ra cơ sở dữ liệu The Pile vào năm 2023. Trong đó là đủ thứ nội dung, từ những cuốn sách có bản quyền sở hữu tri tuệ, cho tới những nghiên cứu hàn lâm, rồi chất lượng thấp hơn là những cuộc trò chuyện trên mạng internet và những đoạn transcript chuyển nội dung video YouTube từ âm thanh thành văn bản...

Sau khi tìm được The Pile, Reisner đã hệ thống hoá cơ sở dữ liệu này, vì anh cho rằng những cá nhân và đơn vị nắm giữ tác quyền những nội dung ấy có quyền được biết nội dung của họ đang bị sử dụng trái phép, và cơ sở dữ liệu được hệ thống hoá sẽ cho phép tất cả mọi người tìm kiễm nội dung thuộc sở hữu của họ một cách dễ dàng hơn.

Reisner cho biết: “Tôi nghĩ chúng ta, trên khía cạnh cả xã hội, rất khó để có những thảo luận về AI nếu như chúng ta không biết chúng được phát triển và xây dựng như thế nào. Tôi nghĩ rằng những nhà sáng tạo nội dung trên YouTube có thể sẽ muốn biết nội dung họ tạo ra đang được dùng vào mục đích gì. Cũng sẽ là thứ vô cùng liên quan, khi chúng ta đăng tải video, hình ảnh và văn bản trên mạng internet, và chúng được quét, thu thập rồi gom lại thành một phần của cả cơ sở dữ liệu lớn, rồi đem đi dùng vào mục đích huấn luyện những mô hình AI. Hiện giờ các công ty nghiên cứu AI đang lạm dụng mọi thứ họ có thể thu thập được.”

David Pakman, người thực hiện podcast “The Pakman Show” bày tỏ sự bực tức khi biết thông tin này, hé lộ rằng gần 160 video podcast do anh thực hiện đã bị chuyển nội dung thành văn bản và nằm trong gói dữ liệu YouTube Transcript. Đương nhiên không thấy có ai xin phép Pakman sử dụng nội dung mà anh sản xuất ra. Theo Pakman, kênh của anh là nguồn thu để nuôi sống 4 nhân viên toàn thời gian. Anh cho rằng đáng lẽ anh cùng các cộng sự nên được đền bù nếu như các công ty phát triển AI được hưởng lợi từ việc sử dụng nội dung anh làm ra huấn luyện những mô hình ngôn ngữ. Làm ra những nội dung như thế này tốn không ít thời gian, và sử dụng chúng mà không xin phép thì không khác gì ăn cắp, theo Pakman.

Dave Wiskus, CEO dịch vụ chia sẻ video Nebula cũng có chung quan điểm. Ông gọi cách lợi dụng nội dung người khác làm để huấn luyện AI mà không xin phép là một hành vi vô đạo đức. Ông cảnh báo rằng AI tạo sinh hoàn toàn có thể thay thế cho những cái đầu sáng tạo trong ngành. Và thứ khiến cho vấn đề này trở nên phức tạp hơn, là những hãng tin và nguồn nội dung, chẳng hạn như Associated Press, đã ký kết thoả thuận chia sẻ nội dung mà họ nắm bản quyền cho các công ty nghiên cứu AI. Những cái tên lớn thì được quyền đưa ra thoả thuận chia sẻ nội dung, còn những kênh nhỏ và những cá nhân đơn lẻ thì chẳng ai thèm xin phép hoặc trả tác quyền.

Cuộc điều tra của Proof News phát hiện ra, đơn vị tạo ra cơ sở dữ liệu The Pile là startup có tên EleutherAI. Trên trang web của họ, họ đề cập tới mục tiêu tạo ra những công nghệ AI tối tân cho mọi người. Tuy nhiên cách để họ thực hiện mục tiêu này thì rất đáng tranh cãi, hầu hết đều là những thoả thuận bán dữ liệu huấn luyện cho các gã khổng lồ công nghệ hay những đơn vị nghiên cứu AI nổi tiếng nhất thế giới hiện tại.

Nhiều nhà phát triển AI, từ Apple đến Nvidia đều đã ứng dụng cơ sở dữ liệu The Pile kể trên để huấn luyện mô hình của họ.

Còn các nhà lập pháp trong thời gian qua chỉ có những động thái tìm cách viết những bộ luật kiểm soát cách vận hành AI để không biến thứ công nghệ này trở thành hiểm hoạ cho cả xã hội. Còn vấn đề tác quyền những nội dung được dùng để huấn luyện AI, thì chưa thấy được đề cập và có những thảo luận nghiêm túc.

Gần đây nhất, thượng viện Mỹ đã thông qua một đạo luật tên là COPIED Act, viết tắt của “Content Origin Protection and Integrity from Edited and Deepfaked Media.” Những điều khoản trong đạo luật này được thiết lập để ngăn chặn việc lợi dụng deepfake nói riêng và AI nói chung vào mục đích xấu, tạo ra bộ khung chế tài quản lý để kiểm soát những vùng xám hiện tại của công nghệ AI.

Theo Techspot

magez

GÀ

6 tháng

Giờ cái đám làm AI này nó khát dữ liệu kinh khủng luôn, cào được chỗ nào thì bọn nó cào hết, phốt tè le https://vnexpress.net/gemini-ai-bi-nghi-quet-tep-google-drive-trai-phep-4770980.html

Mà content mà người dùng tạo ra cũng ko đủ để bọn nó train nữa rồi, chừng vài năm nữa chắc phải train bằng nội dung do AI tạo ra luôn, mà cái data này thì ko chuẩn

Trí Tuệ Nhân Táo

@magez Gemini AI còn bị nghi chứ Apple Intelligence thì không còn nghi ngờ gì nữa https://tinhte.vn/thread/ios-17-5-gap-loi-tu-dong-khoi-phuc-cac-anh-nhay-cam-da-xoa-trong-ung-dung-anh-photos.3787800/

Ngiti

@magez Dùng cái không chuẩn để huấn luyện AI..riết biến thành cái AI khùng khùng..huỷ hoại con người

haobcyqhdvb

@magez bảo mật 2fa cũng ko đc ah bác?

@haobcyqhdvb 2FA là để chống thằng khác login vô thôi, còn thằng host nó muốn truy xuất thì sao cản được, file để trên server của nó ko có mã hoá gì hết, nó muốn access lúc nào chả được, ko cần login đâu.
Còn muốn chống bị quét thì dùng mấy cái cloud có mã hoá 2 đầu như là Mega đó

@magez mã hóa 2 đầu là bảo mật 2fa đó ah bác?

centernc

Chứng tỏ AI thua kém con người rất nhiều, vì con người có tính ngẫu nhiên, ngẫu nhiêu càng lớn tính sáng tạo càng cao.

nguyen trung hieu thor

@centernc cụ bớt nổ đi, mà dạo này tính sáng tạo thụt lùi càng cao thì có, khả năng xử lý kém, phụ thuộc nhiều công nghệ .. méo biết gì lại youtube google dc mấy mống sáng tạo từ gốc tới ngọn

thanh_satria

Làm gì chúng giờ

jerryno6

Học dữ liệu từ Mrbearst kênh này có info hay kiến thức gì hay ho như các page chia sẻ kiến thức hay dạy học đâu nhỉ? kiến thức bị chia sẻ sai thì AI cũng sẽ sai theo thôi, rốt cuộc còn lâu mới thay dc con người nhé. Thay thế gà mờ dc chứ thay chuyên gia thì chưa biết à.

conankcbn7

toàn công ty mẽo. nếu công ty nga hay tq là chúng nó nhảy dựng lên

narutoxboy

😁 Free thì mình là món hàng =)) thôi thì vẫn phải dùng

Bạch Vô Gian Đạo

Có thì vẫn tiện hơn được 1 xíu thật

vinhptfpt

Mấy video trên youtube xem free mà. AI nó khai thác video trên đó cũng như là xem free thôi. Sao lại kêu ca nhi?

traisaigon

@vinhptfpt giống công viên vô chơi miễn phí nhưng ông mở cái sạp thu thập thông tin của người vào công viên thì ông vi phạm rồi

kehuydietngo

Bình thường mn xem youtube cũng phải xin phép ai à??

GHOST IN THE SHELL

@kehuydietngo khi bạn xem, bạn là end-user. Nhưng bạn train AI để thương mại thì bạn đang dùng chất xám của người khác để kiếm tiền mà không trả phí.

@GHOST IN THE SHELL K bạn ơi, mình dùng video YouTube để giảng dạy kiếm tiền chẳng hạn thì k lẽ cũng phải xin phép YouTube? Chưa kể mấy bên kia nó mua YouTube Premium để tránh quảng cáo lúc training nữa

QuanLyNhaNghi

Mõm Sẻeder thì Apple ko có AI nên Apple vô can nhé

Nvidia, Apple, Google, Meta... huấn luyện AI nhờ nội dung từ YouTube, không xin phép ai

CHỦ ĐỀ TƯƠNG TỰ

Bất chấp cấm vận, Trung Quốc đang bắt kịp công nghệ AI với Mỹ như thế nào?

Facebook và Instagram rồi sẽ có "người dùng" AI để tăng tương tác, anh em nghĩ sao?

Vì công nghệ AI, đầu tư ngành giáo dục trực tuyến toàn cầu năm 2024 giảm kỷ lục

Google Gemini 2.0 chính thức: Bước kế tiếp để đến được kỷ nguyên trợ lý AI