Câu chuyện này không mới, nhưng gần đây video phóng sự điều tra của Proof News mới mô tả thực sự chi tiết quy mô tận dụng nội dung transcript âm thanh từ hàng trăm nghìn video trên YouTube thành văn bản, rồi dùng chúng để huấn luyện những mô hình ngôn ngữ của các tập đoàn khổng lồ. Bài phóng sự của Proof News nêu ra đầy đủ những tập đoàn công nghệ nổi tiếng nhất hành tinh: Apple, Nvidia, rồi cả Anthropic hay Salesforce nữa.
Hành vi của các tập đoàn này đi ngược lại hoàn toàn quy định sử dụng dịch vụ của YouTube, trong đó có mục cấm hành động thu thập dữ liệu ở quy mô lớn từ nền tảng mà không xin phép. Nhưng thực tế thì OpenAI hay chính bản thân Google cũng đã và đang thực hiện việc thu thập lượng dữ liệu văn bản khổng lồ, được chuyển đổi từ dữ liệu âm thanh của hàng nghìn, hàng vạn video người dùng đăng tải lên YouTube:
Gói dữ liệu transcript nội dung âm thanh video thành văn bản có tên là “YouTube Subtitles.” Đây là một gói dữ liệu nằm trong cơ sở dữ liệu lớn được ví von bằng cái tên “The Pile”. Đó là gói dữ liệu tổng hợp nội dung dưới dạng văn bản của 173.536 video YouTube, từ hơn 48 nghìn kênh YouTube nổi tiếng. Trong số đó là những kênh YouTube kiến thức với hàng triệu người đăng ký, như MIT, Khan Academy hay kênh YouTube của đại học Harvard, cho tới cả những kênh tin tức chính thống như The Wall Street Journal, NPR hay cả BBC nữa. Cùng với đó là những video với nội dung giàu tính ngôn ngữ, như những chương trình talkshow. Những content creator nổi tiếng như MrBeast, Jacksepticeye và cả PewDiePie cũng bị lấy nội dung clip dể huấn luyện mô hình AI.
Hành vi của các tập đoàn này đi ngược lại hoàn toàn quy định sử dụng dịch vụ của YouTube, trong đó có mục cấm hành động thu thập dữ liệu ở quy mô lớn từ nền tảng mà không xin phép. Nhưng thực tế thì OpenAI hay chính bản thân Google cũng đã và đang thực hiện việc thu thập lượng dữ liệu văn bản khổng lồ, được chuyển đổi từ dữ liệu âm thanh của hàng nghìn, hàng vạn video người dùng đăng tải lên YouTube:
Gói dữ liệu transcript nội dung âm thanh video thành văn bản có tên là “YouTube Subtitles.” Đây là một gói dữ liệu nằm trong cơ sở dữ liệu lớn được ví von bằng cái tên “The Pile”. Đó là gói dữ liệu tổng hợp nội dung dưới dạng văn bản của 173.536 video YouTube, từ hơn 48 nghìn kênh YouTube nổi tiếng. Trong số đó là những kênh YouTube kiến thức với hàng triệu người đăng ký, như MIT, Khan Academy hay kênh YouTube của đại học Harvard, cho tới cả những kênh tin tức chính thống như The Wall Street Journal, NPR hay cả BBC nữa. Cùng với đó là những video với nội dung giàu tính ngôn ngữ, như những chương trình talkshow. Những content creator nổi tiếng như MrBeast, Jacksepticeye và cả PewDiePie cũng bị lấy nội dung clip dể huấn luyện mô hình AI.
Cộng tác viên của Proof News, Alex Reisner đã phát hiện ra cơ sở dữ liệu The Pile vào năm 2023. Trong đó là đủ thứ nội dung, từ những cuốn sách có bản quyền sở hữu tri tuệ, cho tới những nghiên cứu hàn lâm, rồi chất lượng thấp hơn là những cuộc trò chuyện trên mạng internet và những đoạn transcript chuyển nội dung video YouTube từ âm thanh thành văn bản...
Sau khi tìm được The Pile, Reisner đã hệ thống hoá cơ sở dữ liệu này, vì anh cho rằng những cá nhân và đơn vị nắm giữ tác quyền những nội dung ấy có quyền được biết nội dung của họ đang bị sử dụng trái phép, và cơ sở dữ liệu được hệ thống hoá sẽ cho phép tất cả mọi người tìm kiễm nội dung thuộc sở hữu của họ một cách dễ dàng hơn.
Reisner cho biết: “Tôi nghĩ chúng ta, trên khía cạnh cả xã hội, rất khó để có những thảo luận về AI nếu như chúng ta không biết chúng được phát triển và xây dựng như thế nào. Tôi nghĩ rằng những nhà sáng tạo nội dung trên YouTube có thể sẽ muốn biết nội dung họ tạo ra đang được dùng vào mục đích gì. Cũng sẽ là thứ vô cùng liên quan, khi chúng ta đăng tải video, hình ảnh và văn bản trên mạng internet, và chúng được quét, thu thập rồi gom lại thành một phần của cả cơ sở dữ liệu lớn, rồi đem đi dùng vào mục đích huấn luyện những mô hình AI. Hiện giờ các công ty nghiên cứu AI đang lạm dụng mọi thứ họ có thể thu thập được.”
David Pakman, người thực hiện podcast “The Pakman Show” bày tỏ sự bực tức khi biết thông tin này, hé lộ rằng gần 160 video podcast do anh thực hiện đã bị chuyển nội dung thành văn bản và nằm trong gói dữ liệu YouTube Transcript. Đương nhiên không thấy có ai xin phép Pakman sử dụng nội dung mà anh sản xuất ra. Theo Pakman, kênh của anh là nguồn thu để nuôi sống 4 nhân viên toàn thời gian. Anh cho rằng đáng lẽ anh cùng các cộng sự nên được đền bù nếu như các công ty phát triển AI được hưởng lợi từ việc sử dụng nội dung anh làm ra huấn luyện những mô hình ngôn ngữ. Làm ra những nội dung như thế này tốn không ít thời gian, và sử dụng chúng mà không xin phép thì không khác gì ăn cắp, theo Pakman.
Dave Wiskus, CEO dịch vụ chia sẻ video Nebula cũng có chung quan điểm. Ông gọi cách lợi dụng nội dung người khác làm để huấn luyện AI mà không xin phép là một hành vi vô đạo đức. Ông cảnh báo rằng AI tạo sinh hoàn toàn có thể thay thế cho những cái đầu sáng tạo trong ngành. Và thứ khiến cho vấn đề này trở nên phức tạp hơn, là những hãng tin và nguồn nội dung, chẳng hạn như Associated Press, đã ký kết thoả thuận chia sẻ nội dung mà họ nắm bản quyền cho các công ty nghiên cứu AI. Những cái tên lớn thì được quyền đưa ra thoả thuận chia sẻ nội dung, còn những kênh nhỏ và những cá nhân đơn lẻ thì chẳng ai thèm xin phép hoặc trả tác quyền.
Cuộc điều tra của Proof News phát hiện ra, đơn vị tạo ra cơ sở dữ liệu The Pile là startup có tên EleutherAI. Trên trang web của họ, họ đề cập tới mục tiêu tạo ra những công nghệ AI tối tân cho mọi người. Tuy nhiên cách để họ thực hiện mục tiêu này thì rất đáng tranh cãi, hầu hết đều là những thoả thuận bán dữ liệu huấn luyện cho các gã khổng lồ công nghệ hay những đơn vị nghiên cứu AI nổi tiếng nhất thế giới hiện tại.
Nhiều nhà phát triển AI, từ Apple đến Nvidia đều đã ứng dụng cơ sở dữ liệu The Pile kể trên để huấn luyện mô hình của họ.
Quảng cáo
Còn các nhà lập pháp trong thời gian qua chỉ có những động thái tìm cách viết những bộ luật kiểm soát cách vận hành AI để không biến thứ công nghệ này trở thành hiểm hoạ cho cả xã hội. Còn vấn đề tác quyền những nội dung được dùng để huấn luyện AI, thì chưa thấy được đề cập và có những thảo luận nghiêm túc.
Gần đây nhất, thượng viện Mỹ đã thông qua một đạo luật tên là COPIED Act, viết tắt của “Content Origin Protection and Integrity from Edited and Deepfaked Media.” Những điều khoản trong đạo luật này được thiết lập để ngăn chặn việc lợi dụng deepfake nói riêng và AI nói chung vào mục đích xấu, tạo ra bộ khung chế tài quản lý để kiểm soát những vùng xám hiện tại của công nghệ AI.
Theo Techspot