IFA 2024

IFA 2024


Nvidia, Apple, Google, Meta... huấn luyện AI nhờ nội dung từ YouTube, không xin phép ai

P.W
17/7/2024 12:20Phản hồi: 19
Nvidia, Apple, Google, Meta... huấn luyện AI nhờ nội dung từ YouTube, không xin phép ai
Câu chuyện này không mới, nhưng gần đây video phóng sự điều tra của Proof News mới mô tả thực sự chi tiết quy mô tận dụng nội dung transcript âm thanh từ hàng trăm nghìn video trên YouTube thành văn bản, rồi dùng chúng để huấn luyện những mô hình ngôn ngữ của các tập đoàn khổng lồ. Bài phóng sự của Proof News nêu ra đầy đủ những tập đoàn công nghệ nổi tiếng nhất hành tinh: Apple, Nvidia, rồi cả Anthropic hay Salesforce nữa.



Hành vi của các tập đoàn này đi ngược lại hoàn toàn quy định sử dụng dịch vụ của YouTube, trong đó có mục cấm hành động thu thập dữ liệu ở quy mô lớn từ nền tảng mà không xin phép. Nhưng thực tế thì OpenAI hay chính bản thân Google cũng đã và đang thực hiện việc thu thập lượng dữ liệu văn bản khổng lồ, được chuyển đổi từ dữ liệu âm thanh của hàng nghìn, hàng vạn video người dùng đăng tải lên YouTube:

Huấn luyện AI giờ cần lượng văn bản gấp vài lần kiến thức của toàn bộ loài người gộp lại

Tuyên bố của tờ The New York Times đưa ra là, cả OpenAI, Google lẫn Meta đều đã lờ đi những quy định nội bộ tập đoàn, tự chế cháo lại quy định, thậm chí còn tìm cách tìm ra những lỗ hổng trong luật bản quyền và sở hữu trí tuệ để thu thập lượng dữ…
tinhte.vn


Gói dữ liệu transcript nội dung âm thanh video thành văn bản có tên là “YouTube Subtitles.” Đây là một gói dữ liệu nằm trong cơ sở dữ liệu lớn được ví von bằng cái tên “The Pile”. Đó là gói dữ liệu tổng hợp nội dung dưới dạng văn bản của 173.536 video YouTube, từ hơn 48 nghìn kênh YouTube nổi tiếng. Trong số đó là những kênh YouTube kiến thức với hàng triệu người đăng ký, như MIT, Khan Academy hay kênh YouTube của đại học Harvard, cho tới cả những kênh tin tức chính thống như The Wall Street Journal, NPR hay cả BBC nữa. Cùng với đó là những video với nội dung giàu tính ngôn ngữ, như những chương trình talkshow. Những content creator nổi tiếng như MrBeast, Jacksepticeye và cả PewDiePie cũng bị lấy nội dung clip dể huấn luyện mô hình AI.


Cộng tác viên của Proof News, Alex Reisner đã phát hiện ra cơ sở dữ liệu The Pile vào năm 2023. Trong đó là đủ thứ nội dung, từ những cuốn sách có bản quyền sở hữu tri tuệ, cho tới những nghiên cứu hàn lâm, rồi chất lượng thấp hơn là những cuộc trò chuyện trên mạng internet và những đoạn transcript chuyển nội dung video YouTube từ âm thanh thành văn bản...

Sau khi tìm được The Pile, Reisner đã hệ thống hoá cơ sở dữ liệu này, vì anh cho rằng những cá nhân và đơn vị nắm giữ tác quyền những nội dung ấy có quyền được biết nội dung của họ đang bị sử dụng trái phép, và cơ sở dữ liệu được hệ thống hoá sẽ cho phép tất cả mọi người tìm kiễm nội dung thuộc sở hữu của họ một cách dễ dàng hơn.

Reisner cho biết: “Tôi nghĩ chúng ta, trên khía cạnh cả xã hội, rất khó để có những thảo luận về AI nếu như chúng ta không biết chúng được phát triển và xây dựng như thế nào. Tôi nghĩ rằng những nhà sáng tạo nội dung trên YouTube có thể sẽ muốn biết nội dung họ tạo ra đang được dùng vào mục đích gì. Cũng sẽ là thứ vô cùng liên quan, khi chúng ta đăng tải video, hình ảnh và văn bản trên mạng internet, và chúng được quét, thu thập rồi gom lại thành một phần của cả cơ sở dữ liệu lớn, rồi đem đi dùng vào mục đích huấn luyện những mô hình AI. Hiện giờ các công ty nghiên cứu AI đang lạm dụng mọi thứ họ có thể thu thập được.”

Nvidia trong mắt người ngoại đạo, và vị thế trung tâm của nền kinh tế AI

Adam, 44 tuổi, mới chỉ mua cổ phiếu của vài công ty khi anh đưa ra quyết định đầu tư vào một cổ phiếu có tên “Nvidia” sau khi bạn mình đưa ra lời khuyên. Nhà đầu tư cá nhân, hiện đang làm việc trong ngành khách sạn ở London…
tinhte.vn


David Pakman, người thực hiện podcast “The Pakman Show” bày tỏ sự bực tức khi biết thông tin này, hé lộ rằng gần 160 video podcast do anh thực hiện đã bị chuyển nội dung thành văn bản và nằm trong gói dữ liệu YouTube Transcript. Đương nhiên không thấy có ai xin phép Pakman sử dụng nội dung mà anh sản xuất ra. Theo Pakman, kênh của anh là nguồn thu để nuôi sống 4 nhân viên toàn thời gian. Anh cho rằng đáng lẽ anh cùng các cộng sự nên được đền bù nếu như các công ty phát triển AI được hưởng lợi từ việc sử dụng nội dung anh làm ra huấn luyện những mô hình ngôn ngữ. Làm ra những nội dung như thế này tốn không ít thời gian, và sử dụng chúng mà không xin phép thì không khác gì ăn cắp, theo Pakman.

Dave Wiskus, CEO dịch vụ chia sẻ video Nebula cũng có chung quan điểm. Ông gọi cách lợi dụng nội dung người khác làm để huấn luyện AI mà không xin phép là một hành vi vô đạo đức. Ông cảnh báo rằng AI tạo sinh hoàn toàn có thể thay thế cho những cái đầu sáng tạo trong ngành. Và thứ khiến cho vấn đề này trở nên phức tạp hơn, là những hãng tin và nguồn nội dung, chẳng hạn như Associated Press, đã ký kết thoả thuận chia sẻ nội dung mà họ nắm bản quyền cho các công ty nghiên cứu AI. Những cái tên lớn thì được quyền đưa ra thoả thuận chia sẻ nội dung, còn những kênh nhỏ và những cá nhân đơn lẻ thì chẳng ai thèm xin phép hoặc trả tác quyền.

Cuộc điều tra của Proof News phát hiện ra, đơn vị tạo ra cơ sở dữ liệu The Pile là startup có tên EleutherAI. Trên trang web của họ, họ đề cập tới mục tiêu tạo ra những công nghệ AI tối tân cho mọi người. Tuy nhiên cách để họ thực hiện mục tiêu này thì rất đáng tranh cãi, hầu hết đều là những thoả thuận bán dữ liệu huấn luyện cho các gã khổng lồ công nghệ hay những đơn vị nghiên cứu AI nổi tiếng nhất thế giới hiện tại.

Nhiều nhà phát triển AI, từ Apple đến Nvidia đều đã ứng dụng cơ sở dữ liệu The Pile kể trên để huấn luyện mô hình của họ.

Quảng cáo



Còn các nhà lập pháp trong thời gian qua chỉ có những động thái tìm cách viết những bộ luật kiểm soát cách vận hành AI để không biến thứ công nghệ này trở thành hiểm hoạ cho cả xã hội. Còn vấn đề tác quyền những nội dung được dùng để huấn luyện AI, thì chưa thấy được đề cập và có những thảo luận nghiêm túc.

Gần đây nhất, thượng viện Mỹ đã thông qua một đạo luật tên là COPIED Act, viết tắt của “Content Origin Protection and Integrity from Edited and Deepfaked Media.” Những điều khoản trong đạo luật này được thiết lập để ngăn chặn việc lợi dụng deepfake nói riêng và AI nói chung vào mục đích xấu, tạo ra bộ khung chế tài quản lý để kiểm soát những vùng xám hiện tại của công nghệ AI.

Theo Techspot
19 bình luận
Chia sẻ

Xu hướng

Giờ cái đám làm AI này nó khát dữ liệu kinh khủng luôn, cào được chỗ nào thì bọn nó cào hết, phốt tè le https://vnexpress.net/gemini-ai-bi-nghi-quet-tep-google-drive-trai-phep-4770980.html


Mà content mà người dùng tạo ra cũng ko đủ để bọn nó train nữa rồi, chừng vài năm nữa chắc phải train bằng nội dung do AI tạo ra luôn, mà cái data này thì ko chuẩn
@magez Gemini AI còn bị nghi chứ Apple Intelligence thì không còn nghi ngờ gì nữa https://tinhte.vn/thread/ios-17-5-gap-loi-tu-dong-khoi-phuc-cac-anh-nhay-cam-da-xoa-trong-ung-dung-anh-photos.3787800/
Ngiti
ĐẠI BÀNG
một tháng
@magez Dùng cái không chuẩn để huấn luyện AI..riết biến thành cái AI khùng khùng..huỷ hoại con người
@magez bảo mật 2fa cũng ko đc ah bác?
@haobcyqhdvb 2FA là để chống thằng khác login vô thôi, còn thằng host nó muốn truy xuất thì sao cản được, file để trên server của nó ko có mã hoá gì hết, nó muốn access lúc nào chả được, ko cần login đâu.
Còn muốn chống bị quét thì dùng mấy cái cloud có mã hoá 2 đầu như là Mega đó
@magez mã hóa 2 đầu là bảo mật 2fa đó ah bác?
Chứng tỏ AI thua kém con người rất nhiều, vì con người có tính ngẫu nhiên, ngẫu nhiêu càng lớn tính sáng tạo càng cao.
@centernc cụ bớt nổ đi, mà dạo này tính sáng tạo thụt lùi càng cao thì có, khả năng xử lý kém, phụ thuộc nhiều công nghệ .. méo biết gì lại youtube google dc mấy mống sáng tạo từ gốc tới ngọn
Làm gì chúng giờ
Học dữ liệu từ Mrbearst kênh này có info hay kiến thức gì hay ho như các page chia sẻ kiến thức hay dạy học đâu nhỉ? kiến thức bị chia sẻ sai thì AI cũng sẽ sai theo thôi, rốt cuộc còn lâu mới thay dc con người nhé. Thay thế gà mờ dc chứ thay chuyên gia thì chưa biết à.
toàn công ty mẽo. nếu công ty nga hay tq là chúng nó nhảy dựng lên
😁 Free thì mình là món hàng =)) thôi thì vẫn phải dùng
Có thì vẫn tiện hơn được 1 xíu thật
Mấy video trên youtube xem free mà. AI nó khai thác video trên đó cũng như là xem free thôi. Sao lại kêu ca nhi?
@vinhptfpt giống công viên vô chơi miễn phí nhưng ông mở cái sạp thu thập thông tin của người vào công viên thì ông vi phạm rồi
Bình thường mn xem youtube cũng phải xin phép ai à??
@kehuydietngo khi bạn xem, bạn là end-user. Nhưng bạn train AI để thương mại thì bạn đang dùng chất xám của người khác để kiếm tiền mà không trả phí.
@GHOST IN THE SHELL K bạn ơi, mình dùng video YouTube để giảng dạy kiếm tiền chẳng hạn thì k lẽ cũng phải xin phép YouTube? Chưa kể mấy bên kia nó mua YouTube Premium để tránh quảng cáo lúc training nữa
Mõm Sẻeder thì Apple ko có AI nên Apple vô can nhé

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019