Huấn luyện AI giờ cần lượng văn bản gấp vài lần kiến thức của toàn bộ loài người gộp lại

P.W
15/4/2024 10:10Phản hồi: 48
Huấn luyện AI giờ cần lượng văn bản gấp vài lần kiến thức của toàn bộ loài người gộp lại
Tuyên bố của tờ The New York Times đưa ra là, cả OpenAI, Google lẫn Meta đều đã lờ đi những quy định nội bộ tập đoàn, tự chế cháo lại quy định, thậm chí còn tìm cách tìm ra những lỗ hổng trong luật bản quyền và sở hữu trí tuệ để thu thập lượng dữ liệu khổng lồ trên mạng internet, phục vụ cho mục tiêu huấn luyện những mô hình AI kích thước và tham số rất lớn của họ.

Cuối năm 2021, OpenAI gặp vấn đề với nguồn cung dữ liệu phục vụ huấn luyện mô hình ngôn ngữ. Họ không còn nguồn nào để thu thập và tổng hợp những văn bản tiếng Anh trên mạng internet nữa. Họ cần nhiều, rất nhiều dữ liệu để phiên bản kế tiếp của GPT được ra mắt đúng hẹn.

Đó là lúc các kỹ sư và các nhà nghiên cứu của OpenAI tạo ra một công cụ nhận diện giọng nói tên là Whisper. Nó có thể biến âm thanh từ video trên YouTube thành văn bản, tạo ra nguồn nội dung khổng lồ phục vụ cho việc huấn luyện hệ thống AI, giúp những mô hình ngôn ngữ trở nên thông minh hơn.

[​IMG]

Vài nhân viên của OpenAI đã từng thảo luận việc tạo ra và ứng dụng Whisper có vi phạm quy định sử dụng dịch vụ của YouTube hay không. Mạng xã hội chia sẻ video thuộc sở hữu của Google cấm việc sử dụng nội dung video mọi người đăng tải trên dịch vụ này vào những ứng dụng “độc lập” với bản thân YouTube.


Nhưng OpenAI vẫn sử dụng Whisper. Kết quả, họ có được nội dung dạng văn bản của hơn 1 triệu giờ đồng hồ video trên YouTube. Nguồn tin của NYT cho biết, nhóm ứng dụng công cụ Whisper bao gồm cả chủ tịch OpenAI, Greg Brockman, thậm chí vị giám đốc cấp cao này còn đích thân làm công việc tổng hợp video cho Whisper vận hành, tạo ra nội dung văn bản phục vụ huấn luyện GPT-4. Đó là một trong những khía cạnh đóng góp cho việc GPT-4 hiện giờ đang được coi là một trong những mô hình ngôn ngữ mạnh nhất hành tinh hiện giờ, nền tảng vận hành chatbot ChatGPT.

Dùng hết cả cơ sở dữ liệu kiến thức loài người


Chẳng riêng OpenAI, Meta và Google cũng đang rơi vào tình cảnh tuyệt vọng, làm mọi cách để tìm kiếm nguồn cung cấp dữ liệu đầu vào để huấn luyện mô hình ngôn ngữ. Và cũng giống như OpenAI, Meta hay Google cũng đã có những dấu hiệu đốt cháy giai đoạn, thậm chí vi phạm quy định hiện hành của những dịch vụ trực tuyến và lách những điều luật bảo vệ quyền riêng tư của người dùng internet.

Ở Meta, các giám đốc, nhân viên pháp lý và các kỹ sư năm ngoái đã bàn tới chuyện mua lại đơn vị xuất bản Simon & Schuster để có được bản quyền sử dụng những nội dung văn bản mà đơn vị này sở hữu. Họ tính đến cả chuyện tổng hợp luôn những dữ liệu đang được luật bản quyền bảo vệ, bất chấp nguy cơ xảy ra kiện cáo về sau. Theo họ, quá trình đàm phán với các nhà xuất bản, nghệ sĩ, nhạc sĩ và các tập đoàn truyền thông sẽ tốn rất nhiều thời gian quý báu để huấn luyện mô hình AI.

Còn ở Google, tương tự như OpenAI, chính bản thân tập đoàn này cũng đang có một công cụ tự động chuyển đổi âm thanh trong các video trên YouTube thành dạng văn bản để huấn luyện AI. Hành vi này có khả năng vi phạm bản quyền video, thứ thuộc về những nhà sáng tạo nội dung chứ không phải YouTube và Google.

img-6tm2QLYSDfROyIM1G15A6p9S.webp

Năm ngoái, để đối mặt với những nguy cơ có thể phát sinh, Google đã chỉnh sửa lại quy định sử dụng dịch vụ. Nhờ đó, họ có thể tiếp cận tự do những văn bản lưu trữ dưới dạng công khai trên Google Docs, những văn bản đánh giá địa điểm du lịch trên Google Maps, hay những nội dung công khai khác trên mạng internet.

Những động thái được tổng hợp trên đây đã mô tả rõ ràng nguồn sống của quá trình huấn luyện những mô hình AI hứa hẹn thay đổi cả ngành công nghệ nói riêng và cả thế giới nói chung. Đó là những thông tin trực tuyến, từ những mẩu tin, những tác phẩm hư cấu, những văn bản công khai, những bài viết trên Wikipedia, những dòng code của những ứng dụng điện toán, hình ảnh, nội dung podcast hay cả những đoạn clip ngắn trong các bộ phim.

Quảng cáo


Tạo ra những hệ thống AI mới mẻ luôn cần lượng dữ liệu đủ để dạy cho hệ thống máy học biết cách ngay lập tức tạo ra những đoạn văn, những hình ảnh, những mẩu âm thanh và video, giống như những gì con người tạo ra trước đó.

Mua bản quyền thì không kịp


Vậy thì AI cần bao nhiêu dữ liệu để học? Những hệ thống chatbot AI hàng đầu hiện nay được học từ cơ sở dữ liệu khoảng 3 nghìn tỷ từ, tức là gấp đôi lượng văn bản đang được lưu trữ tại thư viện Bodleian của đại học Oxford, thư viện đã tổng hợp và lưu trữ văn bản của con người từ tận năm 1602:

library.webp
Theo các nhà nghiên cứu AI, những dạng thông tin và dữ liệu có giá trị nhất là những thông tin có giá trị cao như những bài viết và sách được xuất bản, được viết một cách cẩn trọng, rồi được biên tập viên chuyên nghiệp chỉnh sửa.

Cứ tưởng rằng, internet, với những trang web như Wikipedia và Reddit là nguồn thông tin vô tận. Nhưng khi AI phát triển, các tập đoàn công nghệ càng lúc càng muốn nhiều hơn. Những tập đoàn như Google và Meta bị giới hạn bởi luật bảo vệ quyền riêng tư của con người, cũng như quy định của chính họ, bất chấp việc hàng ngày có hàng tỷ người đang sử dụng dịch vụ trực tuyến mà họ cung cấp.

[​IMG]

Quảng cáo


Theo viện nghiên cứu Epoch, chỉ cần đến năm 2026, có thể các tập đoàn công nghệ sẽ cạn kiệt nguồn cung cấp thông tin và dữ liệu để huấn luyện AI.

Sy Damle, luật sư đại diện cho quỹ đầu tư Andreessen Horowitz: “Cách thực tế duy nhất để những công cụ AI có thể tồn tại là chúng phải được huấn luyện dựa trên lượng dữ liệu khổng lồ, mà không cần phải bỏ tiền mua bản quyền những thông tin ấy. Lượng dữ liệu cần là quá lớn, đến mức nếu mua bản quyền cho từng nguồn thì sẽ chẳng thể kịp chạy đua phát triển công nghệ AI.”

Giải pháp mới, các tập đoàn công nghệ chuyển sang tự tổng hợp nội dung mới để hệ thống AI học theo. Đây không phải những nội dung văn bản mà con người viết ra, mà là những văn bản, hình ảnh và những dòng code lập trình được những mô hình AI tạo ra. Nói cách khác, AI tự học từ chính những gì chúng tạo ra, những vòng lặp vô tận tới khi mô hình AI được coi là đủ chất lượng để vận hành.

Vấn đề sở hữu trí tuệ


Đối với những nhà sáng tạo, việc các công ty nghiên cứu AI sử dụng tác phẩm của họ để phục vụ huấn luyện thuật toán đã dẫn tới vài vụ kiện về sở hữu trí tuệ. Tờ The Times đã kiện OpenAI và Microsoft vào năm ngoái vì dùng những bài viết tin tức của The Times để huấn luyện AI. OpenAI và Microsoft thì cho rằng ứng dụng những bài viết ấy để huấn luyện AI là “ứng dụng công bằng”, được luật bản quyền bảo vệ, vì việc họ làm là chuyển đổi những tác phẩm của các phóng viên và nhà báo sang một mục đích sử dụng khác.

230902122704-01-sag-aftra-strike-nyc-083123-restricted.jpg

Văn phòng sáng chế và thương hiệu Mỹ thì không cho phép AI trở thành nhà sáng chế, phải có sự hiện diện của con người trên mỗi bằng sáng chế, công cụ AI sẽ chỉ là một trong những công cụ hỗ trợ hệt như máy tính điện toán mà thôi.

Các diễn viên và các nhà biên kịch Hollywood thì công khai lên tiếng, thậm chí đình công vì lo ngại AI sẽ khiến công việc của họ, và bản quyền sở hữu hình ảnh cá nhân chính gương mặt của họ bị đe dọa ứng dụng sai cách, theo hướng không có lợi cho họ.

Vì đâu đến nỗi?


Tháng 1/2020, Jared Kaplan, một nhà vật lý học lý thuyết tại đại học Johns Hopkins đã công bố một công trình nghiên cứu tạo ra tiền đề cho mọi vấn đề được liệt kê trên đây. Kết luận của nhà nghiên cứu này: Dữ liệu dùng để huấn luyện mô hình dữ liệu quy mô lớn càng nhiều, thì mô hình sẽ vận hành càng tốt. Hiểu theo cách đơn giản, huấn luyện AI giống y hệt như cách học sinh sinh viên đọc càng nhiều sách, học được càng nhiều kiến thức trong những cuốn sách ấy. AI được “đọc” càng nhiều, thì khả năng tìm ra những khuôn mẫu trong các văn bản càng tốt, tổng hợp thông tin càng chính xác.

Hiện tại tiến sĩ Kaplan đang làm việc cho startup AI Anthropic.

Đã từ lâu, nguồn thông tin công khai trên mạng internet và những thư viện mã nguồn mở đã được các nhà nghiên cứu AI ứng dụng để phát triển AI, bao gồm cả thư viện Wikipedia và Common Crawl, cơ sở dữ liệu với hơn 250 tỷ trang web tổng hợp từ năm 2007. Để làm dữ liệu “sạch”, những nội dung mang tính thù ghét hoặc nội dung không mong muốn sẽ được xóa thủ công trước khi đưa cho AI “học”.

Nhưng chỉ 4 năm trước, những cơ sở dữ liệu dùng để nghiên cứu AI có khi chỉ là 30 nghìn tấm hình đăng công khai trên Flickr. Lượng dữ liệu này, nếu so sánh với cơ sở dữ liệu dùng huấn luyện Gemini hay GPT-4 ngày hôm nay thực sự có thể được mô tả bằng một tính từ vô cùng chính xác, tí hon.

gpt-4-1699886103879.webp

Khi GPT-3 được ra mắt tháng 11/2020, nó được OpenAI huấn luyện dựa trên cơ sở dữ liệu lớn nhất tính đến thời điểm ấy, 300 tỷ “token”, khái niệm mô tả từng từ hay từng chuỗi từ trong các văn bản. Sau khi học xong từ lượng dữ liệu ấy, hệ thống AI tạo ra những văn bản với mức độ chính xác đáng kinh ngạc, viết được từ blog đến thơ ca, rồi thậm chí là cả code lập trình.

Năm 2022, DeepMind của Google đi một bước xa hơn. Họ thử nghiệm 400 mô hình AI, thay đổi lượng dữ liệu huấn luyện và những yếu tố khác. Giống hệt như dự đoán của tiến sĩ Kaplan, những mô hình AI hoạt động tốt nhất luôn được huấn luyện từ lượng dữ liệu lớn nhất. Một trong số đó, tên mã Chinchilla, được huấn luyện dựa trên 1.4 nghìn tỷ token.

Năm ngoái, Skywork của các nhà nghiên cứu AI Trung Quốc được huấn luyện dựa trên 3.2 nghìn tỷ token văn bản ngôn ngữ Anh và Trung Quốc.

Google cũng giới thiệu PaLM 2, được huấn luyện dựa trên 3.6 nghìn tỷ token.

OpenAI và Whisper


Theo nguồn tin của NYT, vài nhân sự của Google biết rõ OpenAI đang làm gì với dữ liệu video trên YouTube với công cụ Whisper. Nhưng họ không tìm cách ngăn cản OpenAI, vì nếu làm vậy là đạo đức giả, họ đang làm điều y hệt, cũng chuyển đổi âm thanh clip trên YouTube thành văn bản để huấn luyện mô hình AI.

Matt Bryant, người phát ngôn của Google nói rằng công ty không biết tới những gì OpenAI đã và đang làm với YouTube, cùng lúc khẳng định lại việc họ cấm “tải về hoặc rà soát nội dung YouTube”. Theo người phát ngôn này, nếu có nền tảng pháp lý và kỹ thuật, họ sẽ có động thái chính thức. Geoffrey Lottenberg, luật sư ngành sở hữu trí tuệ của hãng luật Berger Singerman cho rằng ngôn ngữ trong quy định của Google đối với YouTube có phần mơ hồ.

Whisper.jpg

Cuối năm 2022, ChatGPT ra mắt trên toàn thế giới, kích hoạt cuộc đua mà mọi tập đoàn công nghệ hiện tại đều đang chạy theo. Các nhà nghiên cứu và các kỹ sư của Google cũng đã bàn tới việc thu gom dữ liệu cá nhân của người dùng các dịch vụ trực tuyến mà tập đoàn đang vận hành. Trong mắt họ, hàng tỷ cụm từ, hàng tỷ token đang nằm trong Google Docs và những ứng dụng miễn phí khác của Google. Nhưng chính quy định bảo mật và quyền riêng tư của họ đã giới hạn cách họ được dùng lượng dữ liệu ấy.

Tháng 6/2023, theo nguồn tin của NYT, bộ phận pháp chế của Google đã hỏi nhóm vận hành đảm bảo quyền riêng tư của tập đoàn lên một văn bản nháp để mở rộng những quyền mà Google có thể làm với dữ liệu cá nhân của hàng tỷ người dùng. Những nhân viên tại đây cho biết, Google muốn dùng những dữ liệu công khai của mọi người trên Google Docs, Google Sheets và những ứng dụng khác để phục vụ huấn luyện AI.

Cùng lúc, Google cũng cho biết họ sẽ dùng thông tin công khai để “huấn luyện những mô hình ngôn ngữ của Google, tạo ra những tính năng giống như Google Translate.” Nhóm nhân sự về quyền riêng tư của Google viết ra những quy định mới để Google làm được điều đó.

Meta và những tranh cãi về bản quyền


Mark Zuckerberg đã đầu tư nghiên cứu AI trong nhiều năm qua, nhưng khi ChatGPT ra mắt, giống như rất nhiều giám đốc các tập đoàn công nghệ khác, anh cũng phát hiện ra bản thân và cả tập đoàn đang bị tụt hậu trong cuộc đua vừa bắt đầu. Ngay lập tức, các nhân viên Meta được lệnh tạo ra một mô hình ngôn ngữ tốt, thậm chí tốt hơn những gì dùng để vận hành ChatGPT.

Nhưng đến đầu năm 2023, Meta cũng rơi vào tình trạng hết dữ liệu và văn bản để huấn luyện mô hình ngôn ngữ, hệt như mọi tập đoàn khác.

Ahmad Al-Dahle, phó chủ tịch mảng AI nội suy của Meta có lần nói với các nhân viên dưới quyền rằng Meta đã dùng hết những đầu sách ngôn ngữ Anh, luận văn, những bài thơ và cả những bài viết tin tức trên mạng internet để huấn luyện AI. Chỉ có một cách duy nhất để Meta bắt kịp và vượt qua OpenAI, đó là có thêm thật nhiều dữ liệu. Hệ quả là tháng 3 và tháng 4/2023, vài kỹ sư, giám đốc kinh doanh và luật sư của Meta gặp nhau thường xuyên để tìm ra phương án giải quyết vấn đề này.

np-file-239847.jpeg

Có người đề cập giải pháp trả 10 USD cho mỗi cuốn sách. Có người thì tính chuyện mua lại cả nhà xuất bản Simon & Schuster. Họ cũng bàn tới chuyện trước đó đã tóm tắt những cuốn sách, luận văn và những văn bản khác trên mạng internet mà không được sự cho phép của chủ sở hữu trí tuệ. Một vị luật sư cảnh báo về những vấn đề mang tính đạo đức, nhưng không được đồng tình.

Mark Zuckerberg chỉ cần một giải pháp rõ ràng: “Thứ mà Mark đang tìm kiếm đơn giản là thứ hiện giờ chúng tôi chưa sẵn sàng để tạo ra," một kỹ sư cho biết.

Dù có vài mạng xã hội với hàng tỷ người dùng, những nội dung trên Facebook hay Instagram cũng không đủ để phục vụ huấn luyện AI. Thứ nhất là nhiều bài viết cũ bị xóa. Và thứ hai là trên những nền tảng này, không phải ai cũng viết những bài dài như luận văn.

Rồi những rắc rối liên quan tới scandal để lộ thông tin cá nhân với Cambridge Analytica hồi năm 2018 cũng là một yếu tố giới hạn khả năng thu thập dữ liệu của họ.

“Dữ liệu phái sinh”


Như đã đề cập, Sam Altman có một giải pháp để đối mặt với tình trạng thiếu hụt trầm trọng dữ liệu huấn luyện AI trong tương lai gần. Hồi tháng 5/2023, ở một hội thảo, vị CEO này cho biết những công ty như OpenAI rồi sẽ phải huấn luyện mô hình dựa trên chính những nội dung mà AI tạo ra. Theo anh này, vì AI giờ có thể tạo ra những văn bản giống hệt như con người viết ra, hệ thống có thể tự phái sinh dữ liệu để tự học, tự biến chúng thành những phiên bản AI tốt hơn. Điều này, theo Altman, sẽ giúp những nhà phát triển tạo ra những công nghệ càng lúc càng mạnh, giảm phụ thuộc vào dữ liệu có bản quyền.

a-chat-with-chat-GPT-b0720c02d3.png

Trong nhiều năm qua, các nhà nghiên cứu cũng đã tính toán đến việc ứng dụng dữ liệu phái sinh. Nhưng tạo ra một AI có thể tự học dựa trên chính những dữ liệu nó tạo ra luôn là quá trình nói dễ hơn làm. Lấy một ví dụ đơn giản, nếu văn bản AI tạo ra vừa bị giới hạn, vừa sai, thì quy trình huấn luyện AI sẽ trở thành một vòng lặp vô nghĩa và tạo ra những AI vô dụng.

Để giải quyết vấn đề này, OpenAI và vài tập đoàn khác đang tìm cách để hai hệ thống AI khác nhau làm việc với nhau để tạo ra những dữ liệu phái sinh vừa hữu ích vừa đáng tin cậy. Một hệ thống sẽ tạo nội dung, và hệ thống còn lại sẽ đánh giá mức độ đáng tin cậy của thông tin ấy, tách những thông tin tốt khỏi thông tin xấu.

Theo The New York Times
48 bình luận
Chia sẻ

Xu hướng

Chỉ có Apple mới tôn trọng dữ liệu người dùng.

Hi vọng Apple tái định nghĩa AI để làm gương cho các hãng khác học hỏi

Hi vọng AI của Apple sẽ ko cần phải data dữ liệu traning mà sẽ tự sáng tạo ra văn bản như một con người thực sự
@Nguyen Thanh 1998 Ổng đùa thôi mà
@Nguyen Thanh 1998 Cho nó học từ điển rồi đặt cho nó những quy tắc, nó tự sáng tạo ra mà ko cần lấy dữ liệu của con người.
Ví dụ AI chụp ảnh trên điện thoại thì chỉ cần viết cho nó những quy tắc rồi nó thực hiện theo, chứ AI có cần lấy ảnh của người dùng để training đâu
@Nguyen Thanh 1998 như thế thì đứa bé đó chả có gì hay ho cả
@disme.crazy Biết chứ, lâu lâu làm 1 pha cho sướng tay thôi.
Biết quá nhiều sẽ chết, AI hiểu dc điều này chưa
@.Gù. Mấy đứa thông minh quá thường sống không có lâu...
Khôn như mày :D
@.Gù. Nhưng trong tựa đề bài gốc của The New York Times tui tìm lòi mắt cũng không ra chữ loài người đâu hết, vãi cả giựt tít 🤣
Chừng 1 vài năm nữa nội dung trên internet hầu hết chỉ toàn là do AI viết ra vì mấy công cụ AI đã quá phổ biến, lúc đó mấy cty này lại lấy đám dữ liệu đó để train AI tiếp, tạo ra vòng lặp vô tận
@magez có Top1 AI biết nội dung nào của AI , nội dung nào của con người chứ lặp thế nào biết thế nào là máy , là người 😆
AI giờ có kiến thức của nhân loại tự cổ chí kim rồi.
Mọi người muốn AI phải cực kỳ thông minh, hiểu biết, uyên bác như một Đại Hiền Giả thì phải có đủ dữ liệu kiến thức cho nó học thôi.
Khi GPT-3 được ra mắt tháng 11/2020...??????
Liệu lượng biến có dẫn đến chất biến?
Họ cần 1 AI có thể sáng tạo nội dung và có chuẩn mực đạo đức cao. Hết dữ liệu rồi thì đi chuyên sâu vô từng chuyên ngành thôi. Cho AI học các nghiên cứu sâu cụ thể về ngành sinh học, hay ADN, cơ bản về lập trình cũng chưa làm dc mấy hệ thong phần mềm hiện tại như con người đang làm nữa là.
Vanga nói đúng. Đừng nói là nhét chữ vào mồm nữa nhé !
@hongphuc1992 Vanga là con bot của chính trị
Chuẩn bị có một AI Đại hiền giả giống như Supreme Intelligence trong phim Marvel ra đời
1 cuốn này là đủ rồi
IMG-6892.jpeg
@Saga0803 Thêm ka tờ cờ tờ, lờ sờ đờ, cờ nờ xờ hờ ka hờ & bộ tờ tờ hờ cờ mờ nữa chứ.
Cười vô mặt
@Saga0803 Con AI nào cả gan vào đọc cuốn này, đọc chưa hết nửa chương là ngủ gật gọi mãi k dậy luôn chứ đùa 😂😂😂
@baotuan Cách để tiêu diệt Skynet
@Saga0803 Mấy quyển này nó học bấy nhầy rồi, giờ mà ông đi solo về tư duy triết với nó, nó gõ đầu ông bonk bonk luôn
Đổ hàng trăm tỉ USD vào AI thế này thì toàn cầu chuẩn bị đón nhận sóng sa thải chưa từng có rồi. Các hãng nó ko phung phí tiền cho vui đâu.
K mua đc thì trộm. Bổn cũ soạn lại.
Quảng nổ nghĩ sao về Bkav AI?
chờ ngày phán quyết 😃
Đưa quyển Mac Lenin sẽ khiến nó khó tiêu hoá 🙄🙄🙄
@EpicUnreal5 Lên hỏi chatgpt về mấy thứ đó xem
Lại xI:
những kiến thức đó : 99,999999999 toàn là rác :
có nhập vào thì cũng chĩ tặnk số rác lên thôi:
rác nhân rác thì cũng lại x lần số rác
Và cứ như vậy: kiên thức thì ít: mà kiếm rác thì nhiều:
đương nhiên: cái mà Ai muốn và người tạo ra nó muốn: chính là thuật toán: kiễm duyệt dàng lọc và: .....
@PhươngNguyễn (GaRiHp) Không biết bạn trẻ làm gì rồi mà bảo người ta xl. 😁
@sentino Đừng động vào các bạn trẻ 😂
@PhươngNguyễn (GaRiHp) Cái AI cần là model chứ thuật toán gì. Chắc chưa tìm hiểu về AI à.
Học al làm video youtube kiếm tiền ổn ko. Ae
machine learning của các trường gói gọn lắm. haha

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019