Tuần qua, Đại học Harvard đã thông báo về việc phát triển một tập dữ liệu huấn luyện AI và cho phép người dùng sử dụng tập dữ liệu này để huấn luyện các mô hình ngôn ngữ lớn của mình.
Hiện tại, có rất nhiều cuộc chiến pháp lý giữa các công ty AI và các nhà sản xuất nội dung về vấn đề bản quyền trong dữ liệu dùng để huấn luyện AI. Một trường hợp nổi bật là việc The New York Times kiện OpenAI và Microsoft về vấn đề tương tự. Trong những vụ kiện này, dù hiện tại phần thắng chưa rõ sẽ nghiêng về ai, nhưng nếu các công ty AI thắng, họ sẽ tiếp tục được sử dụng những dữ liệu đó mà không cần quan tâm đến vấn đề bản quyền. Tuy nhiên, nếu thua, việc sử dụng sẽ bị cấm và các mô hình ngôn ngữ mà các công ty này phát triển chắc chắn sẽ bị ảnh hưởng.
Những tập dữ liệu huấn luyện công khai đang được phát triển mạnh mẽ
Đối mặt với những vấn đề đó, một làn sóng các dự án phát triển các tập dữ liệu công cộng – nơi mọi người có thể sử dụng cho các mô hình ngôn ngữ của họ – đang trở nên mạnh mẽ. Vào mùa xuân năm ngoái, Pleias, một startup AI của Pháp, đã ra mắt một tập dữ liệu công cộng có tên là Common Corpus, được hỗ trợ bởi Bộ Văn hóa Pháp. Tập dữ liệu này bao gồm 3 đến 4 triệu cuốn sách cùng các bộ sưu tập định kỳ. Common Corpus đã được tải xuống hơn 60.000 lần trong tháng này trên nền tảng AI mã nguồn mở Hugging Face. Gần đây, Pleias đã thông báo phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên tập dữ liệu này. Đây là một trong những mô hình đầu tiên được huấn luyện hoàn toàn trên dữ liệu mở, đồng thời tuân thủ Đạo luật AI của EU.
Hiện tại, có rất nhiều cuộc chiến pháp lý giữa các công ty AI và các nhà sản xuất nội dung về vấn đề bản quyền trong dữ liệu dùng để huấn luyện AI. Một trường hợp nổi bật là việc The New York Times kiện OpenAI và Microsoft về vấn đề tương tự. Trong những vụ kiện này, dù hiện tại phần thắng chưa rõ sẽ nghiêng về ai, nhưng nếu các công ty AI thắng, họ sẽ tiếp tục được sử dụng những dữ liệu đó mà không cần quan tâm đến vấn đề bản quyền. Tuy nhiên, nếu thua, việc sử dụng sẽ bị cấm và các mô hình ngôn ngữ mà các công ty này phát triển chắc chắn sẽ bị ảnh hưởng.
Những tập dữ liệu huấn luyện công khai đang được phát triển mạnh mẽ
Đối mặt với những vấn đề đó, một làn sóng các dự án phát triển các tập dữ liệu công cộng – nơi mọi người có thể sử dụng cho các mô hình ngôn ngữ của họ – đang trở nên mạnh mẽ. Vào mùa xuân năm ngoái, Pleias, một startup AI của Pháp, đã ra mắt một tập dữ liệu công cộng có tên là Common Corpus, được hỗ trợ bởi Bộ Văn hóa Pháp. Tập dữ liệu này bao gồm 3 đến 4 triệu cuốn sách cùng các bộ sưu tập định kỳ. Common Corpus đã được tải xuống hơn 60.000 lần trong tháng này trên nền tảng AI mã nguồn mở Hugging Face. Gần đây, Pleias đã thông báo phát hành bộ mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên tập dữ liệu này. Đây là một trong những mô hình đầu tiên được huấn luyện hoàn toàn trên dữ liệu mở, đồng thời tuân thủ Đạo luật AI của EU.
Ngoài ra, có rất nhiều dự án khác đang được thực hiện với mục đích tương tự. Startup AI Spawning đã ra mắt tập dữ liệu của riêng mình có tên là Source.Plus vào mùa hè này. Tập dữ liệu này bao gồm các hình ảnh thuộc phạm vi công cộng, được lấy từ Wikimedia Commons cùng nhiều bảo tàng và kho lưu trữ khác nhau. Một số tổ chức văn hóa lớn như Bảo tàng Nghệ thuật Metropolitan ở New York từ lâu đã cho phép truy cập công khai vào các kho lưu trữ của họ.
Institutional Data Initiatives (IDI), tổ chức thành lập bởi Đại học Harvard sẽ thực hiện dự án này
Harvard không đứng ngoài xu thế này khi tuần vừa rồi đại học này đã thông báo về việc ra mắt một tập dữ liệu huấn luyện AI được hỗ trợ bởi OpenAI và Microsoft. Tập dữ liệu này vừa được tạo ra bởi tổ chức mới thành lập của Harvard: Institutional Data Initiatives (IDI), với lượng nội dung từ hơn 1 triệu quyển sách – gấp 5 lần Books3 – vốn được dùng để huấn luyện các mô hình như Meta Llama. Nội dung của nó trải rộng qua nhiều chủ đề khác nhau, qua nhiều thập kỷ, với các ngôn ngữ đa dạng và nội dung đến từ các nhà văn như Shakespeare, Charles Dickens, Dante hay nội dung toán học từ những quyển sách cổ xưa. Theo IDI, tập dữ liệu này được kỳ vọng sẽ tạo ra một môi trường bình đẳng hơn cho các công ty AI, đặc biệt là các công ty nhỏ.
Greg Leppert, đại diện của IDI, tin rằng dự án này mang lại giá trị lớn, giúp các công ty AI – đặc biệt là các công ty nhỏ – có thể tiếp cận tới nguồn nội dung chất lượng cao cho mô hình của họ. Tuy nhiên, ông vẫn cho rằng các công ty này cũng nên sử dụng thêm các dữ liệu huấn luyện khác để tạo ra sự khác biệt giữa mô hình của họ với đối thủ cạnh tranh. Microsoft và OpenAI đã đưa ra những bình luận mang tính ủng hộ dự án và cho rằng nó phù hợp với định hướng phát triển AI của họ.
Bên cạnh đó, IDI cũng đang làm việc với các đơn vị khác như Boston Public Library để cập nhật thêm nội dung từ các tạp chí vào cơ sở dữ liệu của mình. Họ cũng mong muốn mở rộng sự hợp tác với bất kỳ ai hứng thú, miễn là điều đó mang lại sự phong phú cho tập dữ liệu huấn luyện của họ.
Nguồn: Wired