TTBC2024

TTBC2024


Để tạo ra AI thông minh hơn, các nhà nghiên cứu đang cần những giải pháp huấn luyện mới

P.W
12/11/2024 10:9Phản hồi: 20
Để tạo ra AI thông minh hơn, các nhà nghiên cứu đang cần những giải pháp huấn luyện mới
Những startup và đơn vị nghiên cứu AI nổi bật nhất trên thị trường hiện nay đang phải tìm ra những cách mới để huấn luyện cũng như đánh giá sức mạnh của những mô hình ngôn ngữ AI thế hệ mới, một phần của những nỗ lực giúp trí tuệ nhân tạo có thể mô phỏng cách bộ não con người suy nghĩ.

Trao đổi với Reuters, nhiều nhà nghiên cứu AI đã cho biết, những kỹ thuật mới đã được ứng dụng trong quá trình huấn luyện mô hình o1 mới được OpenAI ra mắt. Những kỹ thuật huấn luyện này, theo họ, có thể thay đổi cuộc chạy đua AI toàn cầu, cũng như thay đổi được cả nhu cầu hiệu năng xử lý của data center, nhu cầu chip xử lý và cả nhu cầu năng lượng để vận hành những data center khổng lồ.

Đại diện của OpenAI thì từ chối bình luận về việc họ đã ứng dụng giải pháp huấn luyện mô hình ngôn ngữ mới như thế nào.

Để dễ hiểu thì 2 năm qua, kể từ khi ChatGPT chính thức ra mắt tháng 11/2022, giải pháp cơ bản để tạo ra những mô hình ngôn ngữ với lượng tham số càng lúc càng cao là đẩy quy mô phần cứng máy chủ đám mây dùng trong quá trình huấn luyện và vận hành mô hình. Hiệu năng xử lý của máy chủ đám mây tăng theo tỷ lệ thuận với lượng dữ liệu các nhà nghiên cứu và các kỹ sư AI cần để huấn luyện mô hình mới, để thuật toán machine learning học được những nội dung do con người tạo ra.

Nhưng hiện giờ, nhiều nhà nghiên cứu AI đã đề xuất những giải pháp mới, và cách huấn luyện mô hình AI theo kiểu “lớn hơn là tốt hơn” giờ không còn hợp thời nữa.


safe-superintelligence-sutskever-recauda-dolares.png

Ilya Sutskever, đồng sáng lập OpenAI, người từng nắm vị trí giám đốc khoa học startup này, hiện tại đang sáng lập và làm việc cho Safe Superintelligence gần đây trả lời phỏng vấn Reuters, rằng giải pháp phổ biến hiện giờ đã có dấu hiệu chững lại. Giải pháp này là mở rộng quy mô quá trình pre-training, sử dụng dữ liệu huấn luyện do con người tạo ra, nhưng không đánh dấu nội dung, để mô hình AI hiểu kết cấu và mẫu của từng loại ngôn ngữ tự nhiên.

Ở thời điểm sáng lập và làm việc cho OpenAI, Sutskever chính là người mở ra định hướng mở rộng quy mô huấn luyện ở bước pre-training, với lượng dữ liệu khổng lồ dạy cho mô hình AI hiểu cách ngôn ngữ kết cấu ra sao: “Những năm cuối thập niên 2010 chính là thời điểm các nhà nghiên cứu đẩy quy mô huấn luyện mô hình AI lên ngưỡng cực đại. Còn bây giờ chúng ta lại quay về thời điểm tìm hiểu và thử nghiệm, khám phá lại từ đầu. Ai cũng đang tìm kiếm bước đi kế tiếp. Đẩy quy mô nghiên cứu đúng đắn là thứ quan trọng hơn bao giờ hết.”

Tuy nhiên, Sutskever lại bảo vệ bí mật nghiên cứu và kinh doanh bằng cách từ chối trả lời câu hỏi của Reuters về việc SSI đã và đang làm gì để vượt qua giới hạn của kỹ thuật huấn luyện mô hình AI hiện tại.

Cũng vì những giới hạn của quá trình pre-training, không thể cứ ném dữ liệu và hiệu năng xử lý của máy chủ vào mô hình AI mới nữa, nên các nhà nghiên cứu tại các lab phát triển AI hàng đầu thế giới hiện giờ đang phải trì hoãn ra mắt nhiều mô hình mới. Hầu hết chúng đều lấy GPT-4, ra mắt gần 2 năm về trước, làm hệ quy chiếu so sánh.

stangel-2022-0470.webp

Những quá trình huấn luyện mô hình AI dưới dạng pre-training có thể ngốn của các startup và đơn vị nghiên cứu AI hàng chục triệu USD chi phí vận hành, bằng cách cho chạy trên những máy chủ với hàng trăm chip xử lý AI cao cấp. Rồi quá trình ấy cũng phải mất vài tháng. Trong suốt quá trình pre-training, nếu có vấn đề xảy đến với mô hình AI, do phần cứng gây ra, thì các nhà nghiên cứu AI cũng không có cách nào phát hiện ra sớm để điều chỉnh lại, từ đó cải thiện hiệu quả nội suy của mô hình AI.

Vấn đề thứ ba, là lượng dữ liệu khổng lồ cần để thực hiện quá trình pre-training. Hiện giờ nội dung văn bản và ngôn ngữ tự nhiên do con người tạo ra đã được sử dụng gần hết. Rất có thể trong tương lai những mô hình AI mới sẽ được huấn luyện dựa trên dữ liệu phái sinh do AI tạo ra và tổng hợp lại.

Quảng cáo



Vấn đề thứ 4 là nhu cầu điện năng. Một data center với hàng trăm GPU vận hành đồng thời ngốn rất nhiều điện.

Để giải quyết những vấn đề kể trên, các nhà nghiên cứu đã nghĩ ra một giải pháp mới gọi là “test-time compute”. Kỹ thuật này cải thiện sức mạnh của những mô hình AI đang có, tăng hiệu năng và chất lượng nội dung mà AI tạo ra trong quá trình nội suy. Lấy ví dụ, thay vì ngay lập tức chọn ra 1 câu trả lời cho prompt của anh em, AI sẽ tạo ra và cân nhắc vài kết quả theo thời gian thực, rồi chọn ra câu trả lời mà nó nghĩ là tốt nhất.

o1-research.webp

Giải pháp này cho phép những mô hình AI dành ra sức mạnh xử lý nội suy để giải quyết những nhiệm vụ khó như giải toán hay lập trình, hoặc những nhiệm vụ phức tạp, đòi hỏi tư duy lý lẽ, mục tiêu ban đầu của các nhà phát triển AI, bắt thuật toán và máy móc suy nghĩ như não bộ con người.

Noam Brown, một nhà nghiên cứu tại OpenAI, người góp công sức phát triển o1 tháng trước đã có bài thuyết trình tại TED AI tổ chức ở San Francisco, Mỹ: “Hóa ra để một mô hình AI nghĩ 20 giây để giải quyết một vấn đề tạo ra hiệu năng tương đương với việc mở rộng quy mô tham số mô hình lên 100 nghìn lần, và huấn luyện nó trong khoảng thời gian lâu hơn 100 nghìn lần.” o1 có hiệu năng ấn tượng nhờ vào việc nó được huấn luyện thêm, bên cạnh quá trình huấn luyện với mô hình gốc, GPT-4.

Dự kiến, những mô hình lớn trong tương lai sẽ được OpenAI ứng dụng giải pháp huấn luyện tương tự.

Quảng cáo



Cùng lúc, Anthropic, xAI và DeepMind cũng được cho là đang phát triển giải pháp tương tự như của OpenAI.

Như đã nói, giải pháp huấn luyện mô hình AI mới hoàn toàn có thể thay đổi thị trường máy chủ đám mây và thị trường GPU máy chủ phục vụ xử lý AI. Hiện giờ những con chip của Nvidia, hay mới đây có MI325X của AMD đang là những món hàng được cả thế giới săn lùng. Các quỹ đầu tư thì chi mạnh tay để các đơn vị máy chủ đám mây mới vay tiền mua GPU phục vụ các tập đoàn công nghệ.

Theo Reuters
20 bình luận
Chia sẻ

Xu hướng

"Những năm cuối thập niên 2010 chính là thời điểm các nhà nghiên cứu đẩy quy mô huấn luyện mô hình AI lên ngưỡng cực đại. Còn bây giờ chúng ta lại quay về thời điểm tìm hiểu và thử nghiệm, khám phá lại từ đầu. Ai cũng đang tìm kiếm bước đi kế tiếp. Đẩy quy mô nghiên cứu đúng đắn là thứ quan trọng hơn bao giờ hết."

AI bây giờ đâm đầu vào ngõ cụt rồi, con người ko bao giờ có thể tạo đc trí tuệ AI thông minh bằng hoặc hơn con người đc đâu. Giống như Chúa ko thể tạo ra 1 ngài toàn năng như Chúa hoặc hơn Chúa đc
@centernc6 Bài viết chỉ nêu khó khăn thôi chứ mẹ gì, dev thằng nào chả hay than vãn.
Phát triển phần mềm thì cũng tới lúc gặp rào cản kỹ thuật, khi nào vượt qua thì mới phát triển tiếp thôi.
Có ai nói là KHÔNG BAO GIỜ LÀM ĐƯỢC ko?

Từ lúc ChatGPT ra đời tới giờ mới có 3 năm, mà 3 năm qua nó phát triển kinh khủng vậy còn gì.
Mới nhiêu đó thời gian ông đòi nó làm những thứ thông minh bằng loài người, tạo ra AI là vớ vẩn vcl.
Với tốc độ nghiên cứu hiện tại cũng như support từ các tập đoàn chính phủ thì sớm hay muộn cũng sẽ có AGI thôi, như tôi đã nói, lạc quan là tầm 5-10 năm nữa.

Nếu loài người mà chỉ nghĩ tới những giới hạn, không bao giờ làm được thì giờ này làm éo gì có máy bay, tên lửa, điện thoại...?
Ông đang comment bằng cái thứ mà mấy chục năm trước loài người còn ko hình dung nó sẽ như thế nào nữa đó.

Con người đã làm những chuyện như nhân bản vô tính, chỉnh sửa gen để tạo ra loài mới, và đang thử nghiệm hồi sinh loài tuyệt chủng như voi ma mút... như thế thì có đang làm công việc của chúa ko?
Chả có mẹ gì gọi là giới hạn hết, chỉ có những thứ con người CHƯA làm được thôi, rồi từ từ sẽ phát triển tới những mốc đó thôi
@magez Đọc lại bài viết đi, thằng nói vấn đề đó là Ilya Sutskever đồng sáng lập OpenAI chứ ko phải là thằng dev nào. ChatGPT ra đời tới giờ mới có 3 năm nhưng người ta đã nghiên cứu cái cộng nghệ làm ra GPT từ năm 2010 rồi.

@centernc6 Bạn mới là cần phải đọc lại đấy, nó than khó khăn chứ nó ko có nói KHÔNG làm được.
Công nghệ sẽ càng ngày càng phát triển, AGI ra đời chỉ là lẽ tất nhiên, nếu loài người ko bị diệt vong.
Xin lỗi, tôi méo tin vào tôn giáo, con người phát triển tới ngày hôm nay là nhờ khoa học chứ méo phải thần phật chúa trời gì hết.
Bạn muốn tin tuỳ bạn thôi, end here 🙂
@magez Ngu !
Chỉ mới có vài năm mà từ mấy cái model phát triển mạnh, từ 3.5 -> 4 -> 4o -> o1 thấy nó tiến bộ kinh khủng, ngày càng thông minh & hiểu ngữ cảnh (hình, văn bản, video...).

Nghiên cứu gặp vấn đề hay 1 số rảo cản kỹ thuật là bình thường thôi, với tốc độ hiện tại thì lạc quan là tầm 5-10 năm nữa sẽ có AGI thôi.
Lý do là giờ có nhiều bên tham gia mảng này, từ chính phủ cho tới tư nhân, vì ko ai muốn bị bỏ lại cuộc chơi này, ai cũng muốn dẫn trước đối thủ, và trò này không dừng được - đây là lý thuyết trò chơi.
@magez Nói thì dễ chứ áp lực vkl, mấy cty nó phải chạy đua với sự tiêu tốn nguồn tài chính rất lớn, sự canh tranh khóc liệt, ai không gồng nổi thì cook, nhiều khi nó bị sml trước khi nó đủ thu lại lợi nhuận, nó cũng giống chip vậy, phải chạy đua với thời gian chậm 1 nhịp là sml như intel vậy, cuộc chơi AI tương lai sáng, nhưng phải sống tới lúc tìm ra giải pháp mới là vấn đề
@magez Trò này hiện tại là đang đốt tiền. Chưa có lãi đâu. Chỉ những tay to mới dám chơi.
@Shirime Thằng nào cũng muốn dẫn đầu mà, ko ai muốn là số 2 hết, và trò này đã được kích hoạt rồi nên ko ai dừng lại được hết.
Từ chính phủ, tổ chức cho tới tư nhân đều bơm tiền của, công sức đổ vào hết.
Nhiều thế lực tham gia vậy nhưng về tới cuối cùng chỉ còn vài thằng thôi, tới lúc đó thì tha hồ mà hái quả ngọt.
là như thế nào nhỉ? Đọc thấy mông lung quá
@lequocanh9x Thuật toán hiện tại đã bão hoà, nghĩa là train hoài nó cũng ko thông minh hơn, nếu muốn nó thông minh hơn phải thay đổi thuật toán
Đa số mô hình là data rồi dán nhãn đào tạo ta 1 file rồi read trên file đó chạy. Sao ko thấy mô hình nào khi dùng model cho ra kết quả cho người dùng đánh giá kết quả để máy tính huấn luyện lại model.đó
kiểu như hết cái để học rồi
Nên mang sách sang học Trung quốc làm AI
Tôi đã hỏi chat gpt: tìm mô hình đào tạo ngôn ngữ mới và tân tiến hơn đố bạn biết nó đã nói gì
chắc lại đưa về sắp xếp phân loại (category) chứ hồi xưa có nhiêu dữ liệu ném vào thì làm sao mà ra chính xác đc giờ thì phải sx phân loại để huấn luyện (nhận định cá nhân)

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019