AMD vừa giới thiệu mô hình ngôn ngữ lớn (LLM) mã nguồn mở đầu tiên của mình với 1 tỷ tham số, được gọi là AMD OLMo, nhằm phục vụ nhiều ứng dụng khác nhau và được huấn luyện trước trên GPU AMD Instinct MI250. Các mô hình LLM này được đánh giá cao về khả năng suy luận, theo dõi chỉ dẫn và tương tác trò chuyện.
Mô hình mã nguồn mở này không chỉ giúp cải thiện vị thế của AMD trong lĩnh vực AI mà còn cho phép khách hàng cũng như cộng đồng phát triển triển khai các mô hình này với phần cứng AMD. Bằng cách mở mã nguồn cho dữ liệu, trọng số, quy trình huấn luyện, AMD mong muốn trao quyền cho các nhà phát triển để sao chép và phát triển thêm dựa trên các mô hình này, mở ra cơ hội đổi mới hơn nữa.
Ngoài các ứng dụng trong trung tâm dữ liệu, AMD cũng cho phép triển khai các mô hình OLMo trên máy tính cá nhân AMD Ryzen AI được trang bị bộ xử lý neural (NPU), hỗ trợ nhà phát triển tận dụng các mô hình AI trên thiết bị cá nhân.
Các mô hình AMD OLMo được huấn luyện trên một tập dữ liệu khổng lồ gồm 1,3 nghìn tỷ token trên 16 nodes, mỗi nodes có bốn GPU AMD Instinct MI250 (tổng cộng 64 GPU). Mô hình OLMo được huấn luyện qua ba bước:
Trong các thử nghiệm nội bộ, mô hình AMD OLMo cho thấy hiệu suất ấn tượng khi so sánh với các mô hình mã nguồn mở có kích thước tương tự như TinyLlama-1.1B, MobiLlama-1B, và OpenELM-1_1B.
Phiên bản SFT hai giai đoạn ghi nhận mức tăng độ chính xác đáng kể, với điểm số MMLU tăng 5,09% và GSM8k tăng 15,32%, thể hiện hiệu quả của cách tiếp cận huấn luyện của AMD. Mô hình OLMo 1B SFT DPO cuối cùng vượt qua các mô hình mã nguồn mở khác ít nhất 2,60% trung bình trên các tiêu chí đánh giá.
Trong các bài kiểm tra hiệu chỉnh chỉ dẫn như AlpacaEval 2, mô hình OLMo của AMD ghi nhận tỉ lệ thắng cao hơn đối thủ với mức tăng +3,41% và +2,29%. Ở bài kiểm tra MT-Bench về khả năng trò chuyện, phiên bản SFT DPO đạt hiệu suất cao hơn đối thủ gần nhất 0,97%.
Ngoài ra, AMD đã kiểm tra các tiêu chuẩn AI có trách nhiệm như ToxiGen (đo lường ngôn ngữ độc hại, điểm số thấp hơn sẽ tốt hơn), crows_pairs (đánh giá sự thiên lệch) và TruthfulQA-mc2 (đánh giá tính trung thực trong phản hồi). Kết quả cho thấy mô hình AMD OLMo có hiệu quả tương đương với các mô hình tương tự trong việc xử lý các nhiệm vụ AI có trách nhiệm và đạo đức.
Nguồn: AMD
Mục đích của AMD OLMo
Mô hình mã nguồn mở này không chỉ giúp cải thiện vị thế của AMD trong lĩnh vực AI mà còn cho phép khách hàng cũng như cộng đồng phát triển triển khai các mô hình này với phần cứng AMD. Bằng cách mở mã nguồn cho dữ liệu, trọng số, quy trình huấn luyện, AMD mong muốn trao quyền cho các nhà phát triển để sao chép và phát triển thêm dựa trên các mô hình này, mở ra cơ hội đổi mới hơn nữa.
Ngoài các ứng dụng trong trung tâm dữ liệu, AMD cũng cho phép triển khai các mô hình OLMo trên máy tính cá nhân AMD Ryzen AI được trang bị bộ xử lý neural (NPU), hỗ trợ nhà phát triển tận dụng các mô hình AI trên thiết bị cá nhân.
Quá trình huấn luyện
Các mô hình AMD OLMo được huấn luyện trên một tập dữ liệu khổng lồ gồm 1,3 nghìn tỷ token trên 16 nodes, mỗi nodes có bốn GPU AMD Instinct MI250 (tổng cộng 64 GPU). Mô hình OLMo được huấn luyện qua ba bước:
- AMD OLMo 1B ban đầu: Được huấn luyện trên một phần của Dolma v1.7, tập trung vào việc dự đoán token tiếp theo để nắm bắt các mẫu ngôn ngữ và kiến thức chung.
- Phiên bản fine-tuned (SFT): Được huấn luyện trên tập dữ liệu Tulu V2 ở giai đoạn đầu và các tập dữ liệu như OpenHermes-2.5, WebInstructSub, và Code-Feedback ở giai đoạn sau, nhằm cải thiện khả năng theo dõi chỉ dẫn và hiệu suất trên các nhiệm vụ khoa học, lập trình và toán học.
- Phiên bản DPO (Direct Preference Optimization): Được căn chỉnh với sự ưu tiên của con người bằng cách sử dụng tập dữ liệu UltraFeedback, giúp ưu tiên các kết quả phù hợp với phản hồi thông thường của con người.
Kết quả hiệu suất của AMD OLMo
Trong các thử nghiệm nội bộ, mô hình AMD OLMo cho thấy hiệu suất ấn tượng khi so sánh với các mô hình mã nguồn mở có kích thước tương tự như TinyLlama-1.1B, MobiLlama-1B, và OpenELM-1_1B.
Phiên bản SFT hai giai đoạn ghi nhận mức tăng độ chính xác đáng kể, với điểm số MMLU tăng 5,09% và GSM8k tăng 15,32%, thể hiện hiệu quả của cách tiếp cận huấn luyện của AMD. Mô hình OLMo 1B SFT DPO cuối cùng vượt qua các mô hình mã nguồn mở khác ít nhất 2,60% trung bình trên các tiêu chí đánh giá.
Trong các bài kiểm tra hiệu chỉnh chỉ dẫn như AlpacaEval 2, mô hình OLMo của AMD ghi nhận tỉ lệ thắng cao hơn đối thủ với mức tăng +3,41% và +2,29%. Ở bài kiểm tra MT-Bench về khả năng trò chuyện, phiên bản SFT DPO đạt hiệu suất cao hơn đối thủ gần nhất 0,97%.
Ngoài ra, AMD đã kiểm tra các tiêu chuẩn AI có trách nhiệm như ToxiGen (đo lường ngôn ngữ độc hại, điểm số thấp hơn sẽ tốt hơn), crows_pairs (đánh giá sự thiên lệch) và TruthfulQA-mc2 (đánh giá tính trung thực trong phản hồi). Kết quả cho thấy mô hình AMD OLMo có hiệu quả tương đương với các mô hình tương tự trong việc xử lý các nhiệm vụ AI có trách nhiệm và đạo đức.
Nguồn: AMD