TTBC2024

TTBC2024


AMD giới thiệu AMD OLMo: Mô hình ngôn ngữ lớn (LLM) đầu tiên của mình với 1 tỷ tham số

PTW_Dark
7/11/2024 9:58Phản hồi: 5
AMD giới thiệu AMD OLMo: Mô hình ngôn ngữ lớn (LLM) đầu tiên của mình với 1 tỷ tham số
AMD vừa giới thiệu mô hình ngôn ngữ lớn (LLM) mã nguồn mở đầu tiên của mình với 1 tỷ tham số, được gọi là AMD OLMo, nhằm phục vụ nhiều ứng dụng khác nhau và được huấn luyện trước trên GPU AMD Instinct MI250. Các mô hình LLM này được đánh giá cao về khả năng suy luận, theo dõi chỉ dẫn và tương tác trò chuyện.

Mục đích của AMD OLMo

AMD.jpg
Mô hình mã nguồn mở này không chỉ giúp cải thiện vị thế của AMD trong lĩnh vực AI mà còn cho phép khách hàng cũng như cộng đồng phát triển triển khai các mô hình này với phần cứng AMD. Bằng cách mở mã nguồn cho dữ liệu, trọng số, quy trình huấn luyện, AMD mong muốn trao quyền cho các nhà phát triển để sao chép và phát triển thêm dựa trên các mô hình này, mở ra cơ hội đổi mới hơn nữa.
AMD-AI.jpg
Ngoài các ứng dụng trong trung tâm dữ liệu, AMD cũng cho phép triển khai các mô hình OLMo trên máy tính cá nhân AMD Ryzen AI được trang bị bộ xử lý neural (NPU), hỗ trợ nhà phát triển tận dụng các mô hình AI trên thiết bị cá nhân.

Quá trình huấn luyện

Qua-trinh-huan-luyen-AMD-OLMo.png
Các mô hình AMD OLMo được huấn luyện trên một tập dữ liệu khổng lồ gồm 1,3 nghìn tỷ token trên 16 nodes, mỗi nodes có bốn GPU AMD Instinct MI250 (tổng cộng 64 GPU). Mô hình OLMo được huấn luyện qua ba bước:
  1. AMD OLMo 1B ban đầu: Được huấn luyện trên một phần của Dolma v1.7, tập trung vào việc dự đoán token tiếp theo để nắm bắt các mẫu ngôn ngữ và kiến thức chung.
  2. Phiên bản fine-tuned (SFT): Được huấn luyện trên tập dữ liệu Tulu V2 ở giai đoạn đầu và các tập dữ liệu như OpenHermes-2.5, WebInstructSub, và Code-Feedback ở giai đoạn sau, nhằm cải thiện khả năng theo dõi chỉ dẫn và hiệu suất trên các nhiệm vụ khoa học, lập trình và toán học.
  3. Phiên bản DPO (Direct Preference Optimization): Được căn chỉnh với sự ưu tiên của con người bằng cách sử dụng tập dữ liệu UltraFeedback, giúp ưu tiên các kết quả phù hợp với phản hồi thông thường của con người.

Kết quả hiệu suất của AMD OLMo

AMD OLMo Performance Result.png
Trong các thử nghiệm nội bộ, mô hình AMD OLMo cho thấy hiệu suất ấn tượng khi so sánh với các mô hình mã nguồn mở có kích thước tương tự như TinyLlama-1.1B, MobiLlama-1B, và OpenELM-1_1B.
AMD OLMo Performance Result-2.png
Phiên bản SFT hai giai đoạn ghi nhận mức tăng độ chính xác đáng kể, với điểm số MMLU tăng 5,09% và GSM8k tăng 15,32%, thể hiện hiệu quả của cách tiếp cận huấn luyện của AMD. Mô hình OLMo 1B SFT DPO cuối cùng vượt qua các mô hình mã nguồn mở khác ít nhất 2,60% trung bình trên các tiêu chí đánh giá.
Ui7fcCq4vhTekURTQvNeMZ-1200-80.png
Trong các bài kiểm tra hiệu chỉnh chỉ dẫn như AlpacaEval 2, mô hình OLMo của AMD ghi nhận tỉ lệ thắng cao hơn đối thủ với mức tăng +3,41% và +2,29%. Ở bài kiểm tra MT-Bench về khả năng trò chuyện, phiên bản SFT DPO đạt hiệu suất cao hơn đối thủ gần nhất 0,97%.
UoWE7MoGYNDNpfTBeaaTRZ-1200-80.png
Ngoài ra, AMD đã kiểm tra các tiêu chuẩn AI có trách nhiệm như ToxiGen (đo lường ngôn ngữ độc hại, điểm số thấp hơn sẽ tốt hơn), crows_pairs (đánh giá sự thiên lệch) và TruthfulQA-mc2 (đánh giá tính trung thực trong phản hồi). Kết quả cho thấy mô hình AMD OLMo có hiệu quả tương đương với các mô hình tương tự trong việc xử lý các nhiệm vụ AI có trách nhiệm và đạo đức.
Nguồn: AMD
5 bình luận
Chia sẻ

Xu hướng

note, để có gì thử trên con 780m xem chạy ok ko
Mã nguồn mở rồi để mấy thằng Tầu nó copy về rồi nó bảo AI của nó là bố của thế giới.
@msh3010 mã nguồn mở trên phần cứng amd

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019