Các mẫu chip Intel từ Gaudi 3, Xeon Granite Rapids đến Core Ultra đều đã sẵn sàng cho Llama 3

Pnghuy
19/4/2024 10:50Phản hồi: 21
Các mẫu chip Intel từ Gaudi 3, Xeon Granite Rapids đến Core Ultra đều đã sẵn sàng cho Llama 3
Ngay sau khi Meta giới thiệu model Llama 3 thì gần như ngay lập tức Intel cũng công bố về những con chip của hãng đã thể hiện ra sao với model AI mới này của Meta, đồng thời cung cấp chi tiết các điểm chuẩn của những mẫu chip khi kiểm thử với Llama 3.

Meta giới thiệu mô hình ngôn ngữ Llama 3: model AI mạnh nhất hiện tại

Mô hình ngôn ngữ lớn mới nhất của Meta là Llama 3 chính thức ra mắt với 2 model khác nhau: 8 tỷ tham số và 70 tỷ tham số, Llama 3 được Meta cải thiện khả năng suy luận và hiệu suất tổng thể, tốt hơn Llama 2 nhiều lần và cả khi so sánh với một số…
tinhte.vn

Với mục tiêu “AI Everywhere” thì Intel không thể chậm chân trong việc tối ưu hoá các mẫu chip hiện có của mình với các model AI mới nhất, các mẫu vi xử lý từ Gaudi 2 và Gaudi 3, Xeon Scalable Granite Rapids cho đến các mẫu Intel Core Ultra cho người dùng phổ thông và dòng GPU Arc đều đã sẵn sàng cho Llama 3.
Screenshot 2024-04-19 172737.png Các mẫu Gaudi 2 trước đây đã được thử nghiệm với Llama 2 từ 7 tỷ tham số, 13 tỷ tham số và 70 tỷ tham số, bây giờ Gaudi 2 tiếp tục được tối ưu với Llama 3 và dĩ nhiên bên cạnh đó là mẫu Gaudi 3 mới vừa được giới thiệu, kết quả thể hiện ở bảng benchmark bên trên, giữa hai model Llama 3 inference và Llama 3 đã fine-tune, mỗi model sẽ có 2 tham số khác nhau.

Intel cũng thử nghiệm với các mẫu Intel Xeon 6 (Granite Rapids) là thế hệ mới nhất và Intel Xeon Scalable thế hệ 4 (Shappire Rapids).

llama3-aws-performance-chart1.png
Hiệu năng suy luận Meta Llama 3 8B trên phiên bản AWS m7i.metal-48x dựa trên Intel Xeon Scalable Shappire Rapids.

llama3-xeon-performance-chart2.png
Tiếp tục khi Intel benchmark Llama 3 trên thế hệ Intel Xeon mới nhất vừa được Intel "nhá hàng" tại Intel Vision 2024 là Granite Rapids thì thấy rằng, độ trễ suy luận Llama 3 8B cải thiện gấp 2 lần so với các bộ xử lý Intel Xeon thế hệ 4, và với những model lớn hơn như Llama 3 70B thì đều dưới 100ms cho mỗi token, trong 1 server với 2 socket. Lưu ý là tại Intel Vision 2024 thì Intel thay đổi tên gọi Intel Xeon Scalable thành Intel Xeon, Granite Rapids là Intel Xeon 6 với các nhân P sẽ ra mắt nửa cuối năm nay, còn mẫu Intel Xeon 6 với các nhân E (Sierra Forest) sẽ ra mắt trong quý 2 này.

llama3-arc-performance-chart3.png
Với các mẫu vi xử lý dành cho người dùng cuối như Intel Core Ultra hay GPU Intel Arc, Intel cũng cho thấy hiệu suất của những mẫu iGPU trong Core Ultra H series và dGPU Intel Arc A770, độ trễ khi thử nghiệm với model Llama 3 8B Instruct INT4 nhìn chung là dưới 20ms.
155H-llama3-blog-20MB.gif
Riêng với iGPU 8 nhân Xe bên trong Intel Core Ultra đưa ra câu trả lời nhanh hơn tốc độ đọc bình thường của con người, nhờ vào bộ tăng tốc AI DP4a và băng thông bộ nhớ lên đến 120GB/s. Intel cho biết sẽ tiếp tục tối ưu hiệu suất và hiệu quả năng lượng với Llama 3 trên các thế hệ vi xử lý tiếp theo.

Intel.
21 bình luận
Chia sẻ

Xu hướng

Với độ phổ biến của intel và đội dev đông đảo của meta, không biết có thuyết phục đc khách hàng mua gaudi3 và lựa chọn mô hình ngôn ngữ Llama 3 để cứu 2 công ty này trong cơn dãy chết không?
GLES
ĐẠI BÀNG
một tháng
@khoaslim gaudi thì ko chắc chứ llama nào gãy chết cha nội? llama chính là kẻ tiên phong trong khái niệm chinchilla



lạy mấy bố, ko biết thì hạn chế comment lại, còn ko search trước khi gõ. llama vừa open source vừa đứng sau là thg meta vừa là kẻ tiên phong trong luật chinchilla
@GLES Nói lắm nói lốn làm cái gì nó vẫn là của meta làm ăn bết bát.
GLES
ĐẠI BÀNG
một tháng
@khoaslim nói chẳng có minh chứng kỹ thuật gì, giống hệt bọn TT trên này =)))

miễn rep comment sau =)))
quan trọng là render nhanh, rút điện pin lâu, mát máy. Chứ AI thì xài mạng phát cho nhanh chứ hơi đâu xử lý trên máy.
@para-hạ-sốt Khi nào lạc vào rừng rú gặp bộ lạc này nọ và ko có mạng thì có AI hỗ trợ kỹ năng sống có khi thành lập vương quốc mới có công nghệ tiên tiến luôn ấy chứ đừng có đùa haha.
Cười vô mặt
@clbphanmem like this comment 😆 tri thức nhân loại trong 1 cái laptop
Kinh vãi
Cạnh tranh Nvidia để chia sẻ miếng bánh AI, ko để ẻm ăn 1 mình, cái Intel cần chính là ngôn ngữ lớn để tạo mã nguồn mở, ngoài Meta thì Google, Microsoft cũng đang đầu tư mạnh vấn đề software.
- Intel đã có thể tập trung làm phần cứng đc rồi, hy vọng Gaudi 3 đc nhiều đơn hàng để có nhiều feedback giúp cải thiện chip.
Biểu đồ nhiều cột mà thực ra chả so sánh với ai cả.
Kết luận là chạy được giống như các chip đời cũ khác
GLES
ĐẠI BÀNG
một tháng
@laiviet ko biết bác có nhầm ko, chứ nvidia nó cũng chỉ so sánh llama 2 input và output token với các sản phẩm chính họ và các model :

https://developer.nvidia.com/deep-learning-performance-training-inference/ai-inference

Ngoài ra bác đọc kỹ lại tiêu đề bài thông báo này, mục tiêu chính của họ - tèo là llama 3 chứ ko phải llama 2 hoặc các model khác:

https://www.intel.com/content/www/us/en/developer/articles/technical/accelerate-meta-llama3-with-intel-ai-solutions.html
@GLES Llama 2 và 3 chả khác gì đáng kể để phải lo Llama 2 chạy đc mà Llama 3 ko chạy đc.
GLES
ĐẠI BÀNG
một tháng
@laiviet bác có chắc ko? paper llama 3 tác giả còn bảo sẽ ra mắt sau, vậy mà bác dám chắc chắn như vậy
Screenshot 2024-04-22 at 11.31.05 PM.jpg
@GLES Mình chạy từ tuần trc rồi.
Intel dạo này càng ngày càng mạnh
Yêu quá
Chip M mô? 😄
render không biết có ngon giống amd không

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019