Những điểm nhấn trên Sapphire Rapids - Vi xử lý Intel Xeon Scalable thế hệ 4

Lư Thế Nghĩa
27/1/2023 4:23Phản hồi: 40
Những điểm nhấn trên Sapphire Rapids - Vi xử lý Intel Xeon Scalable thế hệ 4
Intel Xeon Scalable thế hệ 4 có tên mã là Sapphire Rapids, vừa ra mắt chính thức vào ngày 10/1/2023. Những vi xử lý này được sản xuất trên tiến trình 10 nm Enhanced SuperFin, không chỉ có thay đổi về vi kiến trúc mà còn trang bị thêm nhiều công nghệ mới, điển hình như bộ nhớ liên tục Intel Optane DC, các bộ tăng tốc tích hợp (on-die accelerator) và CXL (Compute Express Link). Đối với các tác vụ trung tâm dữ liệu, Sapphire Rapids mang đến lợi thế nhờ có nhiều nhân, tăng số chỉ lệnh trong mỗi chu kỳ, tăng Intel UPI GT/s, tăng dung lượng bộ đệm, tăng bộ nhớ MT/s, bổ sung thêm làn CXL và PCI Express.

Intel Optane DC Persistent Memory 300 Series


Thế hệ bộ nhớ liên tục Intel Optane tiếp theo là dạng bộ nhớ có thể hoạt động ở cả dạng khả biến (volatile) và bất biến (non-volatile), trở thành 1 sản phẩm nằm giữa ổ lưu trữ và DRAM. Anh em khi sử dụng RAM máy tính là loại bộ nhớ khả biến, dữ liệu lưu trên đó chỉ tồn tại khi còn được cung cấp năng lượng (điện), nếu không, toàn bộ dữ liệu sẽ biến mất. Ngược lại, non-volatile memory vẫn duy trì được tính toàn vẹn dữ liệu ngay cả khi mất điện. Bộ nhớ liên tục của Intel có thể định địa chỉ theo byte (byte addressable), liên kết với bộ đệm, cho phép phần mềm truy cập trực tiếp mà không cần phân trang. Intel Optane DC Persistent Memory 300 Series hỗ trợ các chế độ hoạt động gồm App Direct (AD), Memory Mode (MM) và Mixed Mode (AD + MM). Tính năng bảo mật của bộ nhớ liên tục 300 Series là +FIPS140-3 level 2 thay vì mã hóa AES-256 như thế hệ trước.

intel-xeon-scalable-4th-sapphire-rapids-tinhte-1.jpg

Thế hệ Intel Optane DC Persistent Memory 300 Series hỗ trợ các hoạt động của bộ nhớ liên tục từ xa (RPMEM - remote persistent memory). Điều này giúp Intel Data Direct I/O (Intel DDIO) có thể tương tác từ xa với bộ nhớ, giúp giảm điện năng và tăng băng thông. RPMEM cũng bổ sung thêm các hoạt động ghi nguyên tử (atomic write operation - hoạt động ghi bộ nhớ không thể bị ngắt quãng) cho RDMA (Remote Direct Memory Access), trong khi hoạt động đọc RDMA không còn phải chờ đợi dữ liệu được đẩy tới miền ADR (Asynchronous DRAM Refresh). Tổng kết lại thì RPMEM loại bỏ sự góp mặt của phần mềm trong quá trình sao chép, nhờ đó giảm thời gian chờ đợi. RPMEM tương thích với ACPI (Advanced Configuration and Power Interface), cho phép bộ nhớ liên tục được xử lý ở mọi nơi và IO chuyển hướng trực tiếp đến bộ nhớ liên tục hoặc khả biến.

Chỉ lệnh mới


Một phần của chỉ lệnh mới tập trung vào AiA (Accelerator interfacing Architecture), tích hợp vào ISA (Instruction Set Architecture) và là 1 cải tiến trên bộ xử lý x86 nhằm tối ưu hóa đường đi dữ liệu từ bộ tăng tốc đến nơi lưu trữ. Các chỉ lệnh MOVDIR, MOVDIR64B, ENQCMD, ENQCMDS, User Interrupts, User IPIs, Umonitor, Umwait và PAUSE tập trung vào thao tác AiA. MOVDIR/MOVDIR64B giúp giảm tải di chuyển dữ liệu đến bộ tăng tốc. ENQCMD/ENQCMDS tạo điều kiện thuận lợi cho các hàng chờ công việc chia sẻ và riêng biệt, cho phép phần cứng quản lý quy trình, tránh lãng phí tài nguyên xử lý trên 1 chuỗi liên tục. User Interrupts, User IPIs, Umonitor, Umwait, và PAUSE xử lý các khía cạnh tín hiệu và đồng bộ hóa của bộ tăng tốc.

intel-xeon-scalable-4th-sapphire-rapids-tinhte-2.jpg

Các chỉ lệnh hỗ trợ AI thông qua Intel AMX bao gồm Int8 để suy luận, Bfloat16 để suy luận/huấn luyện và Xsave giúp quản lý hệ điều hành của các khối silicon chuyên dụng. Intel AVX-512 có VP2INTERSECT để cải thiện vector hóa và mã vô hướng. FP16 sao chép chỉ lệnh tính toán FP32(SP) sử dụng kiểu dữ liệu FP16 mới để hỗ trợ số phức, có giá trị với xử lý tín hiệu và hình ảnh, đặc biệt là mạng 5G.

Đối với ảo hoá, HLAT (Hypervisor Linear Address Translation) có thể được VMM (Virtual Machine Manager) sử dụng để dịch địa chỉ tuyến tính (linear) sang địa chỉ vật lý (physical). Kết hợp với bảng - trang nâng cao, HLAT giúp đảm bảo các bản dịch do VMM thực thi không bị giả mạo bởi những phần mềm hệ thống không đáng tin cậy.

intel-xeon-scalable-4th-sapphire-rapids-tinhte-3.jpg

Khía cạnh bảo mật, công nghệ Intel CET (Control-Flow Enforcement Technology) bảo vệ shadow stack (stack biệt lập chỉ chứa return address) bằng cách triển khai bản sao shadow stack do CPU quản lý. Cả 2 shadow stack này sẽ được so sánh khi CALL để đảm bảo không có sự khác biệt nào không mong muốn. Cuối cùng, Intel TSX (Transactional Synchronization Extensions) cũng có 2 chỉ lệnh mới, gồm XSUSLDTRK và XRESLDTRK, cho phép lập trình viên chọn việc truy cập bộ nhớ nào không cần theo dõi trong bộ đọc TSX.

Bộ tăng tốc tích hợp


intel-xeon-scalable-4th-sapphire-rapids-tinhte-4.jpg

Quảng cáo


Sapphire Rapids được tích hợp sẵn nhiều bộ tăng tốc vào vi xử lý, mang đến những chức năng và tính năng mới để hỗ trợ cho AI, mật mã, phân tích cơ sở dữ liệu trong bộ nhớ, cũng như hoạt động truyền tải dữ liệu. Các bộ tăng tốc cũng góp phần tối ưu thông lượng mã vì chúng ở gần với vi xử lý hơn. Accelerator có thể hoạt động đơn lẻ hoặc kết hợp nhằm tăng hiệu suất nhờ cách tiếp cận đa lớp. Những bộ tăng tốc mới gồm có Intel QAT (QuickAssist Technology) thế hệ mới, Intel IAA (In-Memory Analytics Accelerator), Intel DSA (Data Streaming Accelerator) và Intel AMX (Advanced Matrix Extensions).

Tăng tốc mật mã học


Public Key là loại mật mã được sử dụng rộng rãi để xác thực và trao đổi khóa khi thiết lập kết nối an toàn TLS (Transport Layer Security) giữa 2 hệ thống. Dựa trên phép toán số nguyên lớn, các mật mã yêu cầu tính toán phép nhân và bình phương nguyên hàm cường độ cao để hỗ trợ thuật toán mật mã. Chỉ lệnh AVX512 IFMA (Integer Fused Multiply Add) VPMADD52 hỗ trợ các phép toán nhân số lớn hiệu quả cùng khả năng xử lý song song tăng gấp 4 lần so với các kiến trúc trước đây. Hiệu năng của mật mã Public Key RSA, ECDSA và ECDHE có thể được cải thiện khi kết hợp các chỉ lệnh này vào nguyên hàm tính toán thuật toán cụ thể.

intel-xeon-scalable-4th-sapphire-rapids-tinhte-5.jpg

Các mã đối xứng AES (Advanced Encryption Standard) có thể được tối ưu hóa để tận dụng lợi thế của Vectorized AES-NI. Khi sử dụng với các thanh ghi độ rộng 512 bit, chúng có thể xử lý tối đa 4 khối AES 128-bit trên mỗi chỉ lệnh, cải thiện đáng kể về thông lượng mã hóa hàng loạt ở nhiều chế độ khác nhau, ví dụ như AES-GCM.

Sự xuất hiện của Vectorized Carryless Multiply (CLMUL) và SHA-Extensions trong kiến trúc sẽ hỗ trợ cho các thuật toán băm mã. Vectorized CLMUL tăng thông lượng cho xử lý Galois Hash (GHASH) cùng các chỉ lệnh cụ thể được bổ sung để hỗ trợ SHA-256, cải thiện hiệu suất so với các kiến trúc Xeon Scalable trước đây. Các chỉ lệnh mới tương thích với Data Plane Development KIT DPDK, Intel OpenSSL Engine, Intel Storage Acceleration library (ISAL), IPSec Multi-Buffer Library và IPP Multi-Buffer Library.

Intel QAT thế hệ cũ nằm ở chipset, trong khi với Sapphire Rapids thì đã được chuyển vào chung gói vi xử lý, nhờ đó tối ưu được tương tác do khoảng cách vật lý ngắn hơn. Intel QAT mới cung cấp 200Gbs Crypto, 160Gbs verified compression, 100kops PFS ECDHE và RSA 2K Decrypt.

Quảng cáo



Intel Advanced Matrix Extensions


intel-xeon-scalable-4th-sapphire-rapids-tinhte-6.jpg

Intel AMX được thiết kế để cải thiện hiệu suất đào tạo và suy luận học sâu. Đây là mô hình lập trình 64-bit mới gồm 2 thành phần: tập hợp các thanh ghi 2 chiều (tile) đại diện cho các mảng con từ ảnh bộ nhớ 2 chiều lớn hơn, và bộ tăng tốc có thể hoạt động trên các tile này, với triển khai đầu tiên gọi là TMUL (tile matrix multiply unit). Intel AMX cung cấp các cỡ tile có thể cấu hình cho lập trình viên để cung cấp linh hoạt dưới dạng siêu dữ liệu (metadata). Một chỉ lệnh duy nhất có thể tự động thực hiện nhiều chu kỳ trong tile và phần cứng tăng tốc. Do quá trình thực thi thông qua metadata nên hệ nhị phân Intel AMX có thể dễ dàng tận dụng những thay đổi theo thời gian về kích thước tile mà không cần điều chỉnh mã phần mềm.

Compute Express Link


CXL là 1 chuẩn kết nối mở, sử dụng lớp vật lý PCI Express Gen 5, cung cấp khả năng di chuyển dữ liệu ở cấp nhân (kernel) giữa vi xử lý và các thiết bị khác như FPGA (Field Programmable Gate Array), GPU (Graphics Processor Unit) hoặc điều khiển mạng. CXL cho phép truy cập bộ đệm kết hợp từ các thiết bị này đến bộ đệm của vi xử lý, cũng như truy cập bộ nhớ từ bộ xử lý đến bộ nhớ trên thiết bị. Những bộ tăng tốc tích hợp như Intel IAA, Intel DSA, Intel QAT và Intel AMX sử dụng CXL để tối ưu hóa.
40 bình luận
Chia sẻ

Xu hướng

Tin mồm ông Intel với ông sàm sung quảng cáo chíp thì lại ăn cám hết lượt. Giờ chíp máy chủ cứ AMD mà phang, Xeon nghe đã thấy tốn điện, kêu rú ầm ầm rồi.
nsphim
ĐẠI BÀNG
8 tháng
@Nitro 5 2021 Nhóc, chính nhóc nói đòi chơi, thì nhóc chứng minh ra trước nhóc có Xeon 2023 ở trên, quay video lại, còn anh thì nghèo nên chỉ có 3995WX thôi, cần thì anh có,
nsphim
ĐẠI BÀNG
8 tháng
@Nitro 5 2021 Chờ em trai lâu quá lâu, thôi cho anh khoe chút nha, vì anh biết em chả có, anh đem con này về lúc nó giá hơi cao vì mới release 6.8k chưa thuế, anh ko tính dàn NVME 18 con SSD anh chạy RAID và VGA vì lúc đó anh toàn mua vì bị hớ. Anh biết em chưa có con Xeon mà em nói, thì đừng nói năng phách lối theo kiểu đó, anh ko thích và người khác cũng ghét
Anh ko thích chơi XEON vì anh đã từng chơi con $6k Xeon và chạy dual processer là $12k , giờ anh vẫn còn đó, vì anh ko thích bán, thích anh khoe thì anh sẽ khoe thêm kkk
3995WX.jpg
@nsphim Khoe thêm đi bro, cho xem kkk
Mở task manger full màn cho sướng, tội gì
nsphim
ĐẠI BÀNG
8 tháng
@Nitro 5 2021 rồi Xeon của nhóc đâu? kkkk
Quá chớp
CPU dành cho máy chủ. Cá nhân thì chắc chả mấy ai động đến được nó
Công nghệ vẫn chậm hơn so vs thời đại nhie
Hít khói apple silicon chưa đủ hay sao mà giờ ra liên tục gớm quá.
@angle_squall Apple còn làm máy XServe với macOS Server đâu mà ngồi gõ phím như đúng rồi thế 😂
@angle_squall Nổ thông số là chính, Apple M2 Ultra nó vả chết
@sốt-xuất-huyết-2023 Thằng ifan này lại nổ, hiệu năng còn thua cả thredipper
Chip máy chủ mà mấy con xeon ra mấy con chíp siêu luồng nhưng yếu vcd ra, ngoài chạy giả lập android cày game ra ko biết ai dám dùng mấy con xeon nhà intel 😆
AMD vẫn làm trùm mảng chip máy chủ
@ViệtThương92 Trùm gì bạn?? Mang ra so cái
cuối năm amd làm quả 3D cache 1GB nữa intel khóc thét
Ê @mig0 sao ko viết bài " báo cáo doanh thu quý 4/ 2022 " cho anh em tinhte đọc 😆))) . Chưa bỏ cái tật bóc phét với thiên hạ nữa à 😃))))
image.jpg
image.jpg
@Nguyễn Chí Danh@1 Còn về mảng chíp thredipper thì Xeon 4th dẹp nha, epyc thì ko dẹp đc, 96 nhân thì ăn đứt r
intel core còn chạm tới tâm hồn đại chúng trung thành, chứ xeon chắc toàn “chuyên gia” ngâm cứu thôi, thiết nghĩ với sự ù lỳ của mình thì intel nên dẹp con xeon đi, EPYC đi nhanh quá rồi, thôi nhường nó chức vô địch
AMD EPYC genoe 9004 96 core 😂😂
nierec
TÍCH CỰC
một năm
đọc mấy thông số lóa hết cả mắt... thắc mắc là nếu dùng chip xeon để chơi game hoặc render thì nó tương đương với chip dòng nào ạ?
@nierec Nó là dòng chip cho máy chủ là chính chứ sao so tương đương các dòng chip khác được. Mỗi con phục vụ nhu cầu khác nhau, chơi game thì chọn intel core vì xung cao, xeon nhiều nhân nhưng xung thấp nên game tệ lắm.
@nierec Chơi game thì nó yếu chứ render nó vả cả dòng họ 13900ks đấy. Tôi nhớ không nhầm thì con mạnh nhất có 56 nhân thì phải. Nhưng so với amd thì còn kém nhiều lắm. Con server mạnh nhất của amd cũng mạnh hơn gần 50% so với 2 con intel mạnh nhất hợp lại. Dòng máy chủ của intel đang ngáp ngáp còn dòng Hedt của intel thì chết hẳn luôn. Intel phải đem mấy dòng bên hedt xuống để cạnh tranh với dòng phổ thông của amd vì hedt của amd tới 64 nhân, ngay cả con hedt yếu nhất của amd cũng đấm con mạnh nhất của intel lòi mồm.
@lytieuchieu Thôi bạn, đừng tưởng nhiều nhân là ngon hơn
Đọc một hồi éo biết đang đọc cái gì luôn. Thông tin cần thì không thấy đâu, toàn ba cái quảng cáo xàm lông.
Có con nào 96 core ko ta?
@obiwan.kenobi Đời gen 5 intel cho ra 144 nhân :😆)
Đọc xong chả hiểu gì, toàn quảng cáo gì đâu không, hiện tại đang xài Xeon E5 V3 cũ + main khựa + ram ecc d3 để cày game vì chi phí cực thấp cho lại cấu hình ổn áp, mốt có nâng nữa chắc chỉ nâng E5 V4 cũ, chứ mấy cái này cao siêu quá hahaha còn xài bình thường thì core i đời mới vì dù đi vs main mới nhưng có mẫu main vẫn gắn được ram d4, AMD mới nhất thì kẹp ram d5 giá chua quá nên thua còn amd đời cũ con chip thiết kế dễ gãy chân, xài 1 lần rồi bỏ qua luôn, tháo tản nhiệt lại nhấc cả CPU luôn, đã từng bị, nên né từ đó luôn.
Bon cmt ở đây toàn bị nhồi sọ epyc rồi, ko mở mang tầm nhìn mà xem hiệu năng
Ăn đứt bọn 64 nhân, còn 96 thì vẫn xịt

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019