IFA 2024

IFA 2024


Phân tích kiến trúc vi xử lý Intel Lunar Lake - Phần 2: Nhân P và nhân E

Lư Thế Nghĩa
6/8/2024 8:44Phản hồi: 80
Phân tích kiến trúc vi xử lý Intel Lunar Lake - Phần 2: Nhân P và nhân E
Nhân Performance và nhân Efficient bên trong Lunar Lake (LNL) đã được đội ngũ Intel biến hóa, sáng tạo như thế nào để cho ra đời thế hệ vi xử lý mới?

P-core Lion Cove - Go big or go home


Bắt đầu từ Alder Lake, Intel áp dụng kiến trúc hybrid tương tự big.LITTLE của ARM. Tiếp tục như vậy, LNL cũng sẽ có 2 loại nhân x86 P-core Lion Cove và E-core Skymont. Trong đó, Lion Cove như đã nói, chính là "trái tim" sức mạnh của toàn bộ con chip (tương tự Zen 5 bên AMD).

Intel Lion Cove 01.jpg

Front-end


Phần đầu tiên trong một kiến trúc chip luôn là front-end, nơi nhập các yêu cầu công việc từ OS gửi xuống. Trên Lion Cove, khu vực này được mở rộng đáng kể. BPU hay bộ phận tiên đoán rẽ nhánh, có chức năng "đoán trước" các tập lệnh sẽ được dùng ở các chu kỳ sau, được mở rộng gấp 8 lần thế hệ trước! Vai trò của BPU tương tự như thư ký, hỗ trợ decoder sắp xếp công việc cho các thành phần execution. Sự mở rộng này cho thấy Intel muốn tối đa hoá số lượng tập lệnh có thể xử lý được.


Intel Lion Cove 02.jpg

Hỗ trợ thêm cho decoder là các µQueue và µCache. Trên các vi xử lý hiện đại, tập lệnh không được xử lý ngay tại chỗ mà sẽ bị chia nhỏ thành vi lệnh (micro-ops). Mục đích là để đơn giản hoá quá trình execution ở dưới. Đây cũng là điểm mà ranh giới của CISC và RISC trở nên nhạt nhoà - chúng chủ yếu chỉ khác biệt ở phần front-end nơi các tập lệnh có chiều dài khác nhau, còn khi chuyển thành vi lệnh thì "con anh con tôi" cũng thế. µCache của Lion Cove tăng lên 12-wide, tăng gấp 1.5 lần 8-wide của Redwood Cove. Kích thước µQueue cũng tăng lên, có điều Intel không nêu cụ thể là bao nhiêu.

Out-of-order (OoO) engine


Lion Cove là một kiến trúc hoàn toàn mới và khu vực OoO thể hiện rõ điều đó. Thành phần Retire được tách ra hẳn khỏi nhóm Allocate/Rename/Ellimation/Zero Idiom. Lý do chủ yếu vì Retire cần được tăng kích thước nhiều hơn, lên tới 12-wide. Nhóm Allocate cũng tăng 8-wide, gần như là tương ứng với kích thước 8-wide của decoder. Đáng chú ý hơn, thanh ghi Scheduler nay được chia tách ra Integer riêng và Vector (floating-point) riêng, cho thấy sự chuyên môn hoá vai trò.

Intel Lion Cove 03.jpg
Intel Lion Cove 04.jpg

Số lượng cửa sổ tập lệnh cũng được tăng từ 512 lên 576 đơn vị. Số cổng xử lý cũng tăng từ 12 lên 18 cổng. Trong đó 4 cổng dùng cho FPU (Vector), 6 cổng cho INT, 8 cổng dùng cho phân loại xử lý địa chỉ dữ liệu (AGU).

Execution


So với các kiến trúc trước, Lion Cove có khác biệt đáng kể khi đưa FPU ra riêng khỏi INT. Nếu như trước đây FPU dùng chung cổng với INT để nhận công việc từ front-end/OoO thì nay nó đã đứng độc lập. Theo quan điểm cá nhân, mình cho rằng Pat Gelsinger đang muốn đưa Intel trở lại đường đua siêu máy tính (HPC), nơi mà AMD đang rất có ưu thế. Vả chăng mà nói, Pat cũng là một trong các cựu kỹ sư đã từng tham gia thiết kế Itanium - một trong những dự án rất tham vọng của công ty này.

Quảng cáo


Intel Lion Cove 05.jpg
Intel Lion Cove 06.jpg

Và Pat không chỉ làm mỗi việc tách đôi 2 FPU và INT, ông còn tăng năng lực xử lý của từng cụm. So với Redwood Cove, các thành phần cụm INT Lion Cove đều tăng 1 đơn vị (6 ALU, 3 JUMP, 3 SHIFT), riêng MUL tăng gấp 3 lần. FPU Lion Cove cũng được "độ thêm" sức mạnh với 4 ALU (tăng từ 3) và 2 FP Divider (tăng từ 1). Nhìn chung, năng lực xử lý của Lion Cove mạnh hơn Redwood Cove và rất mạnh so với Cypress Cove (hiện dùng trên Core đời 14).

Back-end


Tất nhiên các thay đổi ở phía trên sẽ vô nghĩa nếu Lion Cove không có sự cải tiến nào về bộ nhớ. Quay lại ví dụ nhà máy, nếu front-end đại diện cho ban giám đốc gửi công việc xuống, OoO là phòng quản lý sản xuất, execution là các dây chuyền nhà máy thì back-end chính là bộ phận lưu kho (nội bộ xưởng - kho tổng nằm ở ngoài hay DRAM). Nhà máy mở rộng sản xuất thì nội bộ kho cũng phải tăng cường thêm, nếu không hàng hoá làm ra sẽ bị dồn ứ - thiệt hại sản lượng.

Intel Lion Cove 07.jpg
Intel Lion Cove 08.jpg

Trên Lion Cove, một chi tiết thú vị là sự xuất hiện của L0 Cache. Xét về thông số thì nó không khác L1 Cache trên Redwood Cove là bao (48 KB), ngoại trừ độ trễ giảm từ 5 xuống 4 chu kỳ. Lion Cove vẫn có L1 Cache nhưng dung lượng cao hơn (192 KB) và độ trễ cũng nhiều hơn (9 chu kỳ). Còn L2 Cache có độ trễ tăng nhẹ từ 16 lên 17 chu kỳ, bù lại dung lượng tăng lên đáng kể tới 2.5/3 MB (3 MB có lẽ là bản server).

Quảng cáo



Intel Lion Cove vs. Redwood Cove.jpg

Tổng quan lại, phần back-end của Lion Cove "rộng rãi" hơn rất nhiều, âu cũng là để chứa được nhiều dữ liệu hơn trước. Intel cho biết về tổng thể, Lion Cove có mức IPC tăng 14% so với Redwood Cove.

Bỏ Hyper-Threading để tiết kiệm silicon?


Nếu là một người quan tâm công nghệ PC, hẳn bạn sẽ không lạ gì Hyper-Threading (HTT) hay SMT (tên gọi chung trong ngành). Đây là một tính năng mà Intel rất tự hào mang đi ca tụng hơn 2 thập kỷ rồi. SMT được Intel quảng cáo nhiều tới nỗi đã có nhiều cuộc "đấu khẩu" rằng chip AMD "kém" hơn vì không có SMT (thế hệ trước Zen). Nhưng điểm buồn cười là chip M của Apple hay Snapdragon của Qualcomm chả có SMT vẫn cứ mạnh như thường. Thế nên có SMT hay không tuỳ thuộc vào mục tiêu thiết kế chip, chứ không phải điểm tiên quyết nói lên sức mạnh.

Intel Lion Cove SMT ON.jpg

Quay lại Lion Cove, đây là lần đầu tiên trong 23 năm qua, Intel từ bỏ SMT trên sản phẩm của mình. Lý do mà công ty này đề ra là nếu không hỗ trợ SMT, thì 1 nhân xử lý được-tối-ưu (1 luồng) sẽ giảm được 10% diện tích nhưng vẫn cho hiệu năng xử lý tương đương với nhân hỗ trợ SMT (nhưng chỉ đang xử lý 1 luồng), hoặc ở cùng mức tiêu thụ điện thì hiệu năng sẽ hơn 15%. Còn so sánh với nhân đang xử lý 2 luồng, nhân được-tối-ưu (1 luồng) chỉ giảm 15% hiệu năng trên cùng diện tích, nhưng xét cùng mức tiêu thụ điện thì hiệu năng lại cao hơn 5%. Từ đấy, Intel (hoặc Pat Gelsinger) đã quyết định Lion Cove không cần hỗ trợ SMT nữa.

Intel Lion Cove SMT OFF.jpg

Một điểm khôi hài là nhớ lại lúc AMD (thuở Lisa Su chưa làm CEO) thiết kế chip Bulldozer, các kỹ sư công ty này cũng đưa ra nhận định không khác Intel hiện tại - họ có thể hỗ trợ SMT nếu thích nhưng chỉ cần thêm 15% silicon để ra 1 nhân "thực" thì tại sao phải xài nhân "ảo"? Thế nên Bulldozer và các sản phẩm dựa trên nó vẫn trung thành với triết lý CMP thay vì SMT. Chỉ khi Lisa Su về thì AMD mới chuyển qua SMT. Về lợi ích của SMT, mình sẽ có bài phân tích sâu hơn ở sau.

Theo quan điểm cá nhân, mình cho rằng việc Intel bỏ SMT trên Lion Cove thực chất đến từ E-core Skymont. Cụ thể hơn là ở cơ chế chia việc mới của Thread Director (TDD).

E-Core Skymont - Mạnh không kém Raptor Cove?


Thực ra câu nói trên có một tý khoa trương, hay đúng hơn là, còn thiếu điều kiện. Để E-core của LNL có thể mạnh ngang P-core của Core đời 13/14 thì yêu cầu là chúng phải được gắn với L3 Cache (LLC) hoặc Ringbus. Mà LLC hay Ringbus là thứ cho tới nay chỉ áp dụng cho P-core, bản thân các cụm E-core (4 nhân) hiện không có tính năng "đắt tiền" này (cache chiếm rất nhiều silicon). Skymont trên LNL hiện không có LLC.

Intel Skymont 01.jpg
Intel Skymont vs. Raptor Cove.jpg

Thông tin này của Intel cũng là một điểm thú vị. Theo ý kiến của mình, Intel có thể mang Skymont lên các dòng chip server (series Forest) và trang bị LLC cho chúng. Còn với desktop, nếu E-core có thể xài chung LLC với P-core thì mọi thứ sẽ rất ly kỳ... Nhưng thôi, hãy trở về với LNL.

Kết quả benchmark chip server Xeon 6 của Phoronix: Nơi E-core toả sáng

Bạn có đang làm việc đúng chuyên ngành không? Câu hỏi này có thể sẽ làm nhiều người "bị nhột" nhưng nó là điều đã/đang diễn ra với E-core của Intel bao lâu nay. Có lẽ bạn đã từng học làm kỹ sư, thiết kế, quản trị kinh doanh...
tinhte.vn


Front-end


Nếu đã từng xem qua phần phân tích E-core Crestmont của MTL, bạn dễ nhận thấy Skymont là phiên bản lớn của Crestmont! Trong khi Crestmont có 2 cụm decoder (2x 3-wide) thì Skymont là 3 cụm (3x 3-wide). Dung lượng bộ queue cũng như fetch của Skymont cũng gấp 1.5 lần Crestmont (từ 64 lên 96 đơn vị).

Phân tích kỹ thuật nhân CPU trên Intel Meteor Lake - E-core và Hybrid Architect

Với phần trước chúng ta đã nói về kiến trúc nhân P-core Redwood Cove của Meteor Lake (MTL). Ở phần này, cấu trúc nhân E-core Crestmont cũng như năng lực xử lý của cụm SoC sẽ là chủ điểm. https://tinhte.
tinhte.vn


Intel Skymont 02.jpg
Intel Skymont 03.jpg

Nhưng do chỉ là E-core, các thành phần tiên đoán rẽ nhánh hay lên tập lệnh của Skymont vẫn khá đơn giản. Chúng chỉ bự hơn Crestmont vì có nhiều decoder hơn.

Out-of-order (OoO) engine


Bạn có thể đang nghĩ, 9-wide decoder thì OoO cũng phải 9-wide cho tương xứng? Không. Nếu đây là P-core thì sẽ như thế, nhưng đây không phải P-core. Intel chỉ mở rộng khu vực này từ 6-wide lên 8-wide. Nó cũng chỉ có 2 chức năng Allocate/Rename chứ không được đầy đủ bằng Lion Cove.

Intel Skymont 04.jpg
Intel Skymont 05.jpg

Một "nét truyền thống" của E-core từ bao lâu nay là chúng không có thanh ghi Scheduler. Thay vào đó các vi lệnh sau khi được decode sẽ đẩy thẳng xuống các cổng để đưa vào các ống lệnh INT hay FPU. OoO của Skymont chỉ cải thiện ở chỗ tăng số lượng cửa sổ tập lệnh từ 256 lên 416, cũng như mở rộng thêm kích thước cho các thanh ghi khác.

Execution


Tuy cấu trúc đơn giản, nhưng vì số decoder tăng hơn trước nên khu vực xử lý của Skymont cũng cần mở rộng hơn Crestmont. Cũng giống các đời E-core trước, Skymont có rất nhiều cổng để nhận yêu cầu xử lý từ front-end/OoO. Riêng khu vực INT/MEM có tới 26 cổng nhận dữ liệu (!), FPU là 6 cổng. Mặc dù số cổng nhiều là thế nhưng số ống lệnh không bao nhiêu. Chúng ta có 4 ống INT, 2 ống MEM và 1 ống JMP, 1 ống STD. Còn FPU là 5 ống lệnh.

Intel Skymont 06.jpg
Intel Skymont 07.jpg

Cũng do số ống lệnh tăng lên, các đơn vị tính toán của Skymont cũng tăng theo. So với Crestmont, số ALU INT tăng gấp đôi (4 lên 8). Riêng bên FPU, Intel cho biết khu vực này có năng lực xử lý các vector có kích thước 4x 128-bit, giúp cải thiện hơn năng lực AI. Các đơn vị FMUL, FADD, FMA cũng giảm bớt độ trễ, cho phép tính toán nhanh hơn trước.

Back-end


Front-end và Execution mở rộng hơn đồng nghĩa Back-end cũng thế. Chúng ta có tới 7 AGU thay cho 4 ở thế hệ trước. Chúng cho phép đạt tới 3 lượt Load 128-bit và 4 lượt Store. L2 TLB tăng 33% từ 3096 lên 4192 entry.

Intel Skymont 08.jpg
Intel Skymont 09.jpg

Dù thế, dung lượng cache vẫn giữ nguyên như Crestmont, cho thấy E-core vẫn bị "phân biệt đối xử". Có thể tưởng tượng nhà máy có nhiều công nhân hơn để đẩy hàng đi lại, song diện tích khu vực để pallet hàng thì vẫn như cũ.

Intel Skymont vs. Crestmont.jpg

Tổng quan lại, Intel cho hay Skymont có hệ số IPC INT cao hơn Crestmont 38%, còn FPU là 68%! Khá ấn tượng! Trong khi đó nếu được trang bị LLC, IPC Skymont sẽ ngang ngửa với Raptor Cove. Có điều món này hiện không áp dụng cho LNL, thế nên chúng ta chỉ cần con số so sánh với Crestmont được như Intel quảng cáo...

Phân tích kiến trúc vi xử lý Intel Lunar Lake - Phần 1: “Nhảy cóc” lên 8-wide

Phân tích kiến trúc vi xử lý Intel Lunar Lake - Phần 3: Thread Director mới và NPU4
80 bình luận
Chia sẻ

Xu hướng

Nữa hả Nghĩa . Intel fix lỗi 13th 14th chưa vậy Nghĩa ??? 😂😂😂😂
@Nguyễn Chí Danh04 Vẫn phải lên thôi vì Intel book bài rồi
@Nguyễn Chí Danh04 intel vừa đắt vừa dỏm bác nhỉ,hic
@haobcyqhdvb a thằng hic
@Nguyễn Chí Danh04 không thể fix
@Nguyễn Chí Danh04 Phân với chả tích, Mod này tự hào ngày ráp vài chục bộ pc đây mà 😆
Đọc phức tạp thế nhỉ, ngày xưa khi Intel làm chip cho smartphone, nếu nghiêm túc làm từ ngày đó thì giờ đỡ có phải vất vả ko
@centernc thương thay intel, 1 thời bố đời hô mưa gọi gió, cho gì xài nấy, coi người dùng như trẻ con

giờ phải chạy pr mấy bài rác rưởi lùa gà như vậy

tiếc thay đã khá trễ, người dùng giờ khôn rồi, dễ gì bị lừa nũa, đầy sự lựa chọn

ko apple M thì amd, snapdragon

haha, ỉa vào mấy laptop intel pin 2 3 tiếng, nóng, thọt, 10+++++++++
@centernc thím level inteo có thế, tốn hơn 7.5 tỉ usd tài trợ smartphone mà tèo bởi vì inteo quá tệ thì đòi hỏi gì hả?
@centernc thời đó trùm pc nên không đếm xỉa smp, giờ hối hận không kịp
Lý thuyết thì hay mà thực tế thì chả biết sao
@Say what??? Canh bạc cuối cùng của Intel, nếu ko thành công thì dấu chấm hết cho Intel
@Say what??? Thực tế là … đang lỗi cháy silicon đó ^^
@Say what??? thực tế chạy app sẽ rùa, thấy đám inteo core ultra mới load app còn thua arm giả lập thì biết đám e core rác này yếu cỡ nào. x86 chỉ nhờ amd thôi chứ inteo vứt.
Nghe Intel bánh vẽ thì khác gì nghe ph ò kể chuyện đâu =))
@Quy Le Anh Đừng bao giờ tin lời intel nói mà hãy nhìn cách intel làm 🤣🤣🤣🤣
Ồ dê. Lại có bánh vẽ phần 2 rồi !

Tèo đang ngập trong bể phốt mà vẫn vẽ bánh thơm ngon cho fan ^^ nể thật !
Lý thuyết thì tùm lum tà la. Mấy con Core E core P thì nóng & đớp điện vailiz ra. Vẽ cho cố mua 1 lần tởn mẹ đến già . Lần gần đây nhất mua con lap là con xps 9320 plus . Tởn luôn.
Máy thì max nóng. Lướt web xem youtube thôi cũng nóng vtl. Trong khi mấy con I5 8250U nó mát rười rượi. DCM nhân E rác
Untitled.jpg
@kehuydiet091 chưa kể hiệu năng kém nữa.
@Say what??? thì core e rác nó yếu nên khi kéo app nó chạy max xung nên nóng và ngốn pin hiệu năng lại giảm
@kehuydiet091 Saz...may mà mình chưa mua. Bữa định mua vì thấy đẹp, quảng cáo máy mạnh pin trâu. May đúng lúc surface laptop 7 ra nên mua luôn, chip arm mát và pin trâu
@langtu0076 Vailonluon. Nghe quảng cáo 7,8h. Dcm xài chưa đc 3h.
Được cái màn đẹp, loa to vcl 5w mà bass đồ ngon phết , build đẹp & chắc chắn. Nhưng quả nhiệt độ với pin thì không thê chấp nhận.
Dell.jpg
LYSM
TÍCH CỰC
một tháng
Đọc mấy bài này lại có cảm giác như Intel đang ở thời kì AMD Bulldozer
@LYSM Cái thời nhắc tới amd người liên tưởng tới cái lò hehe
Claw
TÍCH CỰC
một tháng
@LYSM Bulldozer nó còn chạy bình thường chứ không đến nỗi lỗi tùm lum thế này. Intel luôn ở 1 đẳng cấp khác
@LYSM Đúng ra là thời kỳ Pentium D =))
Tóm tắt lại là E-core được tạo ra để chuyên chạy tác vụ nặng, còn P-core thì ngồi chơi xơi nước.
@sky_tiger Vấn đề của Intel là CPU 16P core để bán ở phân khúc workstation, giờ đem xuống phân khúc phổ thông thì khác nào tự đá vào chén cơm của mình. Nên mới có cái trò 8P+EEEEEE.
E core của Intel khác với E core của ARM, nó không hề tiết kiệm điện, mấy con flagship nhồi cả đống EEEEEE và bú điện như chóa. E core của Intel chỉ là để bán cpu 16P với mức giá cắt cổ.
@vanthoan đúng e core inteo là core atom rác và yếu mang lên để lùa gà nhiều nhân và ko thể chuyển task cho p core như arn được. inteo đã lởm còn bắt chước tệ nữa.
@vanthoan 9 xác. Mình người dùng thôi đel biết cc gì nhiều. Nhưng mấy con core E, P trên ultrabook giờ bú điện & nóng vcl hơn mấy con chip U đời trước đó. Mà hiệu năng cũng bình thường
Vẫn bơm điện tăng xung tiến trình 10nm+++++++++ hả
mấy thằng mod tt thậm chí cả cái trang tt này mình theo dõi đến giờ chắc cũng 12 năm hơn rồi. dm mà càng ngày càng thấy cái trang này nó kiểu báo lá cải bơm bơm vá vá vcl ra. tối ngày bù lu bù loa là mxh tt cái dm trang tin thôi mà ngày nhồi bao nhiêu là quảng cáo trá hình vào. thật lòng càng ngày càng gét cái tt này.
Nói tóm lại là Intel nên cập nhật lại giáo trình. Giáo trình này chắc có từ thời 8086 cập nhật lên. Nội dung quá phức tạp với người dùng bình thường và chưa đủ thông tin đối với người dùng kỹ sư điện tử. Nói tóm lại cả 2 nhóm người dùng khi đọc những tài liệu dạng này đều mơ hồ.
Chủ yếu là P core nhưng trước hết Intel phải ổn định nhiệt độ cái đã
Có cách nào chủ động bật tắt E/P core ngay trên win không mấy bác nhỉ?
@nefertem Có gì đó sai sai, tui làm theo ông, mò ra cá mục Maximum processpr state. Mặc định 100%, tui để 70% mà con chip nó chạy còn có 12w =)) Đáng nhé 70% nó cũng phải tầm 100w mới phải 😆 (Sau một lúc nó mới chạy đúng 70% như thiết lập rồi ông)
@ThànhYx tôi k để ý số W, tôi để ý xung nhịp à
@ThànhYx Nếu bác xài mấy con lenovo legion thì sẽ có. Dùng tổ hợp phím fn + K để bật tắt e-core.
IMG-20230625-115736487.jpg
@NDL98_107 Tks bác, tui dùng máy bàn, win10 nên chắc không có rồi.
Đến lúc đấm vỡ mồm Amd rồi 🐧
@ThànhYx chắc thím bị inteo đấm vở brain rồi nên ngáo hả?
@ThànhYx Fan Tèo vẫn còn như này bảo sao ko bị nó coi như rác. Lỗi thì ko biết, nhưng bánh vẽ thì ăn lấy ăn để ^^
@dualshoсk ng ta thả bait mà b. k nhìn thấy con chim à :v
Tôi dùng laptop i7 đời 11 may quá 😙
Bài quảng cáo, skip cho nhanh
Claw
TÍCH CỰC
một tháng
"Intel Inside" giờ trở thành 1 cảnh báo nguy hiểm cho bà con sắp lắp và đã lắp, sắp mua và đã mua máy tính.
lại core e rác nữa.

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019