TTBC 2025

TTBC 2025


Những chiếc máy tính Panther Lake sắp tới sẽ nuôi đội Agentic AI như thế nào?

ND Minh Đức
23/10/2025 5:49Phản hồi: 3
EditEdit
Những chiếc máy tính Panther Lake sắp tới sẽ nuôi đội Agentic AI như thế nào?
Nếu như 3 năm qua chúng ta đã gắn khái niệm AI với những con chatbot ChatGPT, Gemini, trợ lý cá nhân trên máy tính thì từ năm ngoái đến nay, người ta đưa nó tới một bậc phát triển khác trong quá trình định hình của thế giới kỹ thuật số chính là Agentic AI.

AI đã đi từ khả năng Perceive (nhận diện), đến Enhance (nâng cao) và Generate (tạo sinh, bọn chatbot hay tạo ảnh bằng AI này nọ chính là cái này). Tuy nhiên bước tiếp theo chính là Action (hành đông), bơi những con AI nói chuyện với nhau, tự lập luận, lên kế hoạch và thực thi các chuỗi tác vụ phức tạp. Tại 2 sự kiện lớn gần đây của Intel và cả Qualcomm mà mình có tham dự, họ đều nói rất nhiều tới xu hướng này và cách mà họ chuẩn bị cho điều đó.

Đồng thời, Intel cũng miêu tả chi tiết các thành phần và cách hoạt động của một hệ thống Agentic AI trên máy tính để chúng ta dễ hình dung. Xin được chia sẻ lại với các bạn.

Mô hình hoạt động của Agentic AI


Để minh họa cho bản chất hoạt động của Agentic AI, Intel đưa ra một tình huống thí dụ rằng người dùng cần tạo ra một slide trình chiếu PowerPoint và họ yêu cầu AI hỗ trợ. Từ một prompt yêu cầu ban đầu, Agentic AI sẽ tự động thực hiện một chuỗi các bước chính gồm:

Panther Lake AI-2.jpg

  1. User Prompt (Yêu cầu của Người dùng): Người dùng đưa ra một yêu cầu phức tạp bằng ngôn ngữ tự nhiên, ví dụ: "Vui lòng tạo một bản trình bày PowerPoint cho công ty Intel về chủ đề phân tích thị trường AI PC. Sử dụng màu tím và tiếng Anh. Vui lòng mở URL của quy trình trong trình duyệt."
  2. Orchestrator / Super Agent (Agent Điều phối): Một "siêu Agent" nhận và phân tích yêu cầu. Nó xác định rằng Agent chuyên biệt SlidesMaker là phù hợp nhất để thực hiện nhiệm vụ và chuyển giao yêu cầu.
  3. Agent LLM (LLM của Tác nhân): Agent SlidesMaker, được trang bị một mô hình ngôn ngữ lớn (LLM) riêng, nhận nhiệm vụ và lập kế hoạch. Nó xác định rằng để hoàn thành yêu cầu, nó cần sử dụng hai công cụ có sẵn: ChatPPT để tạo nội dung slide và OpenInBrowser để mở URL trong trình duyệt.
  4. Tool Call (Gọi Công cụ): Tác nhân SlidesMaker thực hiện lệnh gọi đến máy chủ MCP (Model Content Protocol) để thực thi công cụ ChatPPT với các tham số đã được phân tích từ yêu cầu ban đầu.
  5. Reflection & Iteration (Phản hồi & Lặp lại): Agent nhận kết quả trả về từ công cụ, trong trường hợp này là một mã định danh cho bản trình chiếu (ppt_id). Nó cập nhật kết quả này vào bộ nhớ ngữ cảnh của mình (một quá trình được gọi là "reflection") và lặp lại quy trình cho đến khi tất cả các phần của yêu cầu ban đầu được hoàn thành.
  6. Output to User (Trả kết quả cho Người dùng): Sau khi tất cả các bước đã hoàn tất, Agent điều phối sẽ thông báo cho người dùng rằng nhiệm vụ đã được thực hiện thành công. Kết quả cuối cùng là slide hoàn chỉnh trả về người dùng.

Có thể thấy qua thí dụ đơn giản bên trên, toàn bộ quy trình truyền thống được AI Agent tự động hóa mà không cần con người can thiệp thủ công ở mỗi giai đoạn. Đây chính là bản chất của tính "tăng năng suất", tiết kiệm thời gian mà người ta cứ nhắc tới nhắc lui khi đề cập tới AI những năm qua (chứ không phải nó sinh ra chữ dùm đâu).

Và để vô số những quy trình như bên trên, từ đơn giản tới phức tạp chạy hiệu quả, nó đặt ra nhu cầu phần cứng mới. Về kỹ thuật, toàn bộ các bước và vòng lặp bên trên bao gồm các kỹ năng lý luận, gọi công cụ lên xài và phản hồi,... đặt ra yêu cầu không đồng nhất lên phần cứng nền tảng, đòi hỏi cần phải có sự kết hợp giữa hiệu năng đơn luồng độ trễ thấp để xử lý logic và khả năng xử lý song song thông lượng cao để thực thi tools và cả khả năng xử lý bền bỉ, tiết kiệm năng lượng để các agent điều phối luôn chạy ngầm chờ lệnh người dùng.

Yêu cầu phần cứng ở thời đại mới: XPU


Và để giải quyết bài toán trên, Intel sử dụng Panther Lake với kiến trúc tính toán heterogeneous (bất đồng nhất). Tên gọi chính xác của nó là XPU, được phát triển để cung cấp đúng loại tài nguyên tính toán cho từng thành phần cụ thể của một khối lượng công việc agentic. Thay vì áp dụng một giải pháp duy nhất cho tất cả, Panther Lake tích hợp các engine chuyên dụng gồm CPU, GPU và NPU để tối ưu hóa hiệu năng, hiệu quả năng lượng và độ phản hồi cho nhu cầu đặc thù này.

Panther Lake AI-3.jpg

Tới đây có thể bạn sẽ thắc mắc tại sao là bất đồng nhất! Chính xác thì trong Panther Lake, 3 thành phần trên sẽ tương ứng với các engine khác nhau tối ưu cho từng khối lượng công việc. Để dễ hiểu, chúng ta sẽ quy cái khả năng đó về TOPS (nghìn tỷ phép tính mỗi giây) làm đơn vị. Cụ thể:
  • CPU sẽ sử dụng tập lệnh VNNI và AVX với sức mạnh 10 TOPS để chạy các tác vụ AI nhẹ, độ trễ thấp.
  • NPU sẽ sử dụng kiến trúc NPU 5 MAC array với sức mạnh 50 TOPS để chạy các tác vụ AI chạy nền, liên tục như trợ lý ảo. Các bạn cứ hình dung NPU là một ông đầu bếp chuyên nghiệp chỉ là một việc duy nhất là nấu ra "món AI" thật nhanh và tiết kiệm điện, MAC ở đây là công thức nấu ăn cơ bản và 5 MAC Array là ông đầu bếp này có tận 5 cánh tay, mỗi tay cầm một cái chảo để nấu 5 món cùng lúc, đẩy nhanh tốc độ ra nguyên bàn tiệc cho khách.
  • GPU sẽ sử dụng engine Xe3 XMX với sức mạnh lên tới 120 TOPS để chạy các tác vụ AI song song, thông lượng cao cho các game thủ hay người sáng tạo nội dung dựng phim, dựng hình 3D này nọ. Lại thí dụ tưởng tượng nữa cho các bạn dễ hình dung, con GPU Xe3 giống như là một cái nhà máy làm kẹo siêu lớn, trong đó ông engine XMX là các dây chuyền sản xuất tự động, giúp tạo ra hàng ngàn viên kẹo AI trong vài giây một cách nhanh chóng, đều, ổn định và không bị nghẽn.

Và kết hợp tất cả lại, chúng ta sẽ có Panther Lake có tổng hiệu năng 10 + 50 + 120 = 180 TOPS như lời Intel tuyên bố, đáp ứng hiệu quả cái quy trình Agentic đa bước ở bên trên đầu bài mà mình đề cập tới.

Quảng cáo


Sâu chút về CPU cho ai quan tâm


Nhắc tới Intel là nghĩ ngay tới CPU. Do đó làm gì làm thì với kinh nghiệm ngần ấy năm, Intel cũng sẽ làm những điều rất đặc biệt với các nhân CPU trên Panher Lake. Cho bạn nào thích tìm hiểu sâu hơn, mình sẽ đi sâu xíu nữa vai trò của các nhân, cách điều phối thread để coi nó khác thế hệ trước ra sao và hỗ trợ nhu cầu tương lai thế nào ha.

Đầu tiên, trong CPU của Panther Lake sẽ có 2 vi kiến trúc là nhân hiệu năng cao P-Core Cougar Cove, được thiết kế với hiệu năng đơn luồng và thông lượng cao nhất và nhân hiệu suất E-Core Dartmont được tối ưu hóa cho hiệu năng đa luồng và tiết kiệm điện. Về mặt quảng cáo thì Intel nói rằng hiệu năng đơn luồng cao hơn trên 10% và hiệu năng đa luồng cao hơn 50% ở cùng mức công suất so với thế hệ trước.

Panther Lake AI-5.jpg

Vậy mức tăng đó để làm gì? Mức tăng hiệu năng đơn luồng trên 10% do Cougar Cove mang lại sẽ phục vụ chuyện tăng tốc giai đoạn lý luận và lập kế hoạch (Bước 3: Agent LLM ở bên trên) của vòng lặp agentic, giảm "thời gian đến hành động đầu tiên" (bạn nào chạy LLM local sẽ biết tới khái niệm Time To First Tokens chính là thằng này chạy) và làm cho trợ lý AI có cảm giác phản hồi nhanh nhạy hơn. Đồng thời, mức tăng hiệu năng đa luồng hơn 50% từ các lõi E-core Darkmont được mở rộng được thiết kế để xử lý các lệnh gọi công cụ đồng thời (Bước 4) và các quy trình phản hồi nền (Bước 5) mà không ảnh hưởng đến khả năng phản hồi của hệ thống, cho phép các quy trình làm việc đa tác nhân phức tạp hơn.

Panther Lake AI-4.jpg

Tuy nhiên, chỉ có mỗi P-Core hay E-Core thì chưa có xong. Chúng ta phải có một cơ chế điều phối khác hồi xưa để đảm bảo hiệu quả của toàn hệ thống. Intel giới thiệu Thread Director đó là Zoneless, hoạt động như một bộ não điều phối, đảm bảo rằng mỗi tác vụ được gán cho một nhân phù hợp để tối đa hóa hiệu năng và hiệu quả. Cụ thể thì quy trình phân công tác vụ diễn ra tự động và không cố định như sau (thực ra lúc mình ngồi nghe mới thấy mấy anh kỹ sư bên Intel ghê thiệt):

Quảng cáo


  • Bắt đầu với LP E-cores: Các tác vụ nhẹ, nền sẽ được bắt đầu trên các lõi LP E-cores để tiết kiệm năng lượng tối đa.
  • Leo thang lên E-cores: Nếu khối lượng công việc vượt quá khả năng của LP E-cores, Thread Director sẽ tự động di chuyển tác vụ đó sang các lõi E-cores trên compute tile để có hiệu năng cao hơn.
  • Leo thang lên P-cores: Đối với các tác vụ đòi hỏi hiệu năng cao nhất, chúng sẽ được chuyển sang các lõi P-cores để đảm bảo độ phản hồi tức thì và tốc độ xử lý nhanh nhất.

3 nấc thang trên chính là cơ chế Zoneless, không cố định mà luôn thay đổi nhằm duy trì độ phản hồi nhanh nhạy và hiệu quả năng lượng trong suốt vòng đời của một tác vụ agentic. Dù tác vụ đó đơn giản hay phức tạp, hệ thống luôn tự động điều chỉnh để cung cấp đúng lượng sức mạnh cần thiết mà không lãng phí năng lượng, mang lại trải nghiệm người dùng mượt mà và thời lượng pin lâu dài hơn.

Tuy nhiên, sức mạnh phần cứng chỉ là một nửa của phương trình. Để các nhà phát triển và người dùng cuối có thể khai thác toàn bộ tiềm năng này, cần phải có một lớp phần mềm tinh vi và hợp nhất. Và giải pháp của Intel là dùng OpenVINO để chuyển nhiệm vụ làm phần mềm cho các nhà phát triển lẫn Microsoft 😁

Panther Lake AI-1.jpg

Chi tiết hơn xíu, phần lõi ở đây chính là bộ công cụ Intel Distribution of OpenVINO Toolkit, cung cấp một runtime hợp nhất, hiệu năng cao và tối ưu hóa lẫn thực thi các model AI trên tất cả các engine tính toán, từ CPU, NPU tới GPU. OpenVINO sẽ kết nối các framework cấp cao như PyTorch và ONNX với các trình điều khiển phần cứng cấp thấp. Điều này cho phép các nhà phát triển viết mã một lần và OpenVINO sẽ tự động xử lý việc phân bổ và tối ưu hóa tác vụ suy luận trên engine phù hợp nhất, trừu tượng hóa sự phức tạp của phần cứng bất đồng nhất của Panther Lake mà mình nói ở trên.

Cho dễ hiểu thì ông này giống như một phiên dịch viên thông minh giữa các framework cấp cao như Pytorch hay ONNX và controller cấp thấp bên dưới. Khi nhà phát triển viết code AI bằng PyTorch hay ONNX, họ không cần lo phần cứng bên dưới là gì. OpenVINO sẽ tự động chọn engine phù hợp nhất (CPU, GPU hay NPU) để chạy tác vụ AI đó giống như một người điều phối giao thông, biết xe nào chạy đường nào nhanh nhất. Nhờ vậy, code chỉ cần viết một lần, nhưng có thể chạy tối ưu trên mọi loại phần cứng.

Một giải pháp khác mà mình thấy rất hay nữa chính là cách Intel dùng kỹ thuật quantization (nôm na là nén) để tối ưu các LLM lớn chạy trên hệ thống XPU. Về cơ bản thì OpenVINO sẽ tự giảm độ chính xác của các trọng số mô hình một cách linh hoạt trong quá trình chạy để giảm mức sử dụng bộ nhớ và tăng tốc độ tính toán, rồi tự tối ưu key-value cache (ông ăn nhiều bộ nhớ nhất khi chạy model LLM),... để đẩy nhanh tốc độ phản hồi của LLM, giúp đám Agent sẽ chạy nhanh, phản hồi nhanh mà không ăn nhiều bộ nhớ mỗi lần chạy.

Đó, trên đây là tầm nhìn, những điểm cơ bản và những gì mà Panther Lake đáp ứng được. Hy vọng rằng qua đó thì các bạn có thể hình dung được rõ hơn thế giới máy tính sắp tới nó chạy ra sao, rồi các hãng làm phần cứng như Intel sẽ cung cấp cái gì, Panther Lake vận hành ra sao để giải quyết nhu cầu đó. Chúc vui.
3 bình luận

Xu hướng

vấn đề mình không rõ là hình như bản này ram rời, chứ không trên chip nữa vậy chạy mô hình AI thế nào?
@BBW Ram thì bản chất vẫn là ram. Cớ sao thí chủ lại hỏi vậy. Hỗ trợ Ram tốc độ tới 9700 rồi
lâu rồi mới đọc cái bài thêm nhiều ví dụ cho dễ hình dung,dễ hiểu ntn

Xu hướng

Bài mới








  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2025 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: 70 Bà Huyện Thanh Quan, P. Xuân Hoà, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép cung cấp dịch vụ MXH số 134/GP-BVHTTDL, Ký ngày: 30/09/2025