Computex 2026


ASUS Ascent GX10: Từ xây dựng chatbot cơ bản đến hệ thống Agentic RAG

Pnghuy
12/1/2026 7:58Phản hồi: 8
EditEdit
ASUS Ascent GX10: Từ xây dựng chatbot cơ bản đến hệ thống Agentic RAG
Trong chủ đề này mình muốn chia sẻ với anh em một số cách để tận dụng sức mạnh của mẫu siêu máy tính ASUS Ascent GX10, hay những biến thể của chiếc NVIDIA DGX Spark vào việc xây dựng hệ thống chatbot cơ bản cho đến triển khai Agentic RAG và một số các trường hợp sử dụng thực tế của chúng.



Như trong những chủ đề trước mình đã chia sẻ hoặc những anh em mod khác đã chia sẻ về ASUS Ascent GX10, thì với sức mạnh của mẫu siêu chip GB10 (Grace Blackwell), 128GB Unified memory thì nó có thể xử lý một mô hình ngôn ngữ lớn lên đến 200 tỷ tham số. Con số này không đại diện cho việc nó sẽ nhanh hơn những chiếc máy Mac chạy chip M Ultra hay M Max Series, nhưng rõ ràng nó được tối ưu sẵn các công cụ của NVIDIA một cách triệt để nhất.

[​IMG]
Nhắc lại một chút cho anh em nào lỡ quên, GB10 là mẫu chip được phát triển dựa trên kiến trúc Grace Blackwell của NVIDIA, kết hợp giữa CPU 20 nhân Arm và GPU Blackwell, tối ưu cho quá trình nghiên cứu, phát triển các ứng dụng AI, triển khai AI cục bộ cho cá nhân, nhóm làm việc hoặc thậm chí là cấp doanh nghiệp. Với kết nối NVLink-C2C mà băng thông để "giao tiếp" giữa CPU và GPU lên đến 900GB/s (2 chiều). Điều này có nghĩa là dữ liệu được truyền từ CPU sang GPU (hoặc ngược lại) gần như không có độ trễ, cho phép các mô hình AI huấn luyện và chạy inference (dự đoán) nhanh hơn rất nhiều.

Ngoài ra, NVIDIA còn có NVIDIA ConnectX-7 SmartNIC – một bộ điều hợp mạng đặc biệt hỗ trợ tốc độ lên tới 400 Gbps cho phép kết nối hai chiếc GX10 với nhau bằng cáp kết nối đặc biệt. Với băng thông này, bạn có thể fine-tune mô hình lên đến 405 tỷ tham số.

Thông số kỹ thuật đầy đủ của ASUS Ascent GX10:

  • CPU: 20 nhân ARM (Grace)
  • GPU: Blackwell, AI compute 1 petaFLOP
  • RAM hợp nhất (unified memory): 128GB LPDDR5X (dùng chung cho CPU & GPU)
  • Lưu trữ: 1TB PCIe NVMe.
  • Kết nối: 10GbE, QSFP (hỗ trợ ghép nối nhiều Spark)
  • Điện năng tiêu thụ: 240W chạy 24/7.
  • Hệ điều hành: DGX OS (dựa trên Ubuntu), hỗ trợ Nvidia Sync, SSH đơn giản.

Xây dựng chatbot "mì ăn liền" với Ollama + Open WebUI


Với Ollama làm nền (backend) và giao diện Open WebUI, bạn có thể chạy mô hình AI cục bộ trên máy tính với bất kì thiết bị nào, dù là Windows, macOS hay Linux và dĩ nhiên với Ascent GX10 cũng không ngoại lệ. Đây là giải pháp phù hợp nhất để làm quen với DGX Spark. Nhờ kiến trúc ARM của CPU Grace, Ollama chạy cực kỳ tối ưu và ổn định.

CleanShot 2026-01-12 at 14.44.54@2x.jpg
Các hệ thống như Ollama hoạt động như một Standard RAG, theo cơ chế tuyến tính: Truy xuất (Retrieval) > Trả lời (Generation). Khi người dùng hỏi, hệ thống quét dữ liệu vector, tìm đoạn văn bản khớp nhất và dùng LLM để tổng hợp câu trả lời.

Quá trình triển khai hệ thống này diễn ra khá trực quan, bắt đầu bằng việc thiết lập kết nối bảo mật SSH vào thiết bị và cài đặt Ollama thông qua các câu lệnh cơ bản. Sau khi phần lõi đã hoạt động, việc triển khai Open WebUI thông qua Docker sẽ cung cấp một giao diện người dùng trực quan, tương tự như trải nghiệm ChatGPT mà đa số mọi người đã quen thuộc.

CleanShot 2026-01-08 at 11.57.12@2x.jpg
Để giải quyết bài toán làm việc từ xa, việc sử dụng Tailscale vào quy trình này cho phép đội ngũ kỹ thuật hoặc người dùng cuối truy cập vào Chatbot ngay tại nhà thông qua một địa chỉ IP riêng biệt mà không cần mở cổng public rủi ro ra Internet.

Quảng cáo


Đây là giải pháp "mì ăn liền" nhưng cực kỳ hiệu quả, mang lại khả năng Chatbot cơ bản và tính năng RAG tiêu chuẩn, cho phép người dùng tải lên tài liệu và hỏi đáp tức thì với tốc độ phản hồi cực nhanh nhờ sự tối ưu hóa phần cứng.
CleanShot 2026-01-08 at 11.57.33@2x.jpg
Các giải pháp như Ollama sẽ phù hợp với nhóm phát triển sản phẩm, các nhà phát triển ứng dụng có thể tích hợp thẳng vào VS Code, các đoạn mã nguồn cũ hay tài liệu kỹ thuật độc quyền của công ty có thể được nạp vào hệ thống để AI hỗ trợ giải thích logic, viết tài liệu hướng dẫn hoặc tạo các bài kiểm tra tự động mà không sợ rò rỉ mã nguồn ra các máy chủ công cộng như khi sử dụng các dịch vụ AI miễn phí. Điều này đặc biệt quan trọng với các công ty công nghệ coi mã nguồn là tài sản sống còn.

Đối với một nhóm biên tập nội dung công nghệ như Tinh tế chẳng hạn, hệ thống Standard RAG chạy trên hạ tầng nội bộ mang lại những giá trị như:

Các nhóm nội dung công nghệ thường nhận được tài liệu kỹ thuật của các sản phẩm công nghệ chưa ra mắt dưới dạng thỏa thuận bảo mật (NDA). Việc sử dụng các công cụ AI đám mây (như ChatGPT, Gemini) để tóm tắt hay trích xuất thông tin từ các tài liệu này có nguy cơ vi phạm NDA do dữ liệu bị gửi lên máy chủ bên ngoài.

CleanShot 2026-01-12 at 14.49.42@2x.jpg
Hệ thống Standard RAG chạy local đảm bảo toàn bộ thông số nhạy cảm (như xung nhịp, số lượng nhân xử lý) nằm hoàn toàn trong mạng nội bộ, cho phép đội ngũ biên tập xử lý tin bài trước giờ G mà không lo rò rỉ.

Các biên tập viên công nghệ thường mất nhiều thời gian để "đào" thông số từ các file PDF tài liệu kỹ thuật dài hàng trăm trang. Standard RAG cực kỳ hiệu quả trong việc này. Bạn có thể upload toàn bộ tài liệu kỹ thuật của một dòng chip mới và hỏi: "So sánh số lượng nhân CUDA của RTX 4090 và RTX 5090 dựa trên tài liệu này". Hệ thống sẽ trích xuất con số chính xác từ văn bản gốc để trả lời, giảm thiểu tối đa tình trạng "ảo giác" (hallucination) thường gặp khi AI tự bịa số liệu, giúp bài viết có độ chính xác kỹ thuật cao.

Quảng cáo



Tốc độ inference với các mô hình như gpt-oss-20b hay thậm chí là 120b thì nó cũng không vượt trội hơn so với các hệ thống máy tính hiện tại cũng sử dụng Unified memory, nhưng lợi thế về phần mềm, sự hỗ trợ "tận răng" từ NVIDIA là thứ sẽ khiến người dùng triển khai nhanh chóng hơn nhiều. Đặc biệt, hệ thống này có thể được truy cập từ xa, từ nhiều người để dùng, không tiêu tốn nhiều tài nguyên của máy tính cá nhân.

Xây dựng "Nhân viên ảo" với NVIDIA AI Workbench (Agentic RAG)

CleanShot 2026-01-07 at 15.58.31@2x.jpg


Mặc dù hệ thống Standard RAG với Ollama hoạt động rất hiệu quả cho các tác vụ tra cứu thông thường, nhưng tham vọng về một hệ thống AI thông minh hơn, có khả năng tư duy và tự hành thì lúc này chúng ta sẽ cần đến NVIDIA AI Workbench và mô hình Agentic RAG.
CleanShot 2026-01-07 at 16.22.34@2x.jpg
Đây là giải pháp tận dụng tối đa sức mạnh phần cứng của DGX Spark, biến nó thành một Agent có khả năng tư duy. Khác với Standard RAG, Agentic RAG hoạt động theo vòng lặp tư duy: Lập kế hoạch > Sử dụng công cụ > Kiểm tra kết quả > Trả lời.
CleanShot 2026-01-07 at 19.41.09@2x.jpg
Hệ thống Agentic RAG này không chỉ đơn thuần là trả lời câu hỏi, nó hoạt động như một nhân viên mẫn cán với khả năng lập kế hoạch, biết tự quyết định khi nào cần tra cứu dữ liệu nội bộ, khi nào cần sử dụng công cụ tìm kiếm web như Tavily để cập nhật thông tin mới nhất, và khi nào cần kích hoạt môi trường lập trình Python để tính toán số liệu phức tạp.
CleanShot 2026-01-08 at 11.53.09@2x.jpg
Sự khác biệt giữa hai hệ thống này không chỉ nằm ở công nghệ mà còn ở tư duy giải quyết vấn đề. Nếu ví hệ thống Standard RAG trên Ollama như một người thủ thư cần mẫn, làm việc theo quy trình tuyến tính "tìm và gửi", thì Agentic RAG trên NVIDIA AI Workbench chính là một chuyên gia phân tích cao cấp với tư duy vòng lặp.
CleanShot 2026-01-08 at 11.54.43@2x.jpg
Người thủ thư chỉ có thể trích xuất chính xác những gì đã được viết trong sách (dữ liệu nạp vào), đảm bảo tính trung thực tuyệt đối nhưng thiếu sự linh hoạt. Ngược lại, chuyên gia phân tích Agentic có khả năng dừng lại để suy ngẫm, tự đặt câu hỏi phản biện, tìm kiếm thêm thông tin bổ sung từ bên ngoài để làm rõ vấn đề và thậm chí tự tạo ra công cụ (viết code) để xử lý dữ liệu thô thành các biểu đồ trực quan. Chính khả năng "tự nhận thức" và tự sửa lỗi này đã nâng tầm giá trị của Agentic RAG, biến nó thành công cụ đắc lực cho các quyết định chiến lược.

Ứng dụng vào thực tế ra sao?


Khi áp dụng vào thực tế doanh nghiệp, mình ví dụ như ở Tinh tế, hai hệ thống này mang lại những giá trị bổ trợ hoàn hảo cho nhau. Một mặt thì nhóm mod có thể sử dụng Ollama như ở trên mình đã chia sẻ, mặt khác, khi bước sang giai đoạn lên ý tưởng và nghiên cứu xu hướng, Agentic RAG sẽ là lựa chọn phù hợp hơn.

CleanShot 2026-01-08 at 11.55.56@2x.jpg
Ví dụ, một mod có thể giao cho Agent nhiệm vụ nghiên cứu phản ứng của cộng đồng mạng về một sự cố kỹ thuật vừa mới nổ ra, chẳng hạn như lỗi quá nhiệt trên một dòng chip mới. Agent sẽ tự động sử dụng công cụ tìm kiếm để quét qua các diễn đàn công nghệ, mạng xã hội để tổng hợp các trường hợp báo lỗi, sau đó đối chiếu với tài liệu kỹ thuật nội bộ của hãng để phân tích nguyên nhân tiềm năng.

Hơn thế nữa, khả năng chạy code Python của Agentic RAG cho phép nó tự động hóa việc vẽ các biểu đồ so sánh hiệu năng từ các bảng số liệu thô (benchmark CSV), tạo ra các hình ảnh trực quan chất lượng cao để chèn trực tiếp vào bài viết. Quy trình này giúp tiết kiệm hàng giờ đồng hồ thao tác thủ công, cho phép đội ngũ nội dung tập trung vào việc kể chuyện và phân tích sâu sắc hơn.
CleanShot 2026-01-08 at 11.55.44@2x.jpg
Không chỉ giới hạn ở mảng nội dung, sức mạnh của siêu máy tính ASUS Ascent GX10 còn mở ra những khả năng ứng dụng mới cho các phòng ban khác trong doanh nghiệp vừa và nhỏ. Đối với đội ngũ kinh doanh và bán hàng (Sales), Agentic RAG có thể biến thành một trợ lý tình báo thị trường sắc bén. Thay vì tốn thời gian google thủ công giá bán của đối thủ, nhân viên kinh doanh có thể yêu cầu Agent thực hiện một khảo sát nhanh về giá cả của các sản phẩm cạnh tranh trên thị trường hiện tại, sau đó đối chiếu với chính sách chiết khấu nội bộ được lưu trữ trong cơ sở dữ liệu vector để đề xuất một mức giá chào hàng tối ưu nhất cho khách hàng B2B.

Khả năng tổng hợp thông tin đa chiều từ cả nguồn public (giá thị trường) và nguồn private (chính sách công ty) giúp đội ngũ sales đưa ra các quyết định đàm phán dựa trên dữ liệu thực tế (Data-driven) chứ không chỉ dựa vào cảm tính.
CleanShot 2026-01-08 at 11.55.27@2x.jpg
Agentic RAG cũng có thể giúp cho đội ngũ dev có thể yêu cầu AI tự động tìm kiếm các lỗ hổng bảo mật mới được công bố trên các cơ sở dữ liệu an ninh mạng uy tín và quét qua mã nguồn hiện tại để cảnh báo sớm các rủi ro tiềm ẩn.

Tạm kết

CleanShot 2026-01-08 at 11.53.23@2x.jpg

Nhìn rộng ra, việc đầu tư vào một thiết bị như ASUS Ascent GX10 và triển khai song song hai hệ thống RAG này không chỉ là một quyết định nâng cấp phần cứng đơn thuần, mà là một bước chuyển mình chiến lược về cách thức vận hành doanh nghiệp. Nó đánh dấu sự chuyển dịch từ việc "sử dụng AI" như một dịch vụ thuê ngoài sang việc "sở hữu AI" như một tài sản cố định.

Các doanh nghiệp bây giờ sẽ ít bị phụ thuộc vào hạn ngạch sử dụng, tốc độ đường truyền internet hay chính sách bảo mật của các ông lớn công nghệ. Mọi dữ liệu, mọi quy trình xử lý, mọi tri thức được sinh ra từ AI đều nằm trọn vẹn trong khuôn viên văn phòng, được bảo vệ bởi lớp vỏ vật lý của máy chủ và các giao thức mạng nội bộ.

Sản phẩm được phân phối bởi Nhất Tiến Chung - Nhà cung cấp giải pháp hạ tầng CNTT, anh em quan tâm sản phẩm có thể tham khảo tại đây.
8 bình luận

Xu hướng

Không biết các Mod có biết Python + Gemini API còn làm tốt hơn con AI local này hàng trăm hàng nghìn lần không =))
------------------------------------------------------------
"Ví dụ, một mod có thể giao cho Agent nhiệm vụ nghiên cứu phản ứng của cộng đồng mạng về một sự cố kỹ thuật vừa mới nổ ra, chẳng hạn như lỗi quá nhiệt trên một dòng chip mới. Agent sẽ tự động sử dụng công cụ tìm kiếm để quét qua các diễn đàn công nghệ, mạng xã hội để tổng hợp các trường hợp báo lỗi, sau đó đối chiếu với tài liệu kỹ thuật nội bộ của hãng để phân tích nguyên nhân tiềm năng.

Hơn thế nữa, khả năng chạy code Python của Agentic RAG cho phép nó tự động hóa việc vẽ các biểu đồ so sánh hiệu năng từ các bảng số liệu thô (benchmark CSV), tạo ra các hình ảnh trực quan chất lượng cao để chèn trực tiếp vào bài viết. Quy trình này giúp tiết kiệm hàng giờ đồng hồ thao tác thủ công, cho phép đội ngũ nội dung tập trung vào việc kể chuyện và phân tích sâu sắc hơn."
---------------------------------------------
Các mod có vẻ rất thích "tự làm chủ" AI để theo kịp thời đại nhưng thực sự toàn là "vọc AI" sai cách.
Mình theo dõi các topic thế này từ đầu tới giờ, toàn thấy các mod tận dụng phần cứng theo kiểu "cố moi móc"nó chứ không thực sự hiểu nên dùng nó làm gì.
Có câu thành ngữ rất hợp: VẼ RẮN THÊM CHÂN.

----
Mình không tài giỏi, nhưng mình xin góp ý với các mod nên dùng những con máy trạm AI cá nhân này (dù là con GX10 hay những combo dưới 10 tỷ) cho mục đích sau:
1/ Chạy local các tác vụ với LLM để tiết kiệm chi phí (chạy qua API chi phí hàng năm trời với các tác vụ liên tục rất tốn kém). Những tác vụ không cần siêu thông minh (cấp độ ChatGPT hay Gemini, Grok) mà cần sự linh hoạt, đủ để thông minh hơn các cơ chế thuật toán cứng nhắc như các thư viện Python, nhưng không yêu cầu đòi hỏi phải thật thông minh giống các con AI lớn.
2/ Học tập về AI, nghiên cứu máy học,học sâu, tự train model cho các Project chuyên biệt, không cần sức mạnh quá lớn nhưng yêu cầu đặc thù cao. Mục tiêu cuối cùng là hiểu sâu về bản chất AI, có thể tự tạo ra AI từ con số 0, và chỉ cần có phần cứng mạnh hơn và đủ thời gian có thể tạo ra các con AI cấp độ ChatGPT hay Grok (tất nhiên việc này là không thể vì chi phí không thể chi trả). Điều này giúp các bạn trở thành nhân sự AI cấp cao nhất, đầu quân cho các công ty cần nhân tài AI, lương trăm nghìn đô, triệu đô.

----------------
Nên tránh dùng các con máy này vào các việc mà các con như Gemini hay Grok, ChatGPT vốn đã rất mạnh. Điều đó vừa tốn thời gian vừa kém hiệu quả. Nếu Gemini nó là một con AI mạnh cấp độ siêu cường quốc tế, thì con máy của các bạn đang là con AI mạnh cấp độ cá nhân. Không chỉ mạnh hơn về sức mạnh thuần túy, nó còn mạnh hơn rất nhiều về các giao thức và thuật toán (không chỉ mạnh hơn mà còn có nhiều tay chân hơn, thông minh hơn), không thể so sánh và không nên thay thế nếu không giúp tiết kiệm chi phí và thời gian.
@Dr.Son Thế thì bạn mới là không biết, khi mà làm với số lượng lớn, chỉ còn tốn tiền điện, chứ chạy như bạn thì đốt tý là hết mấy con spark liền
@duythanh90 Bạn đọc không kỹ comment của mình rồi.
"1/ Chạy local các tác vụ với LLM để tiết kiệm chi phí (chạy qua API chi phí hàng năm trời với các tác vụ liên tục rất tốn kém). Những tác vụ không cần siêu thông minh (cấp độ ChatGPT hay Gemini, Grok) mà cần sự linh hoạt, đủ để thông minh hơn các cơ chế thuật toán cứng nhắc như các thư viện Python, nhưng không yêu cầu đòi hỏi phải thật thông minh giống các con AI lớn."
@Dr.Son ngàn lần thì không tới, mấy con trả phí mình đánh giá 10 thì hàng free cũng được 7 - 8. Bạn có thể thử Qwen3, mình đang dùng làm RAG cho cty mình, anh em đều phản hồi rất tốt. Qwen3-Next 80B mới thì mình chưa thử nhưng thấy quảng cáo tốt hơn cả bản 30B mình đang dùng. Con GX10 này mình đánh giá phù hợp với học tập nghiên cứu, chạy scale nhỏ (tầm dưới 10 người dùng cùng lúc tùy token rate + model). Còn đương nhiên các tác vụ cần nghiên cứu sâu như viết báo học thuật, nghiên cứu thì không được. Hàng trả phí ngoài chất lượng câu trả lời tốt hơn còn có lợi thế về context length và tốc độ tính toán. Mình đã từng thử gemma3 để tóm tắt 1 đoạn email dài khoảng 80k token bằng con amd ryzen max 395 + 128GB ram và mất 45 phút. Chạy được nhưng mất 45 phút mới có kết quả thì ai dùng, chưa kể load context length dài tốn RAM/VRAM càng nhiều (ví dụ 4k thì qwen 3 mất 18GB, còn load context 50k thì mất 33Gb) 😆) Con GX10 tự train model thì vài model dưới 10B thì có lẽ ok, còn trên mức ấy thì mình đoán cũng không hợp do như ví dụ trên của mình, chạy được nhưng chạy trong bao lâu.
@devil214119 Thế mới nói là phù hợp dùng cho các tác vụ không cần quá nặng. Trước mình thích em này với Ryzen 395+ để chạy local LLM tích hợp Python, nhưng giờ không cần nữa, vì đã có dịch vụ online mạnh hơn nhiều lần, ổn định hơn, rẻ hơn để tự động hóa công việc.
Cứ gọi là Agent cho hợp thời nhưng khó hiểu, mình cứ gọi là quy trình tự động hóa có sử dụng AI thì dễ hiểu hơn nhiều =))
@Dr.Son bổ sung thêm 1 điểm như con qwen3 30B mình hay dùng thì để chat thì ok, còn để chạy agent thì không ổn. Khi mà nó fail khi gọi tool khá nhiều (cái này bạn nào tự code agent sẽ biết thuật ngữ). Với mình test thì tầm 25%. Còn lợi thế của việc chạy local là không bị leak dữ liệu. Như công ty mình thì là vậy, dữ liệu có nhiều thông tin liên quan đến khách hàng nên không thể đẩy qua dịch vụ ngoài được. Như cái hệ thống RAG mình làm thì cần khoảng 48GB VRAM là chạy ngon choét rồi. Trả lời mất tầm 10s/1 câu. Dùng nguyên combo của thằng qwen bao gồm cả embed, llm, rerank. Hàng free nhưng do Q/A dựa trên dữ liệu có sẵn nên không cần suy luận quá nhiều, kết quả vẫn ngon ơ
cũng hay mà bỏ ra hơn 110tr hơi phí
@jeetkunedo Thực ra phí nó rất rẻ nếu so với các con máy chạy AI khác. Nhưng mà nếu không biết dùng thì phí thật.

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2026 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: 351/56 Lê Văn Sỹ, P. Nhiêu Lộc, Tp HCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép cung cấp dịch vụ MXH số 134/GP-BVHTTDL, Ký ngày: 30/09/2025