Năm 2026 thì khác hẳn. Mình thấy ngày càng nhiều lập trình viên ML — kể cả những người dùng Linux từ thời kernel 2.6 — đang âm thầm mở MacBook Pro M5 Max lên để chạy Llama 70B, fine-tune mô hình, build trợ lý AI cục bộ. Có người vẫn dùng cả hai. Có người bán workstation NVIDIA. Có người chốt MacBook ngay từ đầu mà chưa bao giờ động đến Linux để làm AI.
Câu hỏi thật sự không phải "chip nào mạnh hơn" — câu hỏi là: chọn hệ điều hành nào cho luồng việc AI cục bộ năm 2026? Linux + CUDA vẫn là chuẩn vàng cho training và inference quy mô lớn. macOS + MLX đang vô địch cho dev cá nhân chạy mô hình lớn cục bộ. Cả hai đều đúng — nhưng đúng cho hoàn cảnh khác nhau. Bài này mình đi vào cụ thể: vì sao Linux từng độc tôn, vì sao macOS giờ đang chiếm thị phần dev, và cuối cùng — với ngân sách thực tế ở Việt Nam, anh em nên đặt cược vào hệ sinh thái nào?
Vì sao Linux + CUDA từng là lựa chọn duy nhất
Linux không thắng vì OS hay hơn macOS hay Windows. Linux thắng vì NVIDIA chọn nó. CUDA — bộ công cụ tính toán song song NVIDIA phát triển từ 2007 — được tối ưu sâu nhất trên Linux kernel. Mọi thư viện AI hiện đại (PyTorch, TensorFlow, JAX) đều có đường tăng tốc CUDA chạy ngon nhất trên Linux. Driver NVIDIA chính thức cho Linux có support đầy đủ, các thư viện tối ưu hoá cấp thấp như TensorRT, FlashAttention, vLLM đều mặc định chạy trên cụm Linux + NVIDIA.
Quan trọng hơn nữa: hệ sinh thái phân tán của NVIDIA — NCCL, DeepSpeed, Ray — gần như độc quyền cho việc mở rộng training ra nhiều máy. Khi bạn muốn train mô hình từ đầu trên 8 con H100, không có lựa chọn khác. Linux + NVIDIA + CUDA là tổ hợp duy nhất hoạt động.
Tới đây, Linux vẫn là vua tuyệt đối cho training quy mô lớn. Đây là điều bài này không phủ nhận. Nhưng năm 2026, có một loại workload đang nổi lên mà Linux + NVIDIA không còn dẫn đầu nữa — và mình sẽ đi vào ngay phần sau.
Cái giá thật của Linux + Blackwell năm 2026 — chuyện ít ai nói thẳng
Đây là chỗ mọi bài review phần cứng né tránh, nhưng cộng đồng lập trình viên trên NVIDIA Developer Forums đang phát hiện ra mỗi ngày một nhiều.
Từ thế hệ Turing trở đi, NVIDIA đã chuyển nhiều tác vụ điều khiển GPU từ driver kernel sang một bộ vi xử lý tích hợp trên chip — gọi là GSP (GPU System Processor — vi xử lý hệ thống của GPU). Lý thuyết: giảm tải cho CPU chủ, giúp driver nhẹ hơn. Thực tế trên Blackwell + Ubuntu 24.04 năm 2026: GSP đang gây ra một loạt cú sập khó tái hiện và khó khắc phục.
Một báo cáo lỗi điển hình trên NVIDIA Developer Forums mô tả máy trạm 2 con RTX 5090 + Threadripper 7970X chạy Ubuntu 24.04.3 LTS bị đóng băng cứng hoàn toàn — mất SSH, mất bàn phím, mất màn hình, phải tắt nguồn vật lý mới khởi động lại được (theo NVIDIA Developer Forums). Khi log còn lưu được, lỗi xuất hiện là dòng kinh điển:
"GPU1 sanity check failed 0xf waiting for RPC response from GSP"
Một báo cáo lỗi khác — cùng kiểu — xác nhận driver NVIDIA phiên bản 595.58.03 (cả bản mã nguồn mở lẫn bản đóng) bị sập khi chạy CUDA tải nặng kéo dài, kèm thông báo "GSP RM heartbeat timed out" và "LibOS heartbeat timed out" (theo NVIDIA Developer Forums). Tệ hơn: cú sập xảy ra cả khi GPU đang nghỉ, không chỉ lúc đang huấn luyện tải nặng.
Cách né lỗi duy nhất được xác nhận lại không phải sửa driver hay nạp firmware mới cho GPU — mà là hạ phiên bản BIOS bo mạch chủ từ AGESA PI 1.3.0.0 xuống 1.2.0.3f (theo NVIDIA Developer Forums). Tức là người dùng Linux phải tự nạp lại BIOS xuống phiên bản cũ hơn để né một lỗi tương thích giữa firmware AMD và GSP của NVIDIA. Mọi cách né mềm — tắt GSP qua biến môi trường NVreg_EnableGpuFirmware=0, tắt PCIe ASPM, ép GPU vào chế độ hiệu năng tối đa — đều thất bại.
Quảng cáo
Với một lập trình viên chạy fine-tune mô hình 30 giờ liên tục hay triển khai tác tử AI xuyên đêm trên Ubuntu, một cú sập ngẫu nhiên không khôi phục được là rủi ro không chấp nhận được. Mỗi lần sập là mất điểm lưu, mất giờ tính tiền điện, mất dữ liệu đầu ra. Đây không phải vấn đề tiểu tiết — đây là lý do nhiều nhóm dev mình biết đã âm thầm chuyển sang macOS dù chưa từng nghĩ tới chuyện đó.
macOS từng không có cửa — cho đến khi Apple gộp RAM và VRAM lại làm một
Trước Apple Silicon, macOS chạy AI là chuyện cười. Mac dùng GPU rời Intel hoặc AMD — không có CUDA, không có hệ sinh thái thư viện. Mọi dev ML đụng Mac đều phải ssh sang server Linux để chạy thật. macOS chỉ làm máy phát triển code, không phải máy chạy mô hình.
Apple Silicon thay đổi toàn bộ cuộc chơi bằng một quyết định kiến trúc: gộp CPU, GPU và bộ nhớ vào chung một SoC (chip hệ thống tích hợp), với CPU và GPU chia chung một không gian địa chỉ bộ nhớ. Apple gọi là Unified Memory Architecture — kiến trúc bộ nhớ hợp nhất. M5 Max 2026 hỗ trợ tới 128GB bộ nhớ hợp nhất với băng thông tối đa 614 GB/s (theo Apple Newsroom). Toàn bộ 128GB này GPU đều dùng trực tiếp, không cần sao chép qua đường PCIe.
Tại sao chuyện này quan trọng cho cuộc đua OS? Vì trên PC truyền thống chạy Linux + NVIDIA, mô hình AI nằm trong VRAM của card đồ họa. RTX 5090 có 32GB VRAM — Llama 3.3 70B ở Q4 (lượng tử hóa 4-bit) chiếm khoảng 38GB. Tức là phần dư 6GB phải nằm bên RAM hệ thống và truy cập ngược qua đường PCIe — tốc độ rớt từ 1.792 GB/s xuống 64 GB/s, chậm hơn 28 lần. Tốc độ sinh token của mô hình 70B trên RTX 5090 sập từ 100+ tok/s xuống còn khoảng 18 tok/s (theo Bizon-tech).
Trên Mac M5 Max 64GB, mô hình 70B nằm trọn trong bộ nhớ — sinh khoảng 18-25 tok/s. Tức là một chiếc MacBook 1.55kg đi ngang với card đồ họa hàng đầu thế giới khi chạy mô hình ngôn ngữ lớn cục bộ. Câu chuyện không phải Mac nhanh hơn — Mac không có VRAM cliff (vách đá VRAM), thứ vẫn còn ám ảnh mọi GPU rời.
Quảng cáo
MLX so với CUDA — đã đuổi đến đâu, còn cách bao xa?
Phần cứng chỉ là một nửa câu chuyện. Phần mềm mới quyết định bạn có làm được việc trên OS đó không.
Vài năm trước, kể chuyện "fine-tune LLM trên MacBook" là chuyện cười. Lý do thực tế: các bộ công cụ chính trên Linux (Unsloth, Axolotl, torchtune) đều dựa vào bitsandbytes — thư viện chỉ chạy được trên CUDA. macOS không có cửa.
2026 thì khác. MLX — bộ công cụ do Apple Machine Learning Research phát triển riêng cho Apple Silicon — đã trưởng thành đáng ngạc nhiên (theo Apple Machine Learning Research). Gói mlx-lm tải mô hình từ Hugging Face Hub bằng 2 dòng Python, và mlx-tune giờ hỗ trợ đủ kỹ thuật fine-tune hiện đại: SFT, DPO, ORPO, GRPO, KTO, SimPO, kèm QLoRA (lượng tử hóa trọng số ngay trong lúc huấn luyện). Một số ví dụ gần đây cho thấy có thể fine-tune Qwen2.5-Coder-3B trên MacBook 16GB RAM xong trong vài phút, đỉnh dùng bộ nhớ chỉ vài GB — tác vụ mà cách đây 1 năm bắt buộc phải có GPU rời chạy Linux.
Quan trọng hơn nữa: cộng đồng đang chờ Unsloth — bộ công cụ fine-tune đình đám nhất trên Linux + CUDA — tích hợp phần lõi MLX vào sản phẩm. Nếu việc này thành hiện thực, một quy trình fine-tune đầu đến cuối mà trước đây chỉ chạy được trên Ubuntu + RTX sẽ chạy được trên macOS + Apple Silicon. Đây mới là lúc macOS thật sự bước chân vào mảng huấn luyện, không chỉ chạy suy luận.
Cần nói thẳng: MLX trên macOS vẫn chưa thay được CUDA trên Linux cho việc huấn luyện mô hình từ đầu (pre-training) hay tinh chỉnh toàn phần 70B+. Hệ sinh thái phân tán (NCCL, DeepSpeed, Ray) của NVIDIA vẫn là tiêu chuẩn duy nhất khi cần mở rộng huấn luyện ra nhiều máy. Nhưng cho phạm vi cá nhân — fine-tune cho lĩnh vực đặc thù, LoRA adapter, chạy suy luận và phục vụ như máy chủ — macOS đã đủ trưởng thành để bỏ Linux không tiếc.
Trải nghiệm cài đặt: "zero config" trên macOS vs "weekend project" trên Linux
Có một thứ khó định lượng nhưng người nào từng cài cả hai đều cảm được. Trên macOS, cài MLX và chạy mô hình đầu tiên là 2 câu lệnh: pip install mlx-lm, rồi mlx_lm.generate. Không cài driver, không cần biết phiên bản CUDA, không lo xung đột Python environment với hệ thống.Trên Ubuntu, để chạy được PyTorch + CUDA + đúng driver NVIDIA, mình từng mất từ nửa ngày tới cả cuối tuần — chỉ để rồi gặp lỗi mismatch giữa CUDA toolkit và cuDNN ở lần update kernel kế tiếp. Linux + NVIDIA hoạt động cực mạnh khi đã cài xong và ổn định. Vấn đề là chặng đường tới đó.
AMD ROCm trên Linux — phương án thứ ba và vì sao chưa thay được CUDA
Nhiều người hỏi: thay vì khổ với NVIDIA, sao không dùng AMD trên Linux? Câu trả lời ngắn: ngon trên giấy, đau trên thực tế.
AMD Instinct MI300X mang 192GB HBM3e với băng thông cực lớn — vượt xa M5 Max và RTX 5090 về dung lượng cũng như thông lượng đọc bộ nhớ. Trên giấy, đây là cỗ máy LLM mạnh nhất phân khúc datacenter mà người ngoài datacenter có thể chạm tới. Thông số có vẻ làm AMD đứng ở vị thế áp đảo NVIDIA.
Thực tế đáng buồn hơn nhiều. Thundercompute đo benchmark trong các tác vụ LLM cho thấy MI300X chỉ đạt 37-66% hiệu năng H100/H200 của NVIDIA — dù phần cứng có thông số mạnh hơn (theo Thundercompute). CUDA nhìn chung vẫn nhanh hơn ROCm 10-30% với cùng tác vụ (theo Thundercompute). Khoảng cách này không nằm ở phần silicon — nằm ở phần mềm: trình biên dịch, thư viện tối ưu hóa, các nhân tính toán cấp thấp do NVIDIA đầu tư hàng thập kỷ.
Với người dùng cá nhân trên Linux, câu chuyện còn khắc nghiệt hơn. Thundercompute mô tả việc cài PyTorch trên ROCm "phức tạp hơn CUDA tương đương, đòi hỏi đúng phiên bản driver và cấu hình môi trường cẩn thận" (theo Thundercompute). Các thư viện phổ biến như bitsandbytes vẫn thiếu bản dựng cho phần cứng AMD, lập trình viên phải tự chuyển mã thủ công (chuyển mã CUDA sang HIP — bản tương đương của AMD). Cảm giác chung trong cộng đồng: ROCm trên Linux đang tiến nhanh, nhưng vẫn lùi 1-2 năm so với CUDA về độ trưởng thành.
Tức là ngay trong sân nhà Linux, AMD vẫn chưa phải lối thoát khỏi NVIDIA.
Bảng tốc độ thực tế: chạy LLM trên hai hệ sinh thái
Để khách quan, mình tổng hợp số liệu từ Bizon-tech và LocalAIMaster về tốc độ sinh token (tok/s) của các mô hình LLM phổ biến trên hai hệ sinh thái:
Tổng hợp từ Bizon-tech, LocalAIMaster và benchmark cộng đồng MLX/CUDA 2026. Số liệu dao động tuỳ engine chạy (llama.cpp / MLX / vLLM) và mức lượng tử hóa cụ thể.
Bảng này nói rõ một thứ: Linux + NVIDIA thắng tuyệt đối khi mô hình nằm trọn trong VRAM (7B-32B). Mac không có cửa cạnh tranh ở dải này. Nhưng đến 70B — phân khúc mô hình quan trọng nhất 2026 cho coding assistant và tác tử AI — RTX 5090 đơn rơi vách đá VRAM, còn macOS M5 Max chạy mượt trong bộ nhớ hợp nhất. Hai OS chiếm hai vùng workload khác nhau, không trùng nhau.
Riêng mảng sinh ảnh (Stable Diffusion XL, FLUX, ComfyUI), Linux + CUDA vẫn nhanh hơn macOS + Metal 3-5 lần (theo LocalAIMaster). Khoảng chênh này lớn đến mức cảm giác như 2 thế hệ phần cứng cách nhau, không phải 2 OS cùng thời.
Chi phí thật ở Việt Nam — Linux hay macOS đắt hơn?
Mình lấy giá tham khảo từ đại lý chính hãng và một số nơi lắp PC theo yêu cầu trong nước. Cấu hình macOS chạy AI cục bộ ngon nhất hiện tại: MacBook Pro 14 inch M5 Max bản 36GB RAM ở khoảng 88-97 triệu VNĐ. Lên cấu hình đặt riêng 64GB bộ nhớ hợp nhất, giá ước trong khoảng 100-130 triệu — đây là cấu hình ngọt cho 70B Q4 trên macOS.
Bên Linux, để chạy được mô hình 70B mà không rơi vách đá VRAM, một PC dùng RTX 5090 đơn 32GB không đủ. Phải dựng máy trạm cặp 5090 — bo mạch Threadripper TRX50, bộ nguồn 1600W Titanium, tản nhiệt công nghiệp — tổng cộng ước khoảng 350 triệu VNĐ (xấp xỉ 14.000 USD). Một PC Linux với một RTX 5090 + 9950X + 128GB DDR5 ở các đơn vị lắp lớn trong nước có giá tham khảo quanh ngưỡng ~200 triệu VNĐ, nhưng vẫn không đủ cho 70B.
Tức là cùng đích "chạy 70B Q4 không phải đẩy bộ nhớ ra ngoài", macOS rẻ hơn Linux 3-3.5 lần ở phần cứng. Đây là một sự đảo ngược lớn — Mac thường được coi là đắt, nhưng cho riêng workload AI cục bộ năm 2026, Mac đang là phương án kinh tế hơn.
Và đây là chi phí hiển thị. Còn chi phí ẩn nữa:
- Điện: Cặp 5090 trên Linux tải nặng ngốn 1000-1200W. M5 Max trên macOS đỉnh chỉ 60-120W (theo LocalAIMaster). Khoảng cách 10 lần. Một người dùng chạy 8 tiếng mỗi ngày, hoá đơn điện chênh vài triệu một tháng.
- Tản nhiệt: Máy trạm Linux toả nhiệt như máy sưởi nhỏ — phòng phải điều hoà liên tục. MacBook M5 Max im lặng, không cần khí mát đặc biệt.
- Thời gian chết: Mỗi cú sập Xid 79 trên Linux + Blackwell tốn từ vài giờ tới cả ngày để gỡ. Đơn vị tính là chi phí cơ hội của một kỹ sư ML — vài triệu một ngày là chuyện thường.
- Tính di động: MacBook Pro M5 Max 64GB nhét vừa balo, code trên máy bay, ở quán cà phê đều được. Máy trạm Linux cặp 5090 thì không.
Tác tử AI và ngữ cảnh dài — sân nhà macOS đang thắng năm 2026
Có một thứ workload đang thay đổi cách dev chọn OS năm 2026: tác tử AI tự lập kế hoạch. Cursor, Claude Code, OpenClaw — viết code, sửa code, gọi công cụ, đọc tài liệu liên tục. Đặc thù: cửa sổ ngữ cảnh phải khổng lồ. 128K, 200K token là chuẩn mới. Mỗi token trong ngữ cảnh đều cần lưu trong KV Cache (bộ đệm Key-Value của Transformer) — và KV Cache ngốn VRAM không kém phần trọng số mô hình.
Cụ thể: với mô hình 70B, ngữ cảnh dài 100K token có thể chiếm thêm 20-30GB ngoài 38GB trọng số. Tổng cộng ~60-70GB. RTX 5090 đơn trên Linux 32GB không có cửa. Cặp 5090 64GB tổng thì sát mép — vừa đủ trọng số, không còn chỗ cho ngữ cảnh dài.
macOS M5 Max 64GB hợp nhất xử lý ngon trong một khối liền mạch. Khi vượt ngưỡng, macOS có cơ chế hoán đổi ra SSD NVMe — chậm hơn nhưng không sập, không OOM (tràn bộ nhớ). Hiệu năng giảm dần đều thay vì gãy đột ngột — đây là thứ tác tử AI cần để chạy tự động 8-12 tiếng không cần ngồi trông.
Đây là lý do thật sự nhiều dev mình biết đã chuyển từ Linux sang macOS năm 2026 — không phải vì macOS "tốt hơn Linux" theo nghĩa chung. Mà vì workload AI cục bộ của họ đã chuyển sang vùng mà macOS xử lý mượt hơn.
Khi nào chọn Linux, khi nào chọn macOS — quan điểm cá nhân của mình
Sau khi dùng cả hai hệ sinh thái cho các tác vụ khác nhau, mình rút ra mấy nhận định khá rõ ràng — không phải kết luận "Linux thắng" hay "macOS thắng" tuyệt đối.
Chọn Linux + NVIDIA khi...
- Mình huấn luyện mô hình từ đầu (pre-training) hoặc tinh chỉnh toàn phần 70B+ với bộ dữ liệu cực lớn — không có cách khác ngoài Linux + CUDA
- Mình dựng quy trình sinh ảnh/video Stable Diffusion XL, FLUX, ComfyUI — CUDA trên Linux nhanh hơn Metal trên macOS 3-5 lần (theo LocalAIMaster)
- Mình triển khai máy chủ API cục bộ cho nhiều người dùng cùng lúc — vLLM trên Linux + nhiều GPU vẫn là chuẩn vàng
- Mình làm nghiên cứu kiến trúc deep learning mới — hệ sinh thái CUDA (TensorRT, FlashAttention, các nhân tính toán cấp thấp) chưa có đối thủ
- Mình cần mở rộng training ra cụm máy — NCCL, DeepSpeed, Ray là tiêu chuẩn duy nhất hoạt động
Chọn macOS + Apple Silicon khi...
- Mình dựng tác tử AI / RAG / trợ lý code — cần mô hình 70B + ngữ cảnh dài + ổn định 24/7
- Mình ưu tiên thời gian của bản thân hơn hiệu năng tuyệt đối — không muốn ngồi gỡ lỗi driver Linux mỗi tuần hay đối phó với Xid 79
- Mình cần di động — code ở quán cà phê, máy bay, thư viện
- Mình làm fine-tune LoRA/QLoRA quy mô nhỏ-vừa cho lĩnh vực đặc thù
- Mình ngán hoá đơn điện cuối tháng và tiếng quạt máy trạm Linux
- Mình muốn cài đặt "zero config" — pip install rồi chạy, không phải debug driver
Vùng xám — chọn dựa trên ưu tiên
Cho dev cá nhân làm hybrid (cả tác tử AI lẫn sinh ảnh nhẹ), mình thấy macOS M5 Max 64GB là vùng ngọt tốt nhất 2026 — đặc biệt nếu cộng thêm yếu tố di động. Nếu mình ngồi cố định một chỗ, có ngân sách 300 triệu trở lên và không sợ gỡ lỗi Linux, máy trạm Linux cặp 5090 vẫn cho thông lượng cao hơn ở vùng mô hình 32B trở xuống và sinh ảnh nhanh hơn nhiều lần.
Sau cùng, mình không nghĩ macOS đang cố giết Linux trong AI cục bộ. Hai hệ sinh thái đang chia nhau hai mảng workload khác nhau. Linux vẫn thống trị trung tâm dữ liệu, huấn luyện quy mô lớn và sinh ảnh. macOS thống trị mảng chạy suy luận cá nhân, tác tử AI và công việc di động. Cuộc tranh luận "Linux vs macOS chạy AI" không có người thắng tuyệt đối — chỉ có lựa chọn đúng cho từng loại công việc.
Anh em nào đang cân nhắc nâng cấu hình MacBook để chạy AI cục bộ, bên macone.vn có đội tư vấn khá sâu về mảng này — mình từng hỏi ở đó về việc nên chọn 64GB hay 128GB bộ nhớ hợp nhất cho workload LLM, và họ phân tích theo nhu cầu cụ thể thay vì chốt đại một con.
Anh em đang chạy LLM cục bộ với OS nào — Ubuntu, Arch hay macOS? Có ai từng bỏ Linux + NVIDIA vì lỗi Xid 79 chưa, hay vẫn ổn với setup của mình? Mình muốn nghe trải nghiệm thật, đặc biệt từ những ai dùng cả hai hệ và đã chọn được phía cho luồng việc chính của mình.
#linux #macos #applesilicon #applem5max #localllm #cuda #macone #tinhte