Giới thiệu một số công cụ chạy LLM local đa nền tảng

nhatminhngo
7/8/2024 1:55Phản hồi: 16
Giới thiệu một số công cụ chạy LLM local đa nền tảng
Bữa giờ tiện hay đọc nội dung về A.I, mình có tìm hiểu một số công cụ chạy các mô hình ngôn ngữ lớn (LLM) nên muốn viết một bài ngắn chia sẻ một số ứng dụng đa nền tảng để vận hành các mô hình này.

GPT4All

GPT4All là một công cụ mã nguồn mở cho phép bạn chạy các mô hình LLM một cách dễ dàng và đơn giản. Bạn chỉ cần lên website tải về phiên bản phù hợp, cài đặt là đã bắt đầu có thể sử dụng thông qua việc lựa chọn các mô hình được hỗ trợ trên Hugging Face. Cá nhân mình thấy giao diện của GPT4All khá thân thiện, dễ dàng sử dụng liền mà không gặp bất kì khó khăn nào. Ngoài ra, nó cũng hỗ trợ sẵn các thiết bị như Apple Silicon, AMD và NVIDIA GPU.


Tải về GPT4All cho Mac, Windows, Ubuntu tại đây

[​IMG]
Giao diện GPT4All đơn giản, dễ sử dụng


GPT4All sử dụng kiến trúc Transformer với khả năng nhận định được đâu là từ quan trọng trong nội dung nhập vào cũng như khả năng xác định vị trí và mã hoá. Ngoài ra, nó được đánh giá khá cao về khả năng xử lý ngôn ngữ tự nhiên với khả năng tạo sinh các nội dung thân thiện nhất có trong quá trình bạn tương tác với nó.

Một điểm mạnh của GPT4All là khả năng tạo huấn luyện dữ liệu liên quan đến các ngành nghề đặc thù như luật, y tế, giáo dục để tạo ra một mô hình ngôn ngữ phù hợp, phục vụ cho một số tình huống sau đây
  • Đưa ra những phân tích về báo cáo tài chính, kết quả kinh doanh
  • Tóm tắt bệnh án và phân tích các kết quả quét X quang hay đưa ra những gợi ý về triệu chứng bệnh
  • Chăm sóc khách hàng dựa trên dữ liệu về chat log, về tài liệu hướng dẫn sử dụng của công ty.
Tuy nhiên, việc tạo ra các mô hình tuỳ chỉnh này đòi hỏi một lượng dữ liệu huấn luyện lớn cũng như cấu hình máy mạnh cũng

Một tính năng thú vị mà mình thấy GPT4All hỗ trợ là bạn có thể cho phép ứng dụng truy cập vào các file quan trọng trên máy để nó tạo ra các câu trả lời sử dụng Retrieval-Augmented Generation (RAG), nôm na nó là cách mà các mô hình tạo sinh kết hợp với các dữ liệu từ kho tri thức bên ngoài như tài liệu, email, ghi chú, v.v. để đưa ra các câu trả lời phù hợp. GPT4All còn hỗ trợ bạn tương tác với nội dung được lưu trữ trên Google Drive, OneDrive của cá nhân bạn.

LM Studio


Công cụ thứ hai phổ biến là LM Studio. Cũng tương tự GPT4All, nó cho phép bạn chạy các mô hình ngôn ngữ lớn khác nhau. Bạn chỉ cần lên website LM Studio, tải về, cài đặt và tìm kiếm các mô hình phù hợp. Tuy nhiên, một trong những thế mạnh lớn nhất của LM Studio là giao diện người dùng cực kì thân thiện, đơn giản. Ngoài ra, bạn có thể dễ dàng tìm kiếm các mô hình được hỗ trợ trên Hugging Face và tải về.

Tải về LM Studio cho Mac, Windows hay Linux tại đây

giao-dien-than-thien-lm-studio.png
LM Studio có giao diện thật sự thân thiện.

Quảng cáo


LM Studio có một điểm mạnh là tuỳ theo cấu hình máy bạn, nó sẽ đưa ra gợi ý về các mô hình phù hợp để tải về thông qua các indicator như: Full GPU Offload Possible - Partial GPU Offload Possible - Likely Too Large for this Machine. Điều này cho phép người dùng hiểu được giới hạn của phần cứng để có được lựa chọn phù hợp. Ngoài ra, trong suốt quá trình sử dụng, bạn có thể dễ dàng theo dõi thông tin sử dụng CPU - GPU và RAM để có những tinh chỉnh cần thiết.

image.png

Một tính năng khác mà LM Studio hỗ trợ là cho phép người dùng sử dụng nó như một HTTP server cục bộ và thông qua các API của OpenAI, thực hiện các tác vụ như ra câu hỏi - chat - trao đổi. Thêm vào đó, LM Studio cũng đã bổ sung giao diện CLI (Command line interface) khiến cho việc quản lý server cục bộ, tải và giảm tải các mô hình khác nhau trở nên dễ hơn thông qua dòng lệnh.

LM Studio có thể được ứng dụng vào việc tạo nên các AI Agent khi nó có thể tích hợp với các nền tảng như AutoGen Studio. Một ứng dụng khác mà mình hứng thú là việc sử dụng LM Studio để tương tác với dữ liệu cá nhân của bạn. Đây là hai nội dung mà mình đang tìm hiểu và sẽ chia sẻ sau.

Ollama

Ollama cũng là một công cụ khá nhẹ để bạn có thể bắt đầu thiết lập và chạy các mô hình LLM trên may tính cá nhân. Quá trình cài đặt có đôi chút khác biệt so với GTP4All và LM Studio khi tải về bộ cài từ website xong, mình được hướng đẫn chạy lệnh terminal để bắt đầu với mô hình Llama 3.1. Sau khi chạy lệnh xong thì mình terminal sẽ tải về mô hình này để thiết lập cho bạn.

Tải về Ollama cho Mac, Window (preview) và Linux tại đây

Quảng cáo


bat-dau-voi-llama.png
Một bước trong quá trình cài đặt Ollama với model llama 3.1

Ollama cũng đi kèm với các nhiều mô hình khác nhau, bạn có thể tìm hiểu trên blog page của ứng dụng. Nó phù hợp với các mục đích như để thử nghiệm với các mô hình ngôn ngữ khác nhau, nghiên cứu và phân tích các thông tin đòi hỏi độ chính xác cao như luật - tài liệu y tế.

Mình chưa vọc thử nhiều với Ollama và các mô hình mà ứng dụng hỗ trợ, nhưng cảm nhận đầu tiên là quá trình cài đặt và giao diện không quá thân thiện. Đây là kết quả mình thử nhanh 1 yêu cầu sau khi tải về mô hình LLama 3.1.

giao-dien-trao-doi-voi-ollama.png
Giao diện dòng lệnh với Ollama

Ollama có thể được ứng dụng trong các tác vụ xử lý ngôn ngữ tự nhiên như tạo sinh các nội dung theo yêu cầu, tổng hợp, tóm tắt thông tin; phát triển các chatbot thực hiện các tác vụ như hỗ trợ người dùng, trợ lý ảo, v.v. Một ứng dụng khác khá phổ biến của Ollama là tạo ra các AI agent hoặc các ứng dụng RAG.

Jan Open Source

Jan là một ứng dụng khác tương thích với các nền tảng khác nhau như Windows, Mac và Linux. Việc cài đặt cũng khá đơn giản khi mình chỉ cần tải về từ website của ứng dụng là có thể chạy được. Theo như đội ngũ phát triển thì Jan được thiết kế để tối ưu hiệu năng dựa trên bất kì nền tảng phần cứng nào. Ngoài việc có thể sử dụng ở local, Jan có thể dễ dàng tích hợp với các API từ OpenAI, Azure OpenAI, Groq, Mistral, v.v.


Tải về Jan cho Mac, Windows, Linux tại đây

giao-dien-Jan.png
Giao diện nhẹ, thân thiện của Jan

Jan có giao diện người dùng đơn giản, bạn co thể bắt đầu bằng việc lựa chọn mô hình LLM và cấu hình các thông số như Max Token (số token tối đa mà mô hình tạo ra cho 1 lần trả lời) hay Temperature (độ ngẫu nhiên, dễ đoán của câu trả lời) hoặc khám phá các Model được hỗ trợ thông quan tính năng Explore the Hub. Ngoài ra bạn cũng có thể import thêm những mô hình khác từ Hugging Face.
tinh-nang-explore-the-hub.png
Explore the Hub, nơi bạn có thể thử các mô hình khác nhau được Jan hỗ trợ

Jan.ai được hỗ trợ RAG thông qua tính năng Retrieval. Tuy nhiên, bạn vẫn có thể xây dựng một ứng dụng RAG của cá nhân thông qua công cụ này. Ngoài ra, Jan.ai có thể được ứng dụng như một trợ lý cá nhân trong việc thực hiện các tác vụ xử lý ngôn ngữ, tạo nội dung hay phân tích dữ liệu. Và với khả năng tích hợp với các API khác nhau, Jan.ai là một công cụ hỗ trợ cho các lập trình viên trong việc xây dựng, phát triển và thử nghiệm với các mô hình AI khác nhau.

Khác

Một công cụ khác mà mình thấy được nhắc đến khá nhiều là ChatRTX nhưng ứng dụng này hoạt động với phần cứng của NVIDA nên mình không đi vào thử tìm hiểu các tính năng, điểm mạnh yếu của nó. Anh em nào có kinh nghiệm có thể chia sẻ thêm về công cụ này.


Kết luận

Bên cạnh những công cụ này thì vẫn còn rất nhiều công cụ khác nhưng tuỳ theo mục đích sử dụng, chi phí, hiệu năng, nền tảng hỗ trợ mà mỗi người có thể thử nghiệm và lựa chọn một công cụ phù hợp. Tuy nhiên, tuy mang đặc thù đa nền tảng, hầu hết những công cụ này phần nào chỉ hoạt động tốt trên phần cứng của NVIDIA. Ứng dụng tốt nhất có thể thử nghiệm là RAG nhưng thời gian để tokenizer cũng khá lâu. Cá nhân mình sẽ tiếp tục thử một vài trò hay ho với những công cụ này và hi vọng sớm có bài mới chia sẻ với anh em.
16 bình luận
Chia sẻ

Xu hướng

ko có card rời cpu athlon 3000g có xài đc món này ko các bác😔
Hôm có test thử LM Studio mấy model nhẹ nhẹ trên M1 Pro 16GB Ram mà thấy tốc độ phun kết quả chậm quá 😁
@Dong999pro Nếu ko có nhu cầu học tập, nghiên cứu gì thì cứ mấy con AI có sẵn như ChatGPT, Claude... mà xài cho khoẻ.
nickez
ĐẠI BÀNG
một tháng
@Dong999pro bạn xài mấy model 7B là ok đó, mình cũng đang dùng bảng Llama 3.1 7B. Tốc độ ko thể so với OpenAI hoặc Claude nhưng chạy local khá tiện khi không có mạng.
Không có phần cứng, tôi cứ GPT với Gemini mà phệt ;))
Mấy cái này chạy local chậm như gì nếu máy ko có card manh, xài chơi vui thì dc chứ làm chuyên thì cần đầu tư kha khá
cứ LM Studio mà dùng
Đang xài ollama. Con này phản hồi tốt trên mac và Windows, các extension trên các IDE thông dụng như XCode, IntelliJ và VS Code cũng bắt đầu hỗ trợ chạy local LLM qua ollama, Zed editor cũng built-in support cho ollama. Giờ ollama nó còn hỗ trợ API tương thích với ChatGPT4 và Tool calling giúp các phần mềm khác tận dụng tối đa cái runtime này
@bango123 Olama có tính năng index được code base local của mình vào vector db của nó không bạn? Rồi khi mình hỏi thì nó sẽ trả lời dựa trên codebase đã được embedding đó
@jerryno6 Mình thấy LMStudio có API để embbeding đó bạn. MÌnh ấp ủ ý tưởng "dạy" cho LLM code của mình rồi yêu cầu nó gen cơ bản các chức năng mới dựa vào code base để tiết kiệm thời gian mà chưa biết cách làm.
@TheShinichi Đang nghiên cứu nó đây, có vẻ thằng gpt4all làm được, nhưng thấy nó embeded lâu VL đợi cả 10’ mới được 1 file. Trong khi codebase cả ngàn file.
@jerryno6 Embed dần dần cũng xong thôi. Lưu vào db vector. Nhưng sau đó như nào thì tui chưa biết cách làm. Ví dụ viết Controller hay View hay Model phải theo code base đã có. Phải sử dụng chính xác các hàm đã có sẵn này nọ các kiểu cũng phức tạp phết. Nếu bạn có keyword hoặc bài viết nào về món này chia sẻ tui với heng. Cám ơn bạn !
Nhờ đọc bài mới biết LMS hỗ trợ CLI. Nếu có tính năng này thì ăn đứt Ollama. Trước giờ mình xài Olla nhiều vì chỉ cần Restful API chứ ko cần GUI. Olla lại ít models.

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019