Mình nhớ lâu lâu trước, có đọc một bài trên tinhte giải thích cách hoạt động của Camera AI của HN. Mình nghĩ chủ đề đó khá hay, nên viết thêm bài này, cho vui.
Về mặt tổng quan, cách này hoàn toàn đúng. Tuy nhiên, khi triển khai trên thực địa, mình e rằng, về mặt kỹ thuật, cách này không khả thi, thậm chí là không thể thực hiện được. Nguyên nhân mình nêu ra dưới đây.
Mở bài
Đầu tiên là nhắc lại cách Camera AI hoạt động, theo bài viết trước có nói. Đó là, khi camera thu nhận được hình ảnh, dữ liệu sẽ được chuyển về một trung tâm tính toán. Tại trung tâm này, hệ thống sẽ phân tích và tìm ra lỗi vi phạm.Về mặt tổng quan, cách này hoàn toàn đúng. Tuy nhiên, khi triển khai trên thực địa, mình e rằng, về mặt kỹ thuật, cách này không khả thi, thậm chí là không thể thực hiện được. Nguyên nhân mình nêu ra dưới đây.
Giả định sai
Cách tiếp cận này, dựa trên 2 giả định sai. Đó là.Thứ nhất, giả định là đường truyền network (mạng) là miễn phí. Sai, đường truyền không hề miễn phí. Bằng chứng là Netflix đã từng vướng vào cuộc chiến pháp lý căng thẳng với nhà mạng SK Broadband tại Hàn Quốc, với số tiền yêu cầu bồi thường lên tới hàng chục triệu đô la (hơn 27 tỷ won chỉ riêng năm 2020) vì gánh nặng băng thông quá lớn. Nhắc lại, chi phí truyền tải dữ liệu video liên tục, realtime, là đắt.
Thứ hai, là giả định mọi thông tin nên được xử lý tập trung ở trung tâm tính toán, bởi vì cách suy nghĩ thông thường, batch processing, xử lý theo quy mô lớn, thì sẽ nhanh hơn và rẻ hơn. Giả định này không hẳn là sai nhưng không hợp lý lắm. Tạm thời gác lại việc phân tích đúng sai của giả định đó ở đây, ta sẽ đi vào thực tế cách thành phố Hà Nội triển khai bài toán này.
Vậy để tiếp cận vấn đề này với tư duy engineering, thì sẽ làm thế nào?
Đầu tiên, họ không live-stream toàn bộ những gì camera thu được về máy chủ trung tâm.
Thứ hai, nếu không xử lý tính toán tập trung vào trung tâm dữ liệu, thì phải làm cách nào? Đây là lúc nghĩ về mô hình Edge AI (Điện toán biên).
Cụ thể là, khi camera ghi được hình ảnh lỗi vi phạm, nó sẽ xử lý ngay tại đó luôn. Nghĩa là, Camera AI thực tế bao gồm một hệ máy tính, bao gồm camera để nhận input, CPU và GPU để xử lý input đó, lấy ra hành vi vi phạm cùng bằng chứng, bằng chứng chỉ là một hoặc vài frame, hoặc một đoạn video ngắn, 12 - 24 FPS, sau cùng là card mạng để gửi kết quả về máy chủ.
So với cách truyền thống, cách này đạt được những ưu điểm sau:
- Băng thông cần thiết ít hơn.
- Data Center nhẹ gánh hơn, cả về năng lực xử lý, lẫn lượng dữ liệu cần lưu trữ.
Tính nhanh một chút kiểu back-of-the-envelope cho dễ tưởng tượng.
Giả sử cả phố Hà thành có khoảng 4.000 camera, con số khá khiêm tốn.
- Kịch bản 1: Streaming tập trung (Centralized) Nếu mỗi camera stream một luồng video 1080p về trung tâm.
- - Bitrate trung bình (chuẩn H.264/H.265): khoảng 4 Mbps (Megabit/giây).
- - Tổng băng thông mạng cần thiết: 4.000 cam×4 Mbps=16.000 Mbps=16 Gbps.
- - Lưu trữ (Storage): 16 Gbps×86.400 giây/ngày/8 (bit to byte)≈172 Terabyte/ngày. Retention (lưu tạm thời rồi xóa) ít cũng phải 30 ngày, cần 5,1 Petabyte.
- Kịch bản 2: Điện toán biên (Edge AI) Chỉ gửi dữ liệu khi có sự kiện (vi phạm).
- - Giả sử một nút giao thông "nóng" có 500 lỗi vi phạm/ngày.
- - Mỗi gói tin vi phạm gồm: 1 ảnh toàn cảnh + 1 ảnh zoom biển số + metadata (JSON). Tổng dung lượng khoảng 2 MB.
- - Tổng lưu lượng mỗi ngày cho 4.000 camera: 4.000 cam×500 loˆ˜i×2 MB=4.000.000 MB=4 TB/ngày.
Quảng cáo
So sánh thì, 172 TB/ngày (Streaming) và 4 TB/ngày (Edge AI) là chênh nhau 43 lần.
Ngoài ra, với Edge AI, ta không live-stream, nên không cần băng thông duy trì liên tục, nên lại tận dụng thêm được giải pháp rẻ hơn, tiện hơn, là dùng luôn 4G/5G, chứ không cần dựng hẳn Leased Line.
Tính khả thi
Tiếp tới, vì sao ta nói Điện toán biên này khả thi hơn phương án tính toán tập trung?- Cơ hội mua thiết bị ban đầu.
- Chi phí và khả năng bảo trì.
Đầu tiên, nói về cơ hội mua sắm đi. Để tính toán tập trung, thì cần có thiết bị siêu mạnh, cỡ như H100 ấy. Còn Edge Computing thì chỉ cần mấy con Jetson hoặc Rasberry Pi, là đủ rồi. Rõ ràng, việc mua những siêu máy tính của NVIDIA là khó hơn nhiều việc mua Jetson.
Thứ hai, việc bảo trì những thiết bị điện toán camera AI này sẽ dễ dàng hơn rất nhiều. Kỹ sư Việt Nam hoàn toàn có thể tự thay thế, sửa chữa được, vì cấu thành cũng chỉ là CPU, RAM, GPU. Trong khi đó, với những siêu máy tính tập trung, nếu có bất kỳ sự cố phần cứng vật lý nào xảy ra, chắc chỉ có một phương án duy nhất, là điệu các anh engineer $200K một năm của NVIDIA bay đến sửa.
Quảng cáo


