Andrej Karpathy, người đứng đầu mảng tự lái của Tesla, đã nói rằng Tesla chỉ cần dùng camera gắn quanh xe là có thể phục vụ cho chức năng tự lái rồi, không cần phải dùng tới các cảm biến LIDAR to lớn, thậm chí các radar tầm gần như xe ô tô hiện này cũng không cần luôn. Họ làm được như vậy là nhờ hệ thống AI cực kì phức tạp cũng như hàng triệu chiếc xe Tesla đang lăn bánh chuyển dữ liệu về để huấn luyện hệ thống AI này.
Một số công ty khác như Waymo (thuộc Alphabet, công ty mẹ của Google) hay Uber trước đây sử dụng các hệ thống LIDAR gắn lên nóc xe. Nó sẽ phát ra các tia laser và ghi nhận tín hiệu phản hồi với tốc độ cao, từ đó vẽ ra bản đồ 3D của không gian xung quanh xe.
Tuy nhiên, LIDAR có nhiều vấn đề ngoài chuyện nó đội chi phí sản xuất lên. Karpathy giải thích: “Bạn phải vẽ được bản đồ này trước với LIDAR, sau đó bạn phải tạo ra một bản đồ độ chi tiết cao, rồi bạn phải chèn các làn đường vào, cũng như chúng kết nối với đèn tín hiệu giao thông ra sao. Khi xe chạy, xe sẽ dùng bản đồ đã được vẽ sẵn để d chuyển”.
Việc này làm ở quy mô nhỏ thì được, nhưng khi xe chạy nhiều, đến những địa điểm mới thì việc vẽ sẵn bản đồ là cực kì khó. “Việc thu thập, xây dựng và duy trì các bản đồ LIDAR này là không thể scale lớn được. Ngoài ra hạ tầng công nghệ để vận hành cũng sẽ phải liên tục cập nhật theo”.
Vì sao Tesla bỏ LIDAR, bỏ luôn radar trên xe
Một số công ty khác như Waymo (thuộc Alphabet, công ty mẹ của Google) hay Uber trước đây sử dụng các hệ thống LIDAR gắn lên nóc xe. Nó sẽ phát ra các tia laser và ghi nhận tín hiệu phản hồi với tốc độ cao, từ đó vẽ ra bản đồ 3D của không gian xung quanh xe.
Tuy nhiên, LIDAR có nhiều vấn đề ngoài chuyện nó đội chi phí sản xuất lên. Karpathy giải thích: “Bạn phải vẽ được bản đồ này trước với LIDAR, sau đó bạn phải tạo ra một bản đồ độ chi tiết cao, rồi bạn phải chèn các làn đường vào, cũng như chúng kết nối với đèn tín hiệu giao thông ra sao. Khi xe chạy, xe sẽ dùng bản đồ đã được vẽ sẵn để d chuyển”.
Việc này làm ở quy mô nhỏ thì được, nhưng khi xe chạy nhiều, đến những địa điểm mới thì việc vẽ sẵn bản đồ là cực kì khó. “Việc thu thập, xây dựng và duy trì các bản đồ LIDAR này là không thể scale lớn được. Ngoài ra hạ tầng công nghệ để vận hành cũng sẽ phải liên tục cập nhật theo”.
Đó là lý do Tesla không dùng LIDAR và bản đồ độ phân giải cao cho hệ thống tự lái của mình. “Mọi thứ diễn ra, ngay cả những thứ mới diễn ra lần đầu tiên, đều được xử lý từ trong xe thông qua các luồng video từ 8 camera đặt quanh xe”, Karpathy nói. Thuật toán sẽ phải đoán được đâu là làn đường, đâu là đèn tín hiệu và chúng đang chuyển màu gì, đâu là chiếc xe cùng tham gia giao thông. Nó phải làm được điều đó mà không cần biết trước về con đường nó đang đi.
Karpathy thừa nhận rằng về mặt kĩ thuật, việc sử dụng thuật toán và các mạng neural network để giúp xe tự lái là khó hơn, phức tạp hơn. “Nhưng một khi bạn làm đúng, nó chỉ đơn giản là một hệ thống hình ảnh và bạn có thể triển khai ở bất kì nơi nào trên thế giới”.
Một khi đã có được một hệ thống nhận diện hình ảnh như vậy, bạn cũng không cần đặt thêm bất kì radar nào nữa lên xe. Trước đây Tesla cũng có dùng radar kết hợp với camera, nhưng gần đây họ đã loại bỏ radar khỏi những chiếc xe mới xuất xưởng. Karpathy nói là hệ thống nhận diện của họ giờ tốt đến nỗi dữ liệu từ radar thật ra sẽ gây nhiễu nên cản trở sự phát triển của thuật toán, thế nên họ quyết định bỏ luôn. Hệ thống AI này giờ tốt hơn “hàng trăm lần” so với radar rồi.
Cách Tesla dạy cho hệ thống AI
Supervised learning là một thuật ngữ dùng trong ngành dữ liệu để nói về một giải pháp mà bạn cần phải dạy trước cho máy biết, rồi nó sẽ học theo. Ví dụ, bạn lấy 1000 tấm ảnh con chó và 1000 tấm ảnh con mèo đưa cho máy học, thì khi bạn đưa một bức ảnh mới hoàn toàn vào, máy sẽ cho bạn biết đó là chó hay mèo. Đây gọi là supervised learning.
Cách Tesla đang thiết kế hệ thống nhận diện hình ảnh của họ là dùng supervised learning, tuy nhiên, nhận diện hình ảnh thông thường chỉ nhận được các vật thể trong ảnh (video thực chất là một loạt ảnh liên tiếp nhau). Thế nên xe tự lái chỉ dùng camera sẽ gặp vấn đề không thể xác định được chiều sâu, khoảng cách giữa các đối tượng như khi dùng bản đồ LIDAR.
Nhưng Tesla không nghĩ thế. “Rõ ràng con người cũng lái được lòng vòng chỉ nhờ đôi mắt, và bộ não của chúng ta có khả năng xử lý và hiểu được khoảng cách cũng như tốc độ của các vật thể xung quanh. Nhưng câu hỏi lớn đó là liệu một bộ não nhân tạo thì có thể làm tương tự hay không. Và tôi nghĩ rằng trong công ty chúng tôi, với những gì chúng tôi đã làm trong vài tháng qua, thì câu trả lời là có.”
Quảng cáo
Mạng neural network mà Tesla làm ra không chỉ phân biệt được vật thể nào là gì, nó còn có thể phân tích được khoảng cách, tốc độ và thậm chí cả gia tốc của vật thể. Việc quan trọng là Tesla sẽ cần dạy cho máy học được cả những yếu tố này.
Để huấn luyện cho con AI của mình, Tesla cần đến bộ dữ liệu bao gồm hàng triệu video, mỗi video được đánh dấu cẩn thận (giống như việc đánh dấu đâu là chó, đâu là mèo, đâu là biển báo, đâu là vạch kẻ đường, đâu là chiếc xe đang tăng tốc, tốc độ bao nhiêu). Những video này phải bao gồm nhiều kiểu đường, loại đường khác nhau từ nhiều quốc gia, nhiều khu vực trong cùng một nước, nhiều điều kiện đường xá. Chưa hết, dữ liệu cho máy học cũng phải bao gồm những tình huống rất hiếm xảy ra, và do đó cũng rất hiếm khi có dữ liệu để thu thập.
“Một khi bạn đã có một bộ dữ liệu lớn, sạch sẽ và đa dạng, bạn có thể huấn luyện một mảng neural lớn, và những gì chúng tôi thất trong thực tế đó là sự thành công”, Karpathy chia sẻ.
Tổng cộng Tesla đã có 1,5 petabyte dữ liệu video, chúng bao gồm hơn 1 triệu đoạn video 10 giây với khoảng 6 tỉ đối tượng đã được đánh dấu.
Nhưng để đánh dấu cho đúng, cho tốt cũng là vấn đề lớn. Một cách thường dùng đó là sử dụng các công ty bên thứ ba, họ sẽ cho người vào đánh dấu dữ liệu theo yêu cầu của bạn. Việc này phải thực hiện hoàn toàn bằng tay, chi phí cao và mất nhiều thời gian.
Quảng cáo
Thay vào đó, Tesla sử dụng một kĩ thuật tự đánh dấu, bao gồm việc sử dụng neural network, dữ liệu từ radar, và sau đó có người vào kiểm tra. Dữ liệu được đánh dấu ở server, nhờ đó neural network có thể so sánh cái nó đoán với dữ liệu thực tế, và điều chỉnh lại các tham số của thuật toán. Việc đánh dấu này được thực hiện trên một hạ tầng rất mạnh không thể đưa vào xe được.
Theo video Karpathy khoe, hệ thống nhận diện hình ảnh của xe Tesla có thể nhận diện đúng và hoạt động ổn định ngay cả trong điều kiện có bụi, có tuyết và có nhiều mảnh vỡ. Karpathy chia sẻ rằng trong quá trình thực hiện, họ tìm ra hơn 200 tình huống cần điều chỉnh thủ công, ví dụ như khi xe chuẩn bị đi vào hầm hoặc ra khỏi hầm, những chiếc xe chạy xung quanh nhưng có gắn thêm đồ trên nóc… Cần 4 tháng để điều chỉnh cho những tình huống đặc biệt đó.
Sau khi đã hoàn chỉnh, Tesla vẫn chưa vội áp dụng ngay lên xe. Họ vẫn triển khai neural network lên xe, nó vẫn chạy dự đoán, nhưng không đưa ra bất kì lệnh nào cho xe cả. Những “lệnh ảo” sẽ được ghi nhận và so sánh neural network cũ, dữ liệu radar và hành vi của người lái để tiếp tục điều chỉnh, khắc phục những điểm hạn chế cũng như bổ sung thêm các tình huống mới. Họ cứ lặp đi lặp lại việc này cho đến khi neural network trở nên cực kì tốt.
Tự quản siêu máy tính và con chip
Karpathy có nói về một siêu máy tính mà Tesla dùng để huấn luyện và tinh chỉnh mô hình deep learning của họ. Đây là một hệ thống bao gồm 80 node, mỗi node có 8 GPU Nvidia A100 với tổng bộ nhớ dành cho video là 80GB, tổng cộng có 5760 GPU với 450TB vRAM được lắp đặt. Siêu máy tính này cũng có 10 petabyte bộ nhớ NVMe với đường mạng 640Tbps để kết nối các node với nhau, phục vụ việc chia tải khi huyến luyện các neural network. Tesla đặt tên cho siêu máy tính này là “Dojo”.
Tesla cũng tự sở hữu và thiết kế các con chip AI dùng trong xe của họ. Những con chip này tối ưu cho tác vụ xử lý hình ảnh.
Nhờ tự chủ về thuật toán, cho đến phần cứng huấn luyện thuật toán và cả con chip xử lý trong xe, Tesla có thể tạo ra những chiếc xe tự lái tốt hơn so với các hãng xe truyền thống. Vị thế của Tesla là độc nhất vì không nhiều hãng có thể thu thập hàng triệu video và dữ liệu từ chính các xe mà họ bán ra. Ngoài ra, Tesla còn có một đội ngũ kĩ sư phần mềm, kĩ sư phần cứng, nhà nghiên cứu để làm được tất cả những thứ trên. Không có một bên thứ ba nào để kiềm chân Tesla lại cả. “Bạn tự quyết định số phần của mình, điều mà tôi cho rằng rất đáng kinh ngạc”.
Nguồn: The Next Web