Tesla giải thích vì sao xe tự lái chỉ cần camera, không cần LIDAR

Andrej Karpathy, người đứng đầu mảng tự lái của Tesla, đã nói rằng Tesla chỉ cần dùng camera gắn quanh xe là có thể phục vụ cho chức năng tự lái rồi, không cần phải dùng tới các cảm biến LIDAR to lớn, thậm chí các radar tầm gần như xe ô tô hiện này cũng không cần luôn. Họ làm được như vậy là nhờ hệ thống AI cực kì phức tạp cũng như hàng triệu chiếc xe Tesla đang lăn bánh chuyển dữ liệu về để huấn luyện hệ thống AI này.

Vì sao Tesla bỏ LIDAR, bỏ luôn radar trên xe

Một số công ty khác như Waymo (thuộc Alphabet, công ty mẹ của Google) hay Uber trước đây sử dụng các hệ thống LIDAR gắn lên nóc xe. Nó sẽ phát ra các tia laser và ghi nhận tín hiệu phản hồi với tốc độ cao, từ đó vẽ ra bản đồ 3D của không gian xung quanh xe.

Tuy nhiên, LIDAR có nhiều vấn đề ngoài chuyện nó đội chi phí sản xuất lên. Karpathy giải thích: “Bạn phải vẽ được bản đồ này trước với LIDAR, sau đó bạn phải tạo ra một bản đồ độ chi tiết cao, rồi bạn phải chèn các làn đường vào, cũng như chúng kết nối với đèn tín hiệu giao thông ra sao. Khi xe chạy, xe sẽ dùng bản đồ đã được vẽ sẵn để d chuyển”.

Việc này làm ở quy mô nhỏ thì được, nhưng khi xe chạy nhiều, đến những địa điểm mới thì việc vẽ sẵn bản đồ là cực kì khó. “Việc thu thập, xây dựng và duy trì các bản đồ LIDAR này là không thể scale lớn được. Ngoài ra hạ tầng công nghệ để vận hành cũng sẽ phải liên tục cập nhật theo”.

Đó là lý do Tesla không dùng LIDAR và bản đồ độ phân giải cao cho hệ thống tự lái của mình. “Mọi thứ diễn ra, ngay cả những thứ mới diễn ra lần đầu tiên, đều được xử lý từ trong xe thông qua các luồng video từ 8 camera đặt quanh xe”, Karpathy nói. Thuật toán sẽ phải đoán được đâu là làn đường, đâu là đèn tín hiệu và chúng đang chuyển màu gì, đâu là chiếc xe cùng tham gia giao thông. Nó phải làm được điều đó mà không cần biết trước về con đường nó đang đi.

Karpathy thừa nhận rằng về mặt kĩ thuật, việc sử dụng thuật toán và các mạng neural network để giúp xe tự lái là khó hơn, phức tạp hơn. “Nhưng một khi bạn làm đúng, nó chỉ đơn giản là một hệ thống hình ảnh và bạn có thể triển khai ở bất kì nơi nào trên thế giới”.

Một khi đã có được một hệ thống nhận diện hình ảnh như vậy, bạn cũng không cần đặt thêm bất kì radar nào nữa lên xe. Trước đây Tesla cũng có dùng radar kết hợp với camera, nhưng gần đây họ đã loại bỏ radar khỏi những chiếc xe mới xuất xưởng. Karpathy nói là hệ thống nhận diện của họ giờ tốt đến nỗi dữ liệu từ radar thật ra sẽ gây nhiễu nên cản trở sự phát triển của thuật toán, thế nên họ quyết định bỏ luôn. Hệ thống AI này giờ tốt hơn “hàng trăm lần” so với radar rồi.

Cách Tesla dạy cho hệ thống AI

Supervised learning là một thuật ngữ dùng trong ngành dữ liệu để nói về một giải pháp mà bạn cần phải dạy trước cho máy biết, rồi nó sẽ học theo. Ví dụ, bạn lấy 1000 tấm ảnh con chó và 1000 tấm ảnh con mèo đưa cho máy học, thì khi bạn đưa một bức ảnh mới hoàn toàn vào, máy sẽ cho bạn biết đó là chó hay mèo. Đây gọi là supervised learning.

Cách Tesla đang thiết kế hệ thống nhận diện hình ảnh của họ là dùng supervised learning, tuy nhiên, nhận diện hình ảnh thông thường chỉ nhận được các vật thể trong ảnh (video thực chất là một loạt ảnh liên tiếp nhau). Thế nên xe tự lái chỉ dùng camera sẽ gặp vấn đề không thể xác định được chiều sâu, khoảng cách giữa các đối tượng như khi dùng bản đồ LIDAR.

Nhưng Tesla không nghĩ thế. “Rõ ràng con người cũng lái được lòng vòng chỉ nhờ đôi mắt, và bộ não của chúng ta có khả năng xử lý và hiểu được khoảng cách cũng như tốc độ của các vật thể xung quanh. Nhưng câu hỏi lớn đó là liệu một bộ não nhân tạo thì có thể làm tương tự hay không. Và tôi nghĩ rằng trong công ty chúng tôi, với những gì chúng tôi đã làm trong vài tháng qua, thì câu trả lời là có.”

Mạng neural network mà Tesla làm ra không chỉ phân biệt được vật thể nào là gì, nó còn có thể phân tích được khoảng cách, tốc độ và thậm chí cả gia tốc của vật thể. Việc quan trọng là Tesla sẽ cần dạy cho máy học được cả những yếu tố này.

Để huấn luyện cho con AI của mình, Tesla cần đến bộ dữ liệu bao gồm hàng triệu video, mỗi video được đánh dấu cẩn thận (giống như việc đánh dấu đâu là chó, đâu là mèo, đâu là biển báo, đâu là vạch kẻ đường, đâu là chiếc xe đang tăng tốc, tốc độ bao nhiêu). Những video này phải bao gồm nhiều kiểu đường, loại đường khác nhau từ nhiều quốc gia, nhiều khu vực trong cùng một nước, nhiều điều kiện đường xá. Chưa hết, dữ liệu cho máy học cũng phải bao gồm những tình huống rất hiếm xảy ra, và do đó cũng rất hiếm khi có dữ liệu để thu thập.

“Một khi bạn đã có một bộ dữ liệu lớn, sạch sẽ và đa dạng, bạn có thể huấn luyện một mảng neural lớn, và những gì chúng tôi thất trong thực tế đó là sự thành công”, Karpathy chia sẻ.

Tổng cộng Tesla đã có 1,5 petabyte dữ liệu video, chúng bao gồm hơn 1 triệu đoạn video 10 giây với khoảng 6 tỉ đối tượng đã được đánh dấu.

[IMG]

Nhưng để đánh dấu cho đúng, cho tốt cũng là vấn đề lớn. Một cách thường dùng đó là sử dụng các công ty bên thứ ba, họ sẽ cho người vào đánh dấu dữ liệu theo yêu cầu của bạn. Việc này phải thực hiện hoàn toàn bằng tay, chi phí cao và mất nhiều thời gian.

Thay vào đó, Tesla sử dụng một kĩ thuật tự đánh dấu, bao gồm việc sử dụng neural network, dữ liệu từ radar, và sau đó có người vào kiểm tra. Dữ liệu được đánh dấu ở server, nhờ đó neural network có thể so sánh cái nó đoán với dữ liệu thực tế, và điều chỉnh lại các tham số của thuật toán. Việc đánh dấu này được thực hiện trên một hạ tầng rất mạnh không thể đưa vào xe được.

Theo video Karpathy khoe, hệ thống nhận diện hình ảnh của xe Tesla có thể nhận diện đúng và hoạt động ổn định ngay cả trong điều kiện có bụi, có tuyết và có nhiều mảnh vỡ. Karpathy chia sẻ rằng trong quá trình thực hiện, họ tìm ra hơn 200 tình huống cần điều chỉnh thủ công, ví dụ như khi xe chuẩn bị đi vào hầm hoặc ra khỏi hầm, những chiếc xe chạy xung quanh nhưng có gắn thêm đồ trên nóc… Cần 4 tháng để điều chỉnh cho những tình huống đặc biệt đó.

Sau khi đã hoàn chỉnh, Tesla vẫn chưa vội áp dụng ngay lên xe. Họ vẫn triển khai neural network lên xe, nó vẫn chạy dự đoán, nhưng không đưa ra bất kì lệnh nào cho xe cả. Những “lệnh ảo” sẽ được ghi nhận và so sánh neural network cũ, dữ liệu radar và hành vi của người lái để tiếp tục điều chỉnh, khắc phục những điểm hạn chế cũng như bổ sung thêm các tình huống mới. Họ cứ lặp đi lặp lại việc này cho đến khi neural network trở nên cực kì tốt.

ceo-tesla-neu-camera-va-cam-bien-radar-dua-ra-quyet-dinh-khac-nhau-xe-se-chon-ben-nao.jpg

ceo-tesla-neu-camera-va-cam-bien-radar-dua-ra-quyet-dinh-khac-nhau-xe-se-chon-ben-nao.jpg

Tự quản siêu máy tính và con chip

Karpathy có nói về một siêu máy tính mà Tesla dùng để huấn luyện và tinh chỉnh mô hình deep learning của họ. Đây là một hệ thống bao gồm 80 node, mỗi node có 8 GPU Nvidia A100 với tổng bộ nhớ dành cho video là 80GB, tổng cộng có 5760 GPU với 450TB vRAM được lắp đặt. Siêu máy tính này cũng có 10 petabyte bộ nhớ NVMe với đường mạng 640Tbps để kết nối các node với nhau, phục vụ việc chia tải khi huyến luyện các neural network. Tesla đặt tên cho siêu máy tính này là “Dojo”.

Tesla cũng tự sở hữu và thiết kế các con chip AI dùng trong xe của họ. Những con chip này tối ưu cho tác vụ xử lý hình ảnh.

Nhờ tự chủ về thuật toán, cho đến phần cứng huấn luyện thuật toán và cả con chip xử lý trong xe, Tesla có thể tạo ra những chiếc xe tự lái tốt hơn so với các hãng xe truyền thống. Vị thế của Tesla là độc nhất vì không nhiều hãng có thể thu thập hàng triệu video và dữ liệu từ chính các xe mà họ bán ra. Ngoài ra, Tesla còn có một đội ngũ kĩ sư phần mềm, kĩ sư phần cứng, nhà nghiên cứu để làm được tất cả những thứ trên. Không có một bên thứ ba nào để kiềm chân Tesla lại cả. “Bạn tự quyết định số phần của mình, điều mà tôi cho rằng rất đáng kinh ngạc”.

Nguồn: The Next Web

Nam Air

GÀ

3 năm

đến cái máy hút bụi còn cần có lidar, cái xe to đùng mà dùng camera thì làm sao phát hiện được người / vật phía sau xe khác, rồi radar là thứ phản hồi cực kỳ nhanh giúp xe giảm tốc độ trong trường hợp phanh gấp, camera làm sao thấy được cái đó. => đây là ý kiến của người ngoài ngành là mình, còn ông Elươn ông ấy giỏi rồi có thể nghĩ khác

anh523110

@ThanhDo Az Sony đã nghiên cứu sx cảm biến có độ nhạy cao trong những chiếc xe tự lái rùi á.

mvo94587

ĐẠI BÀNG

@hieu95bk Mình xác nhận, con Model Y 2021 dùng công nghệ này.

hoanloc

@Nam Air máy hút bụi nó chỉ chạy trong 1 ko gian , nó dùng lida để vẽ trước cái không gian đó lần sau cứ đi lại thôi, còn xe ô tô nó chạy khắp nơi, ko thể vẽ trước rồi mới xử lý mà phải xử lý theo thời gian thực

ThanhDo Az

@anh523110 Mình k lo nó thiếu sáng, chỉ lo nó bị ánh sáng mạnh làm mù thôi.
Dân ảnh ọt hay quay phim sợ đèn laser lắm. Ngày nay nhiều đèn đã an toàn hơn cho các thiết bị camera, xong việc hỏng sensor, chết pixel vẫn k hiếm

viva2022

CAO CẤP

Tesla chính là Apple trong ngành auto.

zer0_7

@vivalavida11 Trong khi đó. AI của Testla khi cho xe chạy ở đường VN, bật tự lái dù đã học tới 1.5 petabyte dữ liệu video từ khắp nơi trên thế giới vẫn kiểu:

Masterbee

@zer0_7 Test ở VN dùng LIDAR với Radar không chạy được tự động nên phải dùng Camera dòng xe mới đấy. Mà không chỉ ở VN...

Wininsider10

@zer0_7 Đấy là Autopilot base, thậm chí k phải bản FSD $10000 hay là FSD beta

hoangsytai

Ko hiểu lắm về việc camera làm sao phát hiện người hoặc phương tiện bị khuất tầm nhìn để xử lý nhanh được như LIDAR

@Lê Sơn math Thì nó cũng pr thôi. Làm tiền cả. Lidar là công nghệ quá tốn kém,

minhtuanq6

@hoangsytai Vậy Lidar quét được cả phương tiện bị khuất sau phương tiện khác ah??? còn nếu không quét được thì cơ bản cũng như camera thôi ^-^
Ah mà camera trên xe là 360 nhé, không phải gắn mỗi 1 cái cam rồi lại lo bị góc khuất.

@minhtuanq6 Lý thuyết và trong phòng thí nghiệm là có đấy. Thực tế thì ko rõ. Tại hạ là dân ngoại đạo nên hơi ngu vấn đề này

Duy Luân

@minhtuanq6 Lidar thì không quét xuyên được 😁 khả năng đâm xuyên không cao nha bạn

nhucongpro

miễn sao đi ngoai đường k bị gi la được

CàChớn-Forever

TÍCH CỰC

dùng AI nhanh hơn nhìn và làm thôi

andymarshall

với mạng data đồ sộ và việc xử lý cần phải tức thời thì mình nghĩ khoảng 2 năm nữa khi mạng neural network đã hoàn thiện + 5G được đại trà hoá thì xe tự hành hoàn toàn sẽ thành hiện thực ở một số nước. khi nào có sóng 5G thì có thể bật full autopilot, khi nào mất sóng thì lại yêu cầu người lái hỗ trợ thủ công.

cloud5trike

Mình thấy hướng đi của Tesla có vẻ rất là hợp lý, thực tế con người cũng chỉ có 2 mặt và đi lại vòng vòng được, chỉ cần thị sai để ước lượng khoảng cách, còn lại để não bộ/AI phân tích hình ảnh và phán đoán.

vjpden33

Vin cũng có mà!
tesla có gì vin cũng có, cứ từ từ vin đưa ra tự hành max lv + công nghệ pin vượt trội, AI vượt tầm.
Bài trên thì phân tích khá kí, nếu con người có thể thì máy cũng hoạt động được tương tự nhưng với mức xử lý tốc độ hơn. Đến lúc nó xử lý đc gần như mọi tình huống còn việc vẫn có sai sót ở trường hợp đặc biệt cần não người thì vẫn có thể xảy ra thôi.

Bán trời không văn tự, chưa có một chiếc xe điện nào lăn bánh đòi làm đối thủ Tesla. Chưa có một xe tự hành nào chạy trên đường mà cứ nổ Vin. Trong khi mấy chiếc Lux thì chạy lag chậm tùm lum. Toàn mua đồ của Tàu ghép vô lỗi tùm lum,,.. Khách hàng tiềm năng chẳng ghét gì VF mà từ khi kênh nào bài nào về xe cũng có đám quăng lựu đạn chúng mày về VF mà làm Khách hàng tiềm năng ghét luôn. Nổ quá nổ..

Trên con Model 3 và Y, ở hai bên bánh trước có 2 con cam, hai bên hông xe ở giữa kính cửa trước và sau mỗi bên có 1 cam. Ngay trước kính chiếu hậu có 3 cái cam, thêm 1 cái cam ở phía sau như backup cam. Các cam này có tác dụng quay và tự thiết lập đồ hoạ 3 D. Phía trước và sau sẽ tạo được mỗi phía 1 xe. Hai bên có thể tạp ra mỗi bên trên 2 xe.
Phần bumper trước và sau vẫn có các cảm biến radar thông thường.

@mvo94587 Bác lấy custom order hay từ inventory vậy?

@Wininsider10 Custom order. Sx 06/2021

@mvo94587 À chắc là order từ trước nên vẫn có, order sau t6 thì k có

@Wininsider10 Không order giữa tháng 5, cuối tháng 6 nhận xe.

Nguyễn Anh Sĩ

Vấn đề ở Camera là có khả năng bị nhoè do mưa nắng và bụi . Hoặc có thể hỏng do va quệt . Vì vậy , còn tiềm ẩn nhiều nguy hiểm

@leminhtu88 Ý mình là . Có cả 2 càng tốt ý

vqt907

@Nguyễn Anh Sĩ có cả 2 cũng chưa hẳn tốt đâu, như Tesla đã giải thích thì nhiều khi dữ liệu từ LIDA còn gây nhiễu và sai lệch so với dự liệu từ AI camera nên không nên dùng cả 2 cùng lúc. Còn nếu chỉ dùng LIDA khi camera không hoạt động đc thì lại tăng chi phí không cần thiết cho những tình huống hiếm khi xảy ra, mà việc xử lý LIDA cũng không hề đơn giản tí nào. Bởi vậy họ chọn dồn toàn bộ nguồn lực cho việc tối ưu AI thay vì cố gắng chia đội ngũ ra để support cả 2 thứ

rungvang

Camera có nhược điểm là bẩn là toi. Ông kỹ sư đi so sánh với mắt người. Người ngồi trong ô tô còn camera gắn ngoài ô tô, đi trời mưa to nước hoặc bùn bắn lên che hết cam thì chắc lại đỗ lại lau cam.

tancantn

@rungvang Chế tạo đc cả 1 con xe điện đắt tiền, b nghĩ họ k làm đc hệ thổng rửa cam tự động à 😃

@rungvang Nhưng nó có nhiều mắt phụ trợ nữa 😁 nên vẫn ok.

@rungvang còn mắt người có nhược điểm là hay nhắm khi buồn ngủ =))))

llyllr

Cũng là cách để cạnh tranh vs a tàu

Leeshung

Train mạng neural với chính video ghi được từ xe bán ra của các khách hàng của mình rồi tối ưu. Vậy thì quá khủng r 😁

mankichi0688

Bản chất khi dùng camera cung có thể phân biệt được vật thể hay khoảng cách, chủ yếu là camera co xịn và máy tính phải đủ mạnh để xử lý la được

Giang Không Xấu Trai

Anh em không biết đấy thôi. Mấy xe tự lái người ta bỏ 1 người vào trong mui xe ngồi lái đó 😁😁

BlackMan00x

Cách mà con người lái xe là dựa vào 5 giác quan và giác quan thứ 6 chính là cảm giác về sự nguy hiểm. Cái thứ 6 cũng rất quan trọng

Cách mà các loài động vật khác di chuyển thì cũng có dùng cả sóng âm tương tự lidar, từ trường, hồng ngoại...

Về mặt kỹ thuật, xe tự lái chỉ cần có camera stereo là đủ, bao gồm cả việc đo đạc khoảng cách mà ko cần dùng lidar.

Tuy nhiên nếu kết hợp được nhiều yếu tố thì sẽ đưa ra kết quả tốt hơn. Bởi AI vẫn còn khuya mà so vs con người trong điều kiện thực tế.

Tesla đang chém vậy chứ xe Tesla mớ tự lái ở level 2/6( 6 levels từ 0 đến 5). Xe của Waymo nó đã là 4/6 rồi. Chờ xem Musk điên có làm nên điều kỳ diệu như spacex ko 😁😄😄

Mộc Phong

BlackMan00x đã nói: ↑

@BlackMan00x thực sự thì con người chẳng cần đến 5 giác quan để lái xe (bạn dùng lưỡi lái xe à, ngồi trong xe mũi cũng chẳng ngửi được gì ngoài đường đâu), nên giác quan thứ 6 thì càng không cần, và thứ 6 có thật hay không chẳng ai dám chắc. Động vật đơn cử là dơi định vị bằng sóng siêu âm nhưng khả năng tránh né không bằng ruồi định vị bằng mắt 270 độ. Thế nên việc dùng sóng siêu âm hay bất kỳ cái nào khác không chắc đã tốt hơn bằng mắt/camera. Waymo 4/6 đi với tốc độ rùa bò, cùng 1 quãng đường Waymo đi hết 8 phút thì Tesla chỉ hết 5 phút thôi. Tesla muốn hướng đến trải nghiệm người dùng tốt nhất chứ không phải 1 chiếc xe tự động nhưng chạy chậm.

@BlackMan00x Vâng Waymo level 4, nhưng hoàn toàn phụ thuộc vào bản đồ thực tế chính xác đến từng cm, bị geofenced, sẵn sàng thêm vài phút để không phải rẽ trái tí nào, nói k có người lái hoàn toàn chứ vẫn có người điều khiển từ xa

Bỏ lidar và radar là hợp lý trên ô tô tự lái, 2 cái này thực ra chẳng giúp gì nhiều. Quét xuyên vật thể (radar) hay đo chính xác (lidar) không cần thiết cho xe tự lái. Đường xá đông đúc con người với 2 mắt vẫn có thể lái xe nhẹ nhàng mà có căng thẳng gì đâu. Não người xử lý thông tin rất tốt nhưng chắc chắn não cũng không thể đo khoảng cách chính xác khi con chó bất ngờ xuất hiện đâu nó chỉ ước lượng được tương đối và đưa ra quyết định thôi.

Thanhf Trinhj Vawn

Bài dịch, tổng hợp của Luân "bếu" tương đối tốt về khoa học-công nghệ thường thức.

hieu95bk

Trứng

Andrej Karpathy giải thích hệ thống tự lái chỉ dùng dữ liệu hình ảnh từ camera tại Tesla Autonomy Day năm 2019, xem từ 1h51':

Tesla giải thích vì sao xe tự lái chỉ cần camera, không cần LIDAR

Vì sao Tesla bỏ LIDAR, bỏ luôn radar trên xe

Cách Tesla dạy cho hệ thống AI

Tự quản siêu máy tính và con chip

CHỦ ĐỀ TƯƠNG TỰ

F80: Biểu tượng tốc độ mới của Ferrari, "hậu bối" của LaFerrari, giá gần 4 triệu Đô

DJI chính thức ra mắt DJI Air 3S: lidar, cảm biến 1", 4K60fps, Smart RTH...

Tesla giới thiệu Cybercab: Không vô lăng, không bàn đạp, giá dự kiến 30 nghìn USD

Nghiên cứu: Các trạm sạc thúc đẩy kinh tế cho các doanh nghiệp lân cận