Một số hình ảnh mà hệ thống của nhóm có thể nhận diện chính xác theo yêu cầu
Từ trước đến nay, bài kiểm tra của tổ chức Image Net được xem như tiêu chuẩn để đánh giá khả năng nhận biết vật thể thật của máy tính. Hồi giữa năm 2014, quán quân của bài kiểm tra này thuộc về hệ thống do các nhà nghiên cứu Google nắm giữ bằng hệ thống máy tính deep learning có khả năng xác định vật thể với tỷ lệ lỗi 6,66%. Cách đây không lâu, một nhóm nghiên cứu đến từ Trung Quốc cũng tuyên bố hệ thống của họ đã hạ tỷ lệ lỗi xuống chỉ 5,98%. Tuy nhiên, tất cả đều chưa vượt qua được khả năng của con người với tỷ lệ lỗi 5,1% (theo tiêu chuẩn của Image Net). Và lần này, nhóm nghiên cứu của Microsoft tuyên bố đã vượt qua được giới hạn này.
Trong thông cáo báo chí, các nhà nghiên cứu Microsoft cho biết: "Theo hiểu biết của chúng tôi, đây là lần đầu tiên một hệ thống máy tính có thể vượt mặt con người trong việc nhận diện các hình ảnh thị giác. Dưới góc độ khác, thuật toán của chúng tôi vẫn mắc phải những sai lầm trong quá trình nhận diện trong khi một số người có thể xác định dễ dàng. Cụ thể, đó là những trường hợp cần phải có nhận thức về bối cảnh phức tạp hoặc con người phải có kiến thức cao mới nhận ra đó là vật gì.
Một số hình ảnh mà hệ thống của nhóm đã có thể phân loại các đối tượng, nhưng không thể nhận diện chính xác vật thể theo yêu cầu
Nhóm cho biết thêm: "Mặc dù trên mặt số liệu, hệ thống của chúng tôi đã vượt mặt con người, nhưng điều đó không có nghĩa là máy tính có "thị giác" chính xác hơn con người. Tuy nhiên, kết quả này hứa hẹn tiềm năng dùng thuật toán có độ chính xác tương đương con người để thực hiện các nhiệm vụ đòi hỏi quan sát một cách chính xác."
Jian Sun, một thành viên trong nhóm nghiên cứu của Microsoft đã giải thích sự khác nhau cơ bản giữa thị lực của con người và cách thuật toán hoạt động: "Con người có thể dễ dàng phân biệt giữa cừu và bò. Nhưng, máy tính không thể làm được điều này một cách hoàn hảo. Tuy nhiên, khi nói đến cách phân biệt giữa các giống cừu khác nhau, máy tính sẽ thực hiện tốt hơn con người. Máy tính được "dạy" để nhìn vào chi tiết, kết cấu, hình dáng và bối cảnh của hình ảnh để phân biệt, trong khi đó con người khó có thể thực hiện được toàn bộ những động tác này."
Hệ thống nói trên có thể sẽ được mang tới hội nghị Structure Data diễn ra tại New York vào ngày 18, 19 tháng 3 sắp tới. Đây là nơi mà những cơ quan, tổ chức và công ty công nghệ lớn đều tham dự xoay quanh chủ đề phát triển trí tuệ nhân tạo có thể nhận biết, học hỏi. Hội nghị dự kiến sẽ có sự tham gia của các chuyên gia đến tư NASA, Facebook, Yahoo, Microsoft, Stanford,…