Google đã vừa phát triển một hệ thống nhận dạng giọng nói dung lượng đủ nhỏ để chiếc điện thoại Nexus 5 có thể phản hồi "nhanh hơn thời gian thực" mà không cần kết nối Internet.
Hệ thống này không cần đến trung tâm phân tích dữ liệu từ xa, không phụ thuộc vào kết nối mạng và có thể dùng trên nhiều thiết bị như smartphone, smartwatch hay mọi loại thiết bị có bộ nhớ eo hẹp khác. Theo tài liệu được nhóm nghiên cứu tại Google công bố, mục tiêu của họ là nhằm tạo ra một hệ thống nhận dạng giọng nói không quá nặng nhưng hoạt động chính xác để có thể chạy trực tiếp trên thiết bị.
Nói về yếu tố nhỏ nhẹ thì hệ thống nhận dạng giọng nói này có dung lượng chỉ 20,3 MB và khi được thử nghiệm trên chiếc Nexus 5 với CPU 2,26 GHz, 2 GB RAM thì tỉ lệ sai từ của hệ thống vào khoảng 13,5% với thử thách đọc chính tả.
Google sở hữu hàng tá nghiên cứu tương tự và không khó để hình dung hệ thống nhận dạng giọng nói trên hoạt động dựa trên các công nghệ máy học (machine-learning). Trong trường hợp này, Google gọi là "mạng thần kinh định kỳ (RNNs) bộ nhớ dài ngắn hạn (LSTM) và được dạy bởi mạng thần kinh nhân tạo phân loại theo thời gian (CTC) và mô hình rủi ro tối thiểu Bayes (sMBR)." Những kỹ thuật rất cao siêu mà chỉ dân trong nghề mới hiểu được 😃
Để thu nhỏ hệ thống, các nhà nghiên cứu đã phát triển một mô hình chung dành cho mỗi cặp định danh gồm chỉ thị giọng nói và lệnh. Với việc sử dụng nhiều kỹ thuật khác nhau, họ đã nén mô hình nhận biết âm thanh này xuống còn 1/10 so với dung lượng ban đầu.
Các nhà nghiên cứu cũng nêu rõ rằng hệ thống nhận dạng giọng nói hoạt động ngoại tuyến (offline) hiện đã có thể thực hiện một lệnh kiểu như yêu cầu gởi một email đến một ai đó và có thể tái sắp xếp thời gian cho hành động này. Hệ thống chỉ đơn giản là phiên dịch lại lệnh ngay lập tức và thực thi sau đó. Tuy nhiên, để phiên dịch chính xác thì hệ thống cần các thông tin cá nhân tương ứng, chẳng hạn như tên người nhận email. Giải pháp của nhóm nghiên cứu là tích hợp danh bạ trên thiết bị vào hệ thống.
Để dạy cho mô hình nhận biết âm thanh này, các nhà nghiên cứu đã trích xuất 3 triệu lời nói, tổng dung lượng khoảng 2000 giờ từ hệ thống tìm kiếm bằng âm thanh của Google (Google Voice). Và để khiến hệ thống đáng tin cậy hơn, Google cũng dùng các đoạn âm nhiễu từ các video đăng tải trên YouTube.
Hệ thống này không cần đến trung tâm phân tích dữ liệu từ xa, không phụ thuộc vào kết nối mạng và có thể dùng trên nhiều thiết bị như smartphone, smartwatch hay mọi loại thiết bị có bộ nhớ eo hẹp khác. Theo tài liệu được nhóm nghiên cứu tại Google công bố, mục tiêu của họ là nhằm tạo ra một hệ thống nhận dạng giọng nói không quá nặng nhưng hoạt động chính xác để có thể chạy trực tiếp trên thiết bị.
Nói về yếu tố nhỏ nhẹ thì hệ thống nhận dạng giọng nói này có dung lượng chỉ 20,3 MB và khi được thử nghiệm trên chiếc Nexus 5 với CPU 2,26 GHz, 2 GB RAM thì tỉ lệ sai từ của hệ thống vào khoảng 13,5% với thử thách đọc chính tả.
Google sở hữu hàng tá nghiên cứu tương tự và không khó để hình dung hệ thống nhận dạng giọng nói trên hoạt động dựa trên các công nghệ máy học (machine-learning). Trong trường hợp này, Google gọi là "mạng thần kinh định kỳ (RNNs) bộ nhớ dài ngắn hạn (LSTM) và được dạy bởi mạng thần kinh nhân tạo phân loại theo thời gian (CTC) và mô hình rủi ro tối thiểu Bayes (sMBR)." Những kỹ thuật rất cao siêu mà chỉ dân trong nghề mới hiểu được 😃
Để thu nhỏ hệ thống, các nhà nghiên cứu đã phát triển một mô hình chung dành cho mỗi cặp định danh gồm chỉ thị giọng nói và lệnh. Với việc sử dụng nhiều kỹ thuật khác nhau, họ đã nén mô hình nhận biết âm thanh này xuống còn 1/10 so với dung lượng ban đầu.
Các nhà nghiên cứu cũng nêu rõ rằng hệ thống nhận dạng giọng nói hoạt động ngoại tuyến (offline) hiện đã có thể thực hiện một lệnh kiểu như yêu cầu gởi một email đến một ai đó và có thể tái sắp xếp thời gian cho hành động này. Hệ thống chỉ đơn giản là phiên dịch lại lệnh ngay lập tức và thực thi sau đó. Tuy nhiên, để phiên dịch chính xác thì hệ thống cần các thông tin cá nhân tương ứng, chẳng hạn như tên người nhận email. Giải pháp của nhóm nghiên cứu là tích hợp danh bạ trên thiết bị vào hệ thống.
Để dạy cho mô hình nhận biết âm thanh này, các nhà nghiên cứu đã trích xuất 3 triệu lời nói, tổng dung lượng khoảng 2000 giờ từ hệ thống tìm kiếm bằng âm thanh của Google (Google Voice). Và để khiến hệ thống đáng tin cậy hơn, Google cũng dùng các đoạn âm nhiễu từ các video đăng tải trên YouTube.
Theo: ZDNet