Google phát triển hệ thống nhận dạng giọng nói hoạt động không cần mạng, thử nghiệm trên Nexus 5

bk9sw
11/3/2016 14:29Phản hồi: 17
Google phát triển hệ thống nhận dạng giọng nói hoạt động không cần mạng, thử nghiệm trên Nexus 5
Google đã vừa phát triển một hệ thống nhận dạng giọng nói dung lượng đủ nhỏ để chiếc điện thoại Nexus 5 có thể phản hồi "nhanh hơn thời gian thực" mà không cần kết nối Internet.

Hệ thống này không cần đến trung tâm phân tích dữ liệu từ xa, không phụ thuộc vào kết nối mạng và có thể dùng trên nhiều thiết bị như smartphone, smartwatch hay mọi loại thiết bị có bộ nhớ eo hẹp khác. Theo tài liệu được nhóm nghiên cứu tại Google công bố, mục tiêu của họ là nhằm tạo ra một hệ thống nhận dạng giọng nói không quá nặng nhưng hoạt động chính xác để có thể chạy trực tiếp trên thiết bị.

Nói về yếu tố nhỏ nhẹ thì hệ thống nhận dạng giọng nói này có dung lượng chỉ 20,3 MB và khi được thử nghiệm trên chiếc Nexus 5 với CPU 2,26 GHz, 2 GB RAM thì tỉ lệ sai từ của hệ thống vào khoảng 13,5% với thử thách đọc chính tả.

Google sở hữu hàng tá nghiên cứu tương tự và không khó để hình dung hệ thống nhận dạng giọng nói trên hoạt động dựa trên các công nghệ máy học (machine-learning). Trong trường hợp này, Google gọi là "mạng thần kinh định kỳ (RNNs) bộ nhớ dài ngắn hạn (LSTM) và được dạy bởi mạng thần kinh nhân tạo phân loại theo thời gian (CTC) và mô hình rủi ro tối thiểu Bayes (sMBR)." Những kỹ thuật rất cao siêu mà chỉ dân trong nghề mới hiểu được 😃

Để thu nhỏ hệ thống, các nhà nghiên cứu đã phát triển một mô hình chung dành cho mỗi cặp định danh gồm chỉ thị giọng nói và lệnh. Với việc sử dụng nhiều kỹ thuật khác nhau, họ đã nén mô hình nhận biết âm thanh này xuống còn 1/10 so với dung lượng ban đầu.

Các nhà nghiên cứu cũng nêu rõ rằng hệ thống nhận dạng giọng nói hoạt động ngoại tuyến (offline) hiện đã có thể thực hiện một lệnh kiểu như yêu cầu gởi một email đến một ai đó và có thể tái sắp xếp thời gian cho hành động này. Hệ thống chỉ đơn giản là phiên dịch lại lệnh ngay lập tức và thực thi sau đó. Tuy nhiên, để phiên dịch chính xác thì hệ thống cần các thông tin cá nhân tương ứng, chẳng hạn như tên người nhận email. Giải pháp của nhóm nghiên cứu là tích hợp danh bạ trên thiết bị vào hệ thống.

Để dạy cho mô hình nhận biết âm thanh này, các nhà nghiên cứu đã trích xuất 3 triệu lời nói, tổng dung lượng khoảng 2000 giờ từ hệ thống tìm kiếm bằng âm thanh của Google (Google Voice). Và để khiến hệ thống đáng tin cậy hơn, Google cũng dùng các đoạn âm nhiễu từ các video đăng tải trên YouTube.

Theo: ZDNet
17 bình luận
Chia sẻ

Xu hướng

goon102
ĐẠI BÀNG
8 năm
chỉ có thể la google
Google giỏi quá
Bạn đã bị ghi âm, những gì bạn nói trước google voice có thể làm bằng chứng chống lại bạn trước tòa 😁
@Apple Haters 2.01 Ghi âm chẳng sợ....chỉ sợ quay Camera thôi. Lúc đó lộ hết hàng...
lekry
ĐẠI BÀNG
8 năm
Vui khi con nexus 5 ghẻ của mình vẫn còn dc ưu tiên cập nhật 😆
tuan tuan vu
ĐẠI BÀNG
8 năm
google,nhắn tin cho mẹ của bạn của bố của bà của anh ông hàng xóm của t
20M 1 dung luợng qua nhỏ
hoangvuvking
ĐẠI BÀNG
8 năm
@bomduc càng nhỏ càng tốt ông êi
ngoctrai1102
ĐẠI BÀNG
8 năm
Nhiều ng đã mong chờ ứng dụng này từ lâu. Hehe
Tương lai khỏi cần lấy vợ hay chồng làm chi cho mệt . Smartphone sau này sẽ thay thế hoàn toàn. Nó sẽ là người bạn đời chung tình nhất! Coôn muốn có con ư...quá đơn giản. Đã có ngân hàng tinh trùng và trứng rồi. Muốn Tây có Tây,Ta có Ta....Trung quốc có Trung quốc...

Đời là bể khổ mà,âu cũng từ phụ nữ mà ra....
yokel
TÍCH CỰC
8 năm
Smartwatch rất thích điều này. Vì sw nhắn tin phải voice to text mới siêu nhanh vì màn hình quá bé hạn chế được tối đa sử dụng bàn phím mọi lúc mọi nơi.
Công nghệ càng hngày càng mạnh
Hay thật. Vài chục MB dữ liệu đã đủ để nhận dạng.
Tương lai Al sẽ nhỏ như cái móng tay. Hoạt động độc lập ghi nhớ học tập dần như người. Mỗi cái Đt là 1 Al
x_chien
TÍCH CỰC
8 năm
e mong chờ cái này từ lâu rồi, mấy cái nhận diện giọng nói qua mạng thật là vô dụng, ra lệnh cho cái điện thoại của mình tìm danh bạ trong máy mà phải bật wifi hay 3g lên phát nản.
Hay, dữ liệu dung lượng như vậy quá ổn ^^
casperpas
ĐẠI BÀNG
8 năm
Xin phép đính chính bác chủ thớt là Machine learning dịch là "Học máy" chứ k phải "Máy học". Nghe có vẻ hơi ngược nhưng "Máy học" thì TA nó phải là "Learning machine", là cái máy dùng để học (nó là 1 cái máy). Còn Machine learning là công nghệ làm cho máy có khả năng (tự) học (học theo kiểu của máy) 😁

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019