Google phát triển hệ thống nhận dạng giọng nói hoạt động không cần mạng, thử nghiệm trên Nexus 5

Google đã vừa phát triển một hệ thống nhận dạng giọng nói dung lượng đủ nhỏ để chiếc điện thoại Nexus 5 có thể phản hồi "nhanh hơn thời gian thực" mà không cần kết nối Internet.

Hệ thống này không cần đến trung tâm phân tích dữ liệu từ xa, không phụ thuộc vào kết nối mạng và có thể dùng trên nhiều thiết bị như smartphone, smartwatch hay mọi loại thiết bị có bộ nhớ eo hẹp khác. Theo tài liệu được nhóm nghiên cứu tại Google công bố, mục tiêu của họ là nhằm tạo ra một hệ thống nhận dạng giọng nói không quá nặng nhưng hoạt động chính xác để có thể chạy trực tiếp trên thiết bị.

Nói về yếu tố nhỏ nhẹ thì hệ thống nhận dạng giọng nói này có dung lượng chỉ 20,3 MB và khi được thử nghiệm trên chiếc Nexus 5 với CPU 2,26 GHz, 2 GB RAM thì tỉ lệ sai từ của hệ thống vào khoảng 13,5% với thử thách đọc chính tả.

Google sở hữu hàng tá nghiên cứu tương tự và không khó để hình dung hệ thống nhận dạng giọng nói trên hoạt động dựa trên các công nghệ máy học (machine-learning). Trong trường hợp này, Google gọi là "mạng thần kinh định kỳ (RNNs) bộ nhớ dài ngắn hạn (LSTM) và được dạy bởi mạng thần kinh nhân tạo phân loại theo thời gian (CTC) và mô hình rủi ro tối thiểu Bayes (sMBR)." Những kỹ thuật rất cao siêu mà chỉ dân trong nghề mới hiểu được 😃

Để thu nhỏ hệ thống, các nhà nghiên cứu đã phát triển một mô hình chung dành cho mỗi cặp định danh gồm chỉ thị giọng nói và lệnh. Với việc sử dụng nhiều kỹ thuật khác nhau, họ đã nén mô hình nhận biết âm thanh này xuống còn 1/10 so với dung lượng ban đầu.

Các nhà nghiên cứu cũng nêu rõ rằng hệ thống nhận dạng giọng nói hoạt động ngoại tuyến (offline) hiện đã có thể thực hiện một lệnh kiểu như yêu cầu gởi một email đến một ai đó và có thể tái sắp xếp thời gian cho hành động này. Hệ thống chỉ đơn giản là phiên dịch lại lệnh ngay lập tức và thực thi sau đó. Tuy nhiên, để phiên dịch chính xác thì hệ thống cần các thông tin cá nhân tương ứng, chẳng hạn như tên người nhận email. Giải pháp của nhóm nghiên cứu là tích hợp danh bạ trên thiết bị vào hệ thống.

Để dạy cho mô hình nhận biết âm thanh này, các nhà nghiên cứu đã trích xuất 3 triệu lời nói, tổng dung lượng khoảng 2000 giờ từ hệ thống tìm kiếm bằng âm thanh của Google (Google Voice). Và để khiến hệ thống đáng tin cậy hơn, Google cũng dùng các đoạn âm nhiễu từ các video đăng tải trên YouTube.

Theo: ZDNet

goon102

ĐẠI BÀNG

8 năm

chỉ có thể la google

Timkelvin

VIP

Google giỏi quá

Apple Haters 2.01

Bạn đã bị ghi âm, những gì bạn nói trước google voice có thể làm bằng chứng chống lại bạn trước tòa 😁

hotletokhonganh1990

@Apple Haters 2.01 Ghi âm chẳng sợ....chỉ sợ quay Camera thôi. Lúc đó lộ hết hàng...

lekry

Vui khi con nexus 5 ghẻ của mình vẫn còn dc ưu tiên cập nhật 😆

tuan tuan vu

google,nhắn tin cho mẹ của bạn của bố của bà của anh ông hàng xóm của t

bomduc

20M 1 dung luợng qua nhỏ

hoangvuvking

@bomduc càng nhỏ càng tốt ông êi

ngoctrai1102

Nhiều ng đã mong chờ ứng dụng này từ lâu. Hehe

Tương lai khỏi cần lấy vợ hay chồng làm chi cho mệt . Smartphone sau này sẽ thay thế hoàn toàn. Nó sẽ là người bạn đời chung tình nhất! Coôn muốn có con ư...quá đơn giản. Đã có ngân hàng tinh trùng và trứng rồi. Muốn Tây có Tây,Ta có Ta....Trung quốc có Trung quốc...

Đời là bể khổ mà,âu cũng từ phụ nữ mà ra....

yokel

TÍCH CỰC

Smartwatch rất thích điều này. Vì sw nhắn tin phải voice to text mới siêu nhanh vì màn hình quá bé hạn chế được tối đa sử dụng bàn phím mọi lúc mọi nơi.

hotatchanh

GÀ

Công nghệ càng hngày càng mạnh

dihuta

Hay thật. Vài chục MB dữ liệu đã đủ để nhận dạng.

daigianinhbinh

Tương lai Al sẽ nhỏ như cái móng tay. Hoạt động độc lập ghi nhớ học tập dần như người. Mỗi cái Đt là 1 Al

x_chien

e mong chờ cái này từ lâu rồi, mấy cái nhận diện giọng nói qua mạng thật là vô dụng, ra lệnh cho cái điện thoại của mình tìm danh bạ trong máy mà phải bật wifi hay 3g lên phát nản.

Triệu Dũng Phú

Hay, dữ liệu dung lượng như vậy quá ổn ^^

casperpas

Xin phép đính chính bác chủ thớt là Machine learning dịch là "Học máy" chứ k phải "Máy học". Nghe có vẻ hơi ngược nhưng "Máy học" thì TA nó phải là "Learning machine", là cái máy dùng để học (nó là 1 cái máy). Còn Machine learning là công nghệ làm cho máy có khả năng (tự) học (học theo kiểu của máy) 😁

Google phát triển hệ thống nhận dạng giọng nói hoạt động không cần mạng, thử nghiệm trên Nexus 5

CHỦ ĐỀ TƯƠNG TỰ

Apple sẽ ra mắt SiriOS - nền tảng phát triển tính năng dành riêng cho Siri vào năm 2020?

Microsoft đưa tính năng thông dịch bằng AI vào PowerPoint, chuyển lời bạn nói thành phụ đề

Lại thử khả năng nhận dạng giọng nói của iOS9 và Android 5

WaveNet - thuật toán AI của Google có thể bắt chước y hệt giọng nói con người