Vì sao thiết bị điện tử có thể nhận diện được giọng nói của con người?

Blaze1st
14/12/2012 12:56Phản hồi: 87
Vì sao thiết bị điện tử có thể nhận diện được giọng nói của con người?
Siri-vs.-Google-Now-Search.jpg
SiriGoogle Now: hai tính năng nhận diện giọng nói trên smartphone (tablet) tốt nhất hiện nay

Nhận diện giọng nói con người - một công nghệ, hay có thể gọi là một khái niệm đã và đang dần trở nên quen thuộc với tất cả chúng ta ngày nay. Tiện ích của tính năng này đó chính là nó giúp chúng ta tiết kiệm được thời gian thực hiện các thao tác bằng tay, ra lệnh cho thiết bị tìm kiếm hay thực một một tác vụ nào đó mà không cần phải qua nhiều bước rườm rà. Tất nhiên không phải lúc nào máy cũng nhận diện đúng giọng của chúng ta, nhưng với những nỗ lực phát triển và cải tiến không ngừng nghỉ, độ chính xác của chức năng này đã được nâng cao lên một mức đáng kể. Một số ví dụ điển hình về công nghệ này trên các smartphone, tablet hiện nay: Siri trên iOS, Google Now trên Android, hay có thể kể đến ứng dụng Dragon Dictation - có khả năng nhận biết được Tiếng Việt của chúng ta.

Công nghệ rất tuyệt vời này dường như biến chiếc smartphone/tablet khô khan của chúng ta thành một người bạn có thể trò chuyện bất kỳ lúc nào. Vậy có một câu hỏi đặt ra ở đây là: làm sao thiết bị di động lại có thể hiểu được giọng nói của con người?. Bài viết này sẽ đưa ra câu trả lời và giải thích chi tiết vì sao lại như vậy.

1. Chuyển sự chuyển động của các phân tử không khí thành những con số.

Thấy có vẻ rất ảo và ghê gớm nhưng thật sự đây là một trong những yếu tố giúp máy hiểu được giọng nói của chúng ta. Khi bạn nói, phát ra tiếng, âm thanh đi vào microphone của thiết bị hay đi vào bộ phận tiếp nhận âm sẽ làm thay đổi áp suất không khí, tạo ra sự lan truyền các dao động âm trong môi trường không khí, từ đó phát sinh ra sóng âm.

Lúc này, thiết bị của bạn sẽ ghi lại một phép đo sóng tại một thời điểm nhất định, lưu giữ nó và sau đó thực hiện phép đo lại một lần nữa. Nếu như khoảng thời gian giữa hai lần đo là quá dài, máy sẽ bỏ lỡ một số từ ngữ và không nhận diện được một cách hoàn chỉnh. Vì vậy để máy tính/smartphone hay tablet có thể nhận diện được chính xác từng câu chữ của mình, bộ phận thu âm phải tiến hành 8000 phép đo trong một giây, và sẽ tốt hơn nữa nếu nó thực hiện được 44.100 phép đo/giây. Có thể gọi quá trình này là số hoá ở tần số 8 kHz hay 44,1 kHz.

2. Tính toán để phát hiện đúng sóng âm từ người phát ra

Khi đứng ở nơi công cộng, hay ngồi gần một chiếc quạt đang quay, chúng ta sẽ nghe được rất nhiều âm thanh từ nhiều nguồn phát ra. Chính vì vậy để có thể chắt lọc và nhận biết chính xác âm thanh nào từ con người, âm thanh nào từ xe cô, tiếng còi, một loạt các thuật toán đã được thực hiện đối với các sóng âm thanh đã được số hoá, nhằm chọn ra chính xác âm từ lời nói để thực hiện đúng thao tác. Mặc dù vậy, nếu muốn máy hiểu đúng những gì ta nói, bạn nên tìm chỗ nào yên tĩnh hay có ít tạp âm rồi hẳn đã sử dụng chức năng nhận diện giọng nói này.

3. Phân tích sự thay đổi trong tần số

Thông thường những câu nói của chúng ta là một tổ hợp phức tạp các sóng âm với nhiều tần số khác nhau. Sự thay đổi trong tần số, cách nhấn âm khác nhau là những yếu tố rất quan trọng có thể tạo ra sự khác biệt (ví dụ khi phát âm "ah" và âm "ee"). Và để nhận ra chính xác sự khác biệt đó, rất nhiều thuật toán đã được lập trình để có thể chuyển đổi những sóng âm phức tạp trên thành các con số.

4. Nhận biết được từng âm vị

Có tổng cộng khoảng 40 âm vị khác nhau trong Tiếng Anh. Vì vậy để có thể nhận biết chính xác và tránh nhầm lẫn, máy tính cần phải đoán được mỗi một âm vị trong từng câu chữ của chúng ta, để làm được điều này các lập trình viên phải đưa ra hàng loạt ví dụ với nhiều âm vị khác nhau nhằm tập cho máy làm quen và nhận diện chuẩn hơn. Không những vậy, những đặc điểm của âm vị không chỉ thay đổi tuỳ thuộc vào giọng của người nói, nó còn thay đổi dựa vào âm vị đứng ngay trước, thí dụ chữ "t" trong từ "star" có cách đọc khác với chữ "t" trong "city". Tóm lại thiết bị phải hiểu được nhiều âm vị khác nhau trong những ngữ cảnh khác nhau nếu muốn thực hiện đúng yêu cầu mà người dùng đề ra.

5. Chia cắt cụm những âm vị thành cuỗi các từ ngữ phù hợp

Quảng cáo


Máy tính có khả năng nhận diện giọng nói luôn được trang bị bên trong hệ thống một danh sách chứa nhiều từ vựng được phát âm theo nhiều cách khác nhau. Chính vì điều này, khi đoán một cụm từ nào đó, việc đầu tiên thiết bị thực hiện đó là chia cắt cụm những âm vị thành chuỗi các từ ngữ phù hợp. Phù hợp ở đây là bởi trong một số trường hợp nhất định, việc chia cắt sẽ trở nên sai lệch và phản tác dụng, ví dụ câu "hang ten", nếu chia ra máy sẽ hiểu là "hey, ngten" - một câu hoàn toàn vô nghĩa.

6. Tính toán để đặt đúng từ vào đúng vị trí

Trong một câu nói, rất hiếm khi (có thể nói là không bao giờ) xuất hiện những từ vô nghĩa chen giữa. Ví dụ: "Mình tên điện thoại Huỳnh Quân", rất vô lí đúng không nào. Vậy để tránh sự cố này máy tính cần phải tính toán để đặt đúng từ vào đúng vị trí, nhằm tạo nên chuỗi âm vị với các từ ngữ hợp lệ. Bên cạnh đó, thiết bị cũng phải được làm quen để dễ dàng đoán được từ tiếp theo là gì, ví dụ khi đề cập đến từ "đồng", máy phải tự động lọc ra một số từ khi ghép với "đồng" sẽ có ý nghĩa nhất định như từ "hồ - đồng hồ" hay "chí - đồng chí".

7. Thực hiện yêu cầu

Một khi máy tính đã đưa ra quyết định cuối cùng từ nào là hợp lí, nó sẽ bắt đầu tiến hành các thao tác như yêu cầu. Với Siri hay Google Now, chúng ta sẽ dễ dàng bắt chúng tìm những thông tin trên Internet thay vì gõ từng từ vào khung Google, hay hẹn giờ, đặt lịch hẹn,...Như đã nói ở đầu bài, không có gì là hoàn hảo, trải qua rất nhiều phép phân tích và tính toán, một số trường hợp ứng dụng nhận diện giọng nói sẽ cho ra kết quả sai, nhưng hãy thực tế hơn một chút, việc các nhà phát triển biến chiếc smartphone/tablet có thể nói chuyện như một người bạn quả thật rất đáng kinh ngạc.


Theo Gizmodo

Quảng cáo

87 bình luận
Chia sẻ

Xu hướng

đúng là công nghệ này ko hề đơn giản 1 tý nào, phải phụ thuộc vào bao nhiêu yếu tố mới thành đc vậy vậy.. Mới đầu mình nghĩ nó ko phức tạp đến vậy cơ! Con người ngày nay ngày càng tiến tới tầm cao hơn... Dần dần những cảnh tưởng chỉ có thể xem trong các phim viễn tưởng, hành động sẽ trở thành sự thật ^^
kì diệu thật
đầu óc si đần như mình chỉ có thể nghĩ rằng người ta có 1 tập câu, từ, nói đúng cái nào thì nó trả lời cái ấy mà thôi 😁
Hôm nay mới biết kiến thức mà ko ai thắc mắc. Cũng hay, bí ẩn ko xa lạ.😁! Đưng ban nick e nhá
@phanhuy5491 Cùng suy nghĩ với bác này 😆 Chỉ riêng công nghệ nhận diện giọng nói thôi mà đã phức tạp thê rùi ...
coffeepot
TÍCH CỰC
11 năm
Công nghệ thật La phát triển nhanh,sau vài năm nữa sp sẽ nhận diện đk cả hành động,và hoặc La diều khiển sp bằng bộ não 😁
beautiful
ĐẠI BÀNG
11 năm
Mong mỏi phần mềm nhận diện tiếng Việt
HwangRyong
ĐẠI BÀNG
11 năm
@chacona Như vậy thì để nhận diện được toàn diện hơn vấn đề ở cái dữ liệu có đủ phong phú không chứ ? Nếu chỉ chọn một giọng Anh Mỹ hay Anh Anh thì nói làm gì :|
Mà âm "t" trong "star" vẫn khác âm "t" trong "city" dù là giọng Anh Anh 🤔
@HwangRyong Ở trên bạn ý lấy chữ "t" trong star và trong city nên mình cũng theo ví dụ đó thôi. Âm anh Mỹ, chữ "t" trong city được đọc gần như là "d" - theo mình biết. Ở tiếng Anh Anh, giọng có thể thanh thoát và hơn giọng Mỹ - vốn nặng hơn.
hunhun
TÍCH CỰC
11 năm
@beautiful hình như iOs có mà
@beautiful có trên ipad lâu roài =))
Càng ngày càng lời hại quá
Rắc rối nhưng rất tuyệt

Sent from my GT-I9100 using Tinhte.vn
leminhkha
TÍCH CỰC
11 năm
nhận diện Tiếng Anh thì khá chuẩn, còn TV thì ko biết đến khi nào
gjmgjm
ĐẠI BÀNG
11 năm
Sao nhận diện tiếng việt không có trên máy tính trước hay android mà ios mới đau 😔 :(

Sent from my Mobiistar Touch S02 using Tinhte.vn
@gjmgjm có trên máy tính từ lâu rồi bạn à, nhưng nó k hữu dụng bằng trên các tb di động
gjmgjm
ĐẠI BÀNG
11 năm
@camquyt2208 ủa soft nào vậy bạn nói tên cho mình biết với...???
@gjmgjm ví dụ như trên windows 7 có cái speech and recognition ấy, nhưng nói chung trên các thiết bị di động thì phát triển hơn,vì mấy tính năng này trên windows ng ta cũng chẳng hay dùng 😃
trước giờ toàn tưởng mình nói rùi nó lọt vào khe micro từ đó nó phân tích sau đó thực hiện lệnh thui
chứ ko biết là có công nghệ này công nghệ khác . thấy đơn giản mà nó lại rất rất phức tạp
Phải nói là rất khâm phục những con người tạo ra công nghệ này
Thiết bị điện tử giờ quá giỏi 😆)
cái gì chứ tiếng Việt của VN mình thì chắc siri cũng bó tay lẫn chân, hehe.
Đó là cả 1 công nghệ
Ấn tượng với c.nghệ nhận diện giọng nói...1 chuỗi tính toán thật phức tạp
giờ thì em đã hiểu,công nghệ cao có khác,đậm chất tinhte;)
đã có phần mềm nhận biết đc cảm xúc của con người qua giọng nói rồi nhé
Công nghệ phát triển ghê
kale64
ĐẠI BÀNG
11 năm
nếu nhận diện tiếng việt không biết có dùng được cho cả 3 miền ko nhỉ
dlcr
TÍCH CỰC
11 năm
Tiếng Việt luôn được ít hỗ trợ nhất 😔
Có lẽ là khó
Mặc dù là người Việt làm :(
Say IT => rất hay nhưng tiếng anh 😃
ngoanrazo
TÍCH CỰC
11 năm
@dlcr pác ko hiểu về lập trình rồi. nhận diện giọng nói là do api hỗ trợ, chỉ cần gọi ra và sử dụng thôi, api này ko hỗ trợ tv nên pác ấy pó tay
dlcr
TÍCH CỰC
11 năm
@ngoanrazo thì đó, chỉ là lập trình bậc cao thôi...
nếu lập trình thì tại sao không tạo ra api tiếng việt 😔

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019