Giá trị tiếng Việt qua các minh chứng nghiên cứu. Thêm góc nhìn từ CVNSS4.0
(Bài của Thạc sĩ Ngo Long, chuyên viên xử lý ngôn ngữ tự nhiên, ngày 7-4-2023)
---------------
Chúng ta luôn bị giới hạn bởi việc não bộ trong tiếp nhận và xử lý thông tin nhanh, nhưng không bị giới hạn việc xử lý thông tin bằng khả năng nghe. Điều này, có liên quan đến sự phát triển sinh học của bộ não và khả năng tiếp nhận của não bộ thông qua thông tin lời nói. Dù ta có nói nhanh hay chậm thì cũng đều có tốc độ truyền dữ liệu nhanh nhất khoảng 39,15 bit/s (cao gấp 2 lần của mã Morse). Mặt khác, Tiếng Việt ta có mật độ thông tin cao nhất trong 17 ngôn ngữ điều này rất thú vị cho sự phát triển của Chữ VN Song Song 4.0 (CVNSS4.0) trong tương lai. Bài phân tích dưới đây sẽ làm rõ 2 luận điểm này:
1. Tốc độ truyền dữ liệu nhanh nhất
Nghiên cứu của nhóm Coupé et al., (2019) đã thực hiện nghiên cứu, tiếng Việt xếp đầu bảng với 8 bit cho mỗi âm tiết trong bảng xếp hạng của 17 ngôn ngữ được phân tích (hình 1). Trong khi đó, tiếng Nhật, với chỉ 643 âm tiết, có mật độ thông tin chỉ khoảng 5 bit cho mỗi âm tiết, và tiếng Anh, với 6.949 âm tiết, có mật độ thông tin chỉ hơn 7 bit cho mỗi âm tiết. Tiếng Việt dùng 6 dấu âm, cho phép ta nén thông tin cao nhất (so với Anh, Nhật, Nga...). Do mỗi âm tiết tiếng Việt chứa 8 bit thông tin, điều này đồng nghĩa với việc tiếng Việt truyền tải thông tin gấp đôi so với tiếng Nhật, và chỉ cần nói với nửa tốc độ của tiếng Nhật thì vẫn đạt được tương đương thông tin.
(Bài của Thạc sĩ Ngo Long, chuyên viên xử lý ngôn ngữ tự nhiên, ngày 7-4-2023)
---------------
Chúng ta luôn bị giới hạn bởi việc não bộ trong tiếp nhận và xử lý thông tin nhanh, nhưng không bị giới hạn việc xử lý thông tin bằng khả năng nghe. Điều này, có liên quan đến sự phát triển sinh học của bộ não và khả năng tiếp nhận của não bộ thông qua thông tin lời nói. Dù ta có nói nhanh hay chậm thì cũng đều có tốc độ truyền dữ liệu nhanh nhất khoảng 39,15 bit/s (cao gấp 2 lần của mã Morse). Mặt khác, Tiếng Việt ta có mật độ thông tin cao nhất trong 17 ngôn ngữ điều này rất thú vị cho sự phát triển của Chữ VN Song Song 4.0 (CVNSS4.0) trong tương lai. Bài phân tích dưới đây sẽ làm rõ 2 luận điểm này:
1. Tốc độ truyền dữ liệu nhanh nhất
Nghiên cứu của nhóm Coupé et al., (2019) đã thực hiện nghiên cứu, tiếng Việt xếp đầu bảng với 8 bit cho mỗi âm tiết trong bảng xếp hạng của 17 ngôn ngữ được phân tích (hình 1). Trong khi đó, tiếng Nhật, với chỉ 643 âm tiết, có mật độ thông tin chỉ khoảng 5 bit cho mỗi âm tiết, và tiếng Anh, với 6.949 âm tiết, có mật độ thông tin chỉ hơn 7 bit cho mỗi âm tiết. Tiếng Việt dùng 6 dấu âm, cho phép ta nén thông tin cao nhất (so với Anh, Nhật, Nga...). Do mỗi âm tiết tiếng Việt chứa 8 bit thông tin, điều này đồng nghĩa với việc tiếng Việt truyền tải thông tin gấp đôi so với tiếng Nhật, và chỉ cần nói với nửa tốc độ của tiếng Nhật thì vẫn đạt được tương đương thông tin.
Và cũng là ngoại ngữ khó học nhất do các thanh dấu tạo nên! Ví dụ: chỉ cần đổi dấu... Dưa, Dứa, Dừa, Dữa, Dửa, Dựa là thông tin thay đổi hoàn toàn. Trong khi đó, CVNSS4.0 trên môi trường máy tính sẽ là Zuao, Zuax, Zuak, Zuaw, Zuav, Zuah sẽ không tốn nhiều Bit, như vậy giúp cho việc truyền dữ liệu là tối ưu nhất.
Ví dụ kế tiếp: Tiếng Việt chỉ cần 1 âm tiết "chào", tiếng Anh do đa âm tiết sẽ là "hê-lô" (hello). Do đó mà để diễn đạt cùng 1 ý tứ nào đó tiếng Việt nghe rất ngắn gọn, súc tích, còn tiếng Anh sẽ nghe rất dài.
2. Mật độ thông tin cao nhất
Nghiên cứu của nhóm Pellegrino et al., (2011) đã thực hiện trên 7 ngôn ngữ khác nhau, bao gồm Anh, Đức, Pháp, Ý, Nhật, Quan Thoại (Trung Quốc), và Tây Ban Nha với tiếng Việt được chọn làm điểm tham chiếu để so sánh với nhau. Kết quả cho thấy tiếng Việt có mật độ (độ nén) thông tin cao nhất, đạt giá trị là 1, trong khi các ngôn ngữ khác đều có mật độ thông tin thấp hơn, dưới 2 (hình 2). Các ngôn ngữ gần nhất về mật độ thông tin so với tiếng Việt là tiếng Anh và tiếng Quan Thoại. Điều đó, nghĩa là Tiếng Việt ngôn ngữ giàu thông tin với 1 âm tiết chứa 8 bit thông tin, trong khi tiếng Anh thì 1 âm tiết chỉ có 7 bit thông tin, còn tiếng Nhật với 1 âm tiết chỉ có 5 bit thông tin. Việc giữ được hồn của tiếng Việt với 6 thanh điệu trong môi trường máy tính, chứa được nhiều thông tin, cho thấy CVNSS4.0 đã hữu dụng.
3. Ứng dụng CVNSS4.0
Các nghiên cứu này là một phát hiện thú vị, giúp chúng ta hiểu thêm về đặc điểm của tiếng Việt. Thông tin này cũng phần nào thể hiện được tính cô đọng, đơn giản của tiếng Việt, với khả năng truyền tải thông tin cao và số lượng từ cần thiết để truyền tải ý nghĩa là ít. CVNSS4.0 với nền tảng chữ quốc ngữ trong sự phát kiến của nhóm tác giả Trần Tư Bình và Kiều Trường Lâm (2020), đã tận dụng tính hiệu quả để tăng tốc độ xử lý nhằm truyền tải thông tin cao nhất trong mỗi âm tiết. Điều này giúp cho khả năng tư duy phát triển của người nói tiếng Việt, trong đó khả năng tư duy có thể giúp rút ngắn và truyền tải thông tin một cách hiệu quả.
4. Kết luận mở
CVNSS4.0 là kiểu viết ngắn gọn để diễn ngôn cho tiếng Việt trong môi trường số, không dấu và dấu thanh, chỉ dùng 26 chữ cái bảng chữ cái Latinh để mã hóa thông tin hiệu quả. Tiếng Việt là ngôn ngữ dân tộc Việt có từ thời Hùng Vương, vượt qua 1000 năm Bắc thuộc, phát triển đến ngôn ngữ cô đọng ngày nay. Dẫu trải qua nhiều giai đoạn lịch sử thăng trầm, qua nhiều hệ thống các ký hiệu để ghi lại ngôn ngữ khác nhau. Song Tiếng Việt là tinh hoa, là bản sắc và linh hồn của văn hóa Việt, giúp dân tộc đứng vững và mãi mãi sau này. Nghiên cứu giá trị tiếng Việt là nhắc nhở để hiểu và giữ gìn di sản to lớn này, góp phần làm giàu, phong phú ngôn ngữ của dân tộc khẳng định sức mạnh trên mọi môi trường.
Quảng cáo
----------------------------
Note: ***Chương trình dự án Chữ VN Song Song 4.0 (CVNSS4.0) là do một nhóm tác giả người Việt yêu thích ngôn ngữ tiếng Việt, tạo lập một cộng đồng phi lợi nhuận xuyên quốc gia, nhằm thể hiện vai trò con người trong biểu đạt thông tin trên môi trường số thông qua việc khởi tạo và triển khai ngôn ngữ Bila máy tính trên nền tảng CVNSS4.0 để bảo mật riêng tư, ẩn danh, phi tập trung trong lưu trữ. Chương trình này hiện phát triển trên các ứng dụng mã nguồn mở và miễn phí, kết hợp tính khả dụng của chữ Quốc ngữ và tính không giới hạn của tiếng Việt, nhằm lan tỏa hiểu biết khoa học ngôn ngữ với máy tính để bảo tồn văn hóa Việt Nam trên không gian số.
5. Tài liệu tham khảo
Coupé, C., Oh, Y. M., Dediu, D., & Pellegrino, F. (2019). Different languages, similar encoding efficiency: Comparable information rates across the human communicative niche. Science advances, 5(9), eaaw2594. Link <https://www.science.org/doi/10.1126/sciadv.aaw2594>
Kieu-Tuong Lam, & Tran-Tu Binh. (2020). Typing CVNSS4.0 with EVKEY is a quick way to type Vietnamese characters on a computer (1.0). Zenodo. https://doi.org/10.5281/zenodo.7077573
Pellegrino, F., Coupé, C., & Marsico, E. (2011). Across-Language Perspective on Speech Information Rate. Language, 87, 539 - 558. Link < https://www.jstor.org/stable/23011654>
____________________
Quảng cáo
+ NGUỒN:
https://www.facebook.com/groups/toiyeuchuviet4.0/permalink/974308747316573/?mibextid=Nif5oz
+ Long Ngo: Tên thật là NGÔ HOÀNG ĐẠI LONG – hiện đang là Nghiên cứu viên tại Phân hiệu Đại học Quốc gia-TP.HCM tại tỉnh Bến Tre, có nhiều công trình khoa học – được công bố trên Scopus & WoS – liên quan đến hướng nghiên cứu của mình về Địa lý ngôn ngữ, nhất là các Ứng dụng của xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) trong GIScience. (Facebook: Long Ngo – https://www.facebook.com/dailong0606 , Email: ngohoangdailong@gmail.com)
#chuvnsongsong