EnCodec: Thuật toán mã hóa sử dụng AI của Meta sẽ cho phép nén tín hiệu gấp 10 lần so với MP3
AudioPsycho
một thángBình luận: 24
EnCodec: Thuật toán mã hóa sử dụng AI của Meta sẽ cho phép nén tín hiệu gấp 10 lần so với MP3
Hồi tuần trước, Meta vừa chính thức giới thiệu thuật toán nén âm thanh sử dụng trí tuệ nhân tạo mang tên EnCodec với hứa hẹn sở hữu hiệu năng gấp 10 lần so với MP3. EnCodec theo đó có thể nén âm thanh ở chất lượng 64kbps mà không làm ảnh hưởng đến chất lượng ban đầu, từ đó giúp tăng cường khả năng truyền tải với các kết nối băng thông thấp, ví dụ như gọi điện thoại hoặc dùng mạng ở những khu vực sóng yếu. Công nghệ này cũng có thể được áp dụng để nén nhạc.

Thuật toán EnCodec được Meta trình làng vào ngày 25/10 vừa qua trong dự án nghiên cứu nén âm thanh chất lượng cao "High Fidelity Neural Audio Compression" của các chuyên viên lĩnh vực AI của Meta gồm Alexandre Défossez, Jade Copet, Gabriel Synnaeve và Yossi Adi. Meta cũng đăng riêng một bài blog để giới thiệu kỹ hơn về EnCodec.

[​IMG]

Meta cho biết EnCodec là một hệ thống AI gồm 3 quy trình mã hóa (encoder), quantizer (xử lý nén) và decoder (giải mã) được huấn luyện để nén âm thanh đến một kích thước nhất định. Các bước gồm:
  1. Encoder sẽ chuyển đổi dữ liệu chưa nén thành các chuỗi dữ liệu tầng thấp (low-level structure) chuẩn bị được xử lý
  2. Quantizer sẽ nén các chuỗi dữ liệu tầng thấp để đạt được kích thước quy định, đồng thời tập trung vào các thành phần dữ liệu quan trọng nhất (dành cho quy trình giải nén về sau)
  3. Decoder sẽ giải nén dữ liệu thành tín hiệu âm thanh, xử lý hoàn toàn trong thời gian thực bằng mạng thần kinh nhân tạo (neural network) trên CPU.
tinhte-meta-encoder-3.jpg

Quảng cáo


Meta cho biết:

“Giải pháp tốt nhất dành cho nén lossy là nhận biết các thay đổi mà con người không thể cảm nhận được, ngoài ra không còn cách nào khác để tái tạo dữ liệu một cách hoàn hảo ở bitrate thấp hơn. Để thực hiện điều này, chúng tôi sử dụng các bộ lọc để phân biệt sự khác nhau trong các bản mẫu, cho phép AI học hỏi và phân biệt chính xác giữa các mẫu thật và mẫu đã được tái tạo lại. Thuật toán sẽ tạo ra các mẫu giả để đánh lừa bộ lọc từ đó càng giúp AI có thêm kiến thức để phân biệt chính xác hơn giữa các mẫu thật và mẫu đã được tái tạo”.

tinhte-meta-encoder-4.jpg

Thuật toán ứng dụng mạng lưới thần kinh nhân tạo để nén và giải nén âm thanh nói chung không phải là quá mới mẻ, tuy nhiên nhóm nghiên cứu của Meta cho rằng họ là những người đầu tiên áp dụng công nghệ này cho âm thanh stereo 48kHz (cao hơn một chút so với chất lượng CD là 44.1 kHz), cũng là chất lượng đại trà hiện nay trên các dịch vụ stream nhạc.

Về mặt ứng dụng thực tế, Meta nói thuật toán “siêu nén âm thanh” bằng trí tuệ nhân tạo của mình sẽ giúp người dùng có được cuộc gọi trơn tru hơn ở những khu vực sóng yếu. Thêm vào đó, Meta còn cho biết EnCoder sẽ được ứng dụng sớm nhất vào Metaverse nhằm “cải thiện hơn nữa trải nghiệm đa phương tiện của người dùng mà không cần tiêu tốn quá nhiều băng thông”.

EnCoder hiện vẫn đang trong giai đoạn nghiên cứu.

Nguồn arstechnica
24 bình luận
Chắc chỉ xài cho Fb thôi nhỉ ?
Thành giọng chi GG thì hài.
thành âm thanh mono kiểu midi hồi xưa à
EnCoder hiện vẫn đang trong giai đoạn nghiên cứu... Đọc tới cuối bài nhìn câu này thì té luôn. =))
Mấy thằng NPC nó lại tạo được cái vũ trụ ảo giả lập tên Meta mấy anh ơi - Chương trình giả lập chúng ta gọi là vũ trụ cho hay 🤣
Gif
TÍCH CỰC
một tháng
Tuyệt vời, nén tín hiệu nhỏ hơn gửi về máy chủ FB nhanh hơn dễ ăn cắp dữ liệu hơn rồi
Có gì hay, hiện tại băng thông đủ cho người dùng nghe nhạc chất lượng cao rồi, cực chẳng đã khi internet còn chậm tìm cách nén ít nét nhiều cho tiệp tin âm thanh nhỏ lại dễ tiếp cận người dùng
@Phamchien93 Nhìn rộng ra chút bạn. Một công nghệ mới được nghiên cứu ra đâu chỉ dùng cho 1 mục đích. Ví dụ cloud gaming giờ vẫn đang khát băng thông nên hình ảnh và âm thanh càng nén nhỏ được càng tốt. Hoặc việc truyền dữ liệu qua lại trong không gian với tàu thăm dò, càng nén nhỏ càng tốt. Hoặc trong quán cafe trước đây 30 người cùng nghe nhạc là nghẽn thì bây giờ nén nhỏ hơn nên 40 người vẫn mượt….
@Phamchien93 Đúng là non. Người dùng nó quan tâm làm gì, toàn đem ra để nói nghe cho mượt thôi. Nó làm để tốt cho nó chứ ai.
Hiện tại đống nhạc của em 30GB, em muốn làm cái web nghe nhạc cho mọi người, thế là đi thuê cái host 30GB, nhưng nếu có cái thuật toán trên thì em chỉ cần đi thuê cái 3GB (lấy con số 10x nó quảng cáo, chất lượng nhạc tạm bỏ qua đi, đọc để so sánh thôi), tiết kiệm được bao tiền, mà tiết kiệm tiền lưu trữ (storage) thì là tiết kiệm 1 thôi, cái 10 là tiết kiệm băng thông (bandwidth) cho bản thân kìa.
Khi người dùng nghe nhạc, người dùng tốn dung lượng đã đành, nhưng cái thằng cung cấp kho nhạc nó cũng tốn kìa, giờ kho nhạc như cũ, mục tiêu em thu phí để phục vụ 10 người (cứ coi như 1 tháng là người dùng nghe là hết sạch kho nhạc của em đi), thế nên em phải cần mua cái host có bandwidth 300GB, nhưng được nén lại thì chỉ cần mua loại 30GB thôi.
Thế nên chỉ là cá nhân thôi nha, bác thử check giá hosting 30GB bộ nhớ, 300GB băng thông với, 3GB bộ nhớ, 30GB băng thông xem giá nó thế nào. Mặc dù tầm mức độ cá nhân thì cái phần băng thông hay được unlimited lắm, nhưng nêu con số cho bác thấy rõ ràng tình hình.
Mấy dịch vụ to đùng kiểu toàn cầu như spotify, AM,...thì càng cần đó bác, chẳng cần tới 10 lần đâu, mấy cái thể loại to đùng, 0.1 thôi cũng thấy khối tiền trong đó rồi.
@bibinguyen Chuẩn rồi, tiền thuê lưu trữ thì rẻ thối so với tiền thuê băng thông. Nếu nén tốt hơn 1 chút thôi thì tính trên quy mô lớn đã tiết kiệm được khối tiền. Đấy là chưa kể hạn chế được bị giật lag nếu kết nối không ổn định. Trước mắt các dịch vụ stream, video call sẽ được hưởng lợi
Ng dùng thông tin chẳng ai dám xài đồ của Mark xoăn 😁
@dấu-tên-nhưng-sinh-năm-1981 Công nghệ của anh tốt nhưng ai biết được anh có tiện thể “nén” luôn cái gì vào để theo dõi người dùng hay ko ^^
@dualshoсk Căng nhỉ
Tất cả có vẻ ổn cho đến khi đọc câu cuối
Ô facebook này theo dõi kinh hồn luôn! 😃
@thuongnb Lướt fb đang suy nghĩ tối nay ăn gì thì tự nhiên đập quảng cáo đồ ăn vào mặt luôn. 😃
rồi hardware để encode decode đâu? RTX 4090 hả? hay là apple M1 ultra?
Cứ thấy dính đến FB là nhiều con giời auto chê, đọc riết thấy bó tay luôn. Trong khi đây là công bố paper khoa học nếu ổn thì có nhiều tiềm năng ứng dụng trong tương lai
Vẫn thua Google lyra nha chủ thớt
64kps vẫn ko rõ lắm nha. phải 128kps mới đảm bảo nghe chi tiết cuộc gọi
@baden009 Tìm hiểu về Opus và Lyra sẽ biết rõ thêm vì cái này chuyên về giọng nói https://opensource.googleblog.com/2022/09/lyra-v2-a-better-faster-and-more-versatile-speech-codec.html?m=1
“cải thiện hơn nữa trải nghiệm đa phương tiện của người dùng mà không cần tiêu tốn quá nhiều băng thông”

=> Cải thiện được băng thông đồng nghĩa với mất nhiều năng lượng hơn để giải mã cái đống "nén" này.
Khôn như mày :D
@khitamdao nhưng từ 64kps nén còn tầm 7kps và công nghệ chip sau này thì sẽ chẳng tốn nhiều năng lượng lắm đâu bác. con chip của Apple đã chứng tỏ hiệu năng chip sau này ngày càng phát triển
Mình thử cài lên máy và encode thử vài bài hát. Code viết bằng python nhưng encode và decode cũng khá nhanh. Dung lượng file khoảng 1MB nhưng chất âm kém quá, thua xa định dạng opus hoặc ogg.








  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2022 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02862713156
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019