Tổng hợp thông tin AI tuần qua

ND Minh Đức
19/2/2024 2:5Phản hồi: 15
Tổng hợp thông tin AI tuần qua
Thế giới tuần qua tiếp tục đầy những thông tin cho thấy sự phát triển không ngừng với tốc độ cực cao của AI. Mời anh em điểm qua vài thông tin đáng chú ý nhé.

Công cụ AI


Google công bố Open Sources Magika: Công cụ mã nguồn mở nhận dạng tệp được hỗ trợ bởi AI.

Google có một mô hình ngôn ngữ lớn sử dụng nội bộ được gọi là "Goose" được thiết kế để giúp nhân viên làm việc hiệu quả hơn.

Meta AI giới thiệu V-JEPA (Video Joint Embedding Predictive Architecture), một phương pháp dạy máy tính hiểu và mô hình hóa thế giới vật lý bằng cách xem video. Meta AI phát hành một bộ sưu tập các mô hình thị giác V-JEPA được train với mục tiêu dự đoán tính năng sử dụng học tập tự giám sát. Các mô hình có thể hiểu và dự đoán những gì đang diễn ra trong video, ngay cả với thông tin hạn chế

Open AI giới thiệu Sora, một mô hình chuyển văn bản thành video có thể tạo video lên đến 60 giây với các cảnh có độ chi tiết cao, chuyển động camera phức tạp và nhiều nhân vật với cảm xúc sống động

Google công bố mô hình thế hệ tiếp theo của họ, Gemini 1.5, sử dụng kiến trúc Mixture-of-Experts (MoE) mới. Mô hình Gemini 1.5 đầu tiên được phát hành để thử nghiệm sớm là Gemini 1.5 Pro với cửa sổ ngữ cảnh lên đến 1 triệu token, đây là cửa sổ ngữ cảnh dài nhất so với bất kỳ mô hình nền tảng quy mô lớn nào. Phiên bản 1.5 Pro có thể thực hiện các tác vụ hiểu biết và lý luận phức tạp cho các phương thức khác nhau, bao gồm cả video và hiệu suất ở mức tương tự như 1.0 Ultra.

Reka đã giới thiệu Reka Flash, một mô hình đa phương thức và đa ngôn ngữ 21B mới được đào tạo hoàn toàn từ đầu, có thể cạnh tranh với Gemini Pro & GPT 3.5 về các tiêu chuẩn ngôn ngữ và thị giác. Reka cũng giới thiệu một biến thể nhỏ gọn gọi là Reka Edge, một mô hình nhỏ hơn và hiệu quả hơn (7B) phù hợp cho việc triển khai local và trên thiết bị. Cả hai mô hình đều đang trong giai đoạn thử nghiệm công khai và có sẵn trong Reka Playground.

Cohere For AI đã phát hành Aya, một mã nguồn mở mới, LLM & tập dữ liệu đa ngôn ngữ khổng lồ để giúp hỗ trợ các ngôn ngữ chưa được thể. Aya vượt trội hơn các mô hình nguồn mở hiện có và bao gồm 101 ngôn ngữ khác nhau - nhiều hơn gấp đôi số lượng được hỗ trợ bởi các mô hình trước đó.

BAAI đã phát hành Bunny, một họ mô hình đa phương thức nhẹ nhưng mạnh mẽ. Mô hình Bunny-3B được xây dựng dựa trên SigLIP và Phi-2 vượt trội hơn các MLLM hiện đại, không chỉ so với các mô hình có kích thước tương tự mà còn so với các MLLM lớn hơn (7B) và thậm chí đạt được hiệu suất ngang bằng với LLaVA-13B.

Amazon đã giới thiệu một mô hình chuyển văn bản thành giọng nói (TTS) được gọi là BASE TTS (Big Adaptive Streamable TTS with Emergent abilities). BASE TTS là mô hình TTS lớn nhất cho đến nay, được đào tạo với 100 nghìn giờ dữ liệu lời nói thuộc phạm vi công cộng và thể hiện những phẩm chất "rõ nét" trong việc cải thiện khả năng nói ngay cả những câu phức tạp một cách tự nhiên.

NVIDIA đã phát hành Chat with RTX, một trợ lý AI đang chạy dưới local (Windows PC với một số GPU NVIDIA cụ thể) tích hợp vào trong file hệ thống của người dùng và cho phép bạn trò chuyện với các ghi chú, tài liệu và video của mình bằng các mô hình nguồn mở.

BCG X đã phát hành AgentKit, một starter kit dựa trên LangChain (NextJS, FastAPI) để xây dựng các ứng dụng constrained agent.

Quảng cáo


Tính năng Chuyển giọng nói thành lời nói của Elevenalabs, ra mắt vào tháng 11, để chuyển đổi giọng nói với khả năng kiểm soát cảm xúc và phân phối, hiện đã hỗ trợ 29 ngôn ngữ.

Apple đã giới thiệu Keyframer, một công cụ tạo mẫu hoạt hình được hỗ trợ bởi LLM có thể tạo hoạt ảnh từ hình ảnh tĩnh (SVG). Người dùng có thể lặp lại thiết kế của họ bằng cách thêm prompt và chỉnh sửa mã hoặc thuộc tính hoạt hình CSS do LLM tạo ra.

Slack thêm tìm kiếm và tóm tắt được hỗ trợ bởi AI vào nền tảng cho các kế hoạch doanh nghiệp.

Phần cứng AI


Brilliant Labs, nhà phát triển kính AI, đã ra mắt Frame, kính đầu tiên trên thế giới có trợ lý AI tích hợp mang tên Noa. Được hỗ trợ bởi một hệ thống AI thế hệ đa phương thức tích hợp có khả năng chạy GPT4, Stability AI và mô hình Whisper AI cùng một lúc, Noa có khả năng xử lý hình ảnh trong thế giới thực, tạo hình ảnh mới, nhận dạng và dịch giọng nói theo thời gian thực.

Nvidia hé lộ thông tin công khai đầu tiên về siêu máy tính AI nhanh nhất của công ty mang tên Eos, được trang bị 4.608 GPU H100, thiết kế dành cho AI thế hệ mới.

Nghiên cứu AI

Quảng cáo


Stability AI đã phát hành Stable Cascade dưới dạng research preview, một mô hình chuyển văn bản thành hình ảnh mới đặc biệt dễ đào tạo và tinh chỉnh trên phần cứng tiêu dùng nhờ kiến trúc ba giai đoạn của nó. Stable Cascade cũng có thể tạo ra các biến thể từ một hình ảnh và tạo ảnh img to img. Ngoài việc cung cấp các checkpoint và tập lệnh suy luận, Stability AI cũng đã phát hành các scripts để tinh chỉnh, ControlNet và đào tạo LoRA.

Các nhà nghiên cứu từ UC berkeley đã phát hành Mô hình Thế giới Lớn (LWM), một mô hình tự động hồi quy đa phương thức có mục đích chung, được đào tạo từ LLaMA-2, có thể hiểu và tạo ngôn ngữ, hình ảnh và video. LWM trả lời các câu hỏi về video YouTube dài 1 giờ ngay cả khi GPT-4V và Gemini Pro đều thất bại và có thể truy xuất thông tin trong bối cảnh 1M với độ chính xác cao.

Open AI đang thử nghiệm "trí nhớ" cho ChatGPT, cho phép nó ghi nhớ những điều bạn thảo luận trên tất cả các cuộc trò chuyện. Ký ức của ChatGPT phát triển theo các tương tác của bạn và không liên quan đến các cuộc trò chuyện cụ thể. Nó đang được triển khai cho một phần nhỏ người dùng ChatGPT miễn phí và Plus trong tuần này.

Nous Research đã phát hành mô hình Nous Hermes 2 Llama-2 70B được train trên tập dữ liệu Nous Hermes 2, với hơn 1.000.000 mục nhập chủ yếu là dữ liệu tổng hợp

Perplexity hợp tác với Vercel, mở tìm kiếm AI cho các ứng dụng dành cho nhà phát triển.

Các nhà nghiên cứu chỉ ra rằng các tác nhân LLM có thể tự động hack các trang web, thực hiện các tác vụ phức tạp như trích xuất blind schema cơ sở dữ liệu và SQL injections mà không cần phản hồi của con người. Điều này có thể thực hiện mà Agent không cần phải biết lỗ hổng trước.

Dịch vụ - Thương mại AI


Trump phàn nàn rằng AI khiến hình của ông ta trông béo lên khi chơi golf.

Sau 1 hợp đồng, định giá của OpenAI chạm mốc 80 tỷ đô la.

Giám đốc điều hành Tập đoàn SoftBank Masayoshi Son đang tìm cách huy động tới 100 tỷ đô la cho một liên doanh chip sẽ cạnh tranh với Tập đoàn Nvidia.

Nvidia dự kiến sẽ công bố báo cáo hoạt động kinh doanh vào thứ Tư, được dự đoán là sẽ gây chấn động thị trường cổ phiếu.

GitHub mở các ứng dụng cho nhóm tiếp theo của chương trình GitHub Accelerator với trọng tâm là tài trợ cho mọi người và các dự án đang xây dựng các giải pháp dựa trên AI theo giấy phép nguồn mở .

Eleven Labs đã đưa ra một chương trình thanh toán cho các diễn viên lồng tiếng để kiếm phần thưởng mỗi khi bản sao giọng nói của họ được sử dụng.

Dịch vụ Azure OpenAI đã công bố Assistants API, các mô hình mới để tinh chỉnh, mô hình chuyển văn bản thành giọng nói mới và thế hệ mô hình nhúng mới với giá thấp hơn.

Open AI hợp tác với Microsoft Threat Intelligence, đã phá vỡ năm tác nhân liên kết với nhà nước đã tìm cách sử dụng các dịch vụ AI để hỗ trợ các hoạt động mạng độc hại.

FCC tuyên bố các giọng nói do AI tạo ra trong các cuộc gọi tự động không bất hợp pháp.
15 bình luận
Chia sẻ

Xu hướng

Táo nghe nổ là đag thâu tóm dần các cty AI, nhưng những thành tựu thì không có gì và có vẻ là tụt hậu khá xa so với thế giới AI
nhatdev
TÍCH CỰC
3 tháng
từ bao giờ các bài viết ở TT lại đi xuống như này...
Ifanroisao
ĐẠI BÀNG
3 tháng
@dark_knjght01 chất lượng comment cũng đi xuống hẳn, toàn mấy con bot thả bait với mấy thằng comment gây war
@Ifanroisao nói không ngoa thì tt đang là cái diễn đàn có văn hóa thấp nhất Việt Nam, thậm chí nói thẳng là vô học, từ ông admin mà xuống 😃
@dark_knjght01 bác có diễn đàn nào cho mình tham khảo với ko. lượn tt dạo này chán quá
@702didoka Ở VN thì có voz là nổi tiếng nhất rồi, biết mỗi cái đó, hầu như chủ đề nào cũng có.
ides
CAO CẤP
3 tháng
Hoa cả mắt, thế giới nó đi tới đâu rồi ta @@
ae biết công cụ AI design nào có thể vẽ lại ảnh y chang cho nét hơn ko
@wilfredalee Bạn hỏi AI đi 😆
Có một công ty vừa tự làm chip 5G lại vừa thâu tóm các cty AI để tái định nghĩa
@centernc Cty đó nghe nói đã phát triển thành công công cụ AI biến RAM 8GB thành 16 GB
Cười vô mặt
wall of text
lazy0338
ĐẠI BÀNG
3 tháng
Kinh vãi

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019