AI Agent 24h

Bài đăng

Hiển thị các bài đăng có nhãn Voice AI

Mistral AI ra mắt Voxtral Transcribe 2 – Hệ thống nhận dạng giọng nói đa ngôn ngữ với tính năng phân tách người nói và nhận dạng thời gian thực mở

Mistral AI, công ty AI có trụ sở tại Pháp, vừa công bố Voxtral Transcribe 2 , một dòng mô hình nhận dạng giọng nói (ASR – Automatic Speech Recognition ) thế hệ mới được thiết kế để đáp ứng nhu cầu sản xuất ở quy mô lớn với hiệu suất cao, hỗ trợ đa ngôn ngữ và tối ưu hóa cho cả xử lý hàng loạt ( batch ) lẫn nhận dạng thời gian thực ( realtime ). Voxtral Transcribe 2 gồm hai mô hình chính, mỗi mô hình hướng đến một loại trường hợp sử dụng cụ thể nhưng đều tập trung vào chi phí thấp, độ trễ thấp và độ chính xác cao. ⭐️ 1. Voxtral Mini Transcribe V2 – Xử lý hàng loạt với phân tách người nói Voxtral Mini Transcribe V2 là mô hình batch được thiết kế để xử lý các đoạn âm thanh dài (lên đến 3 giờ trong một yêu cầu), đặc biệt phù hợp cho các bài ghi âm cuộc họp, phỏng vấn hoặc dữ liệu âm thanh lớn. Mô hình này nổi bật với các tính năng sau: Độ chính xác cao: đạt tỉ lệ lỗi từ (WER) khoảng 4 % trên tập đánh giá đa ngôn ngữ, cho độ chính xác cạnh tranh với các mô hình hàng đầu như GP...

Qwen3-TTS – Giải pháp TTS đa ngôn ngữ mở, độ trễ cực thấp và kiểm soát giọng nói tinh vi

Gần đây, nhóm nghiên cứu Qwen của Alibaba Cloud đã chính thức phát hành Qwen3-TTS , một bộ mô hình chuyển văn bản thành giọng nói ( Text-to-Speech – TTS ) đa ngôn ngữ mã nguồn mở với khả năng độ trễ cực thấp theo thời gian thực và kiểm soát giọng nói tinh vi , mở ra một kỷ nguyên mới cho ứng dụng AI giọng nói trong nhiều lĩnh vực. 🌐 1. Một bộ TTS toàn diện cho nhiều tác vụ Qwen3-TTS được thiết kế như một bộ giải pháp TTS thống nhất, hỗ trợ ba tác vụ chính : Tạo giọng nói chất lượng cao từ văn bản (High quality speech generation). Nhân bản giọng nói nhanh (voice cloning) chỉ với vài giây mẫu âm thanh. Thiết kế giọng nói theo mô tả tự nhiên (voice design) – cho phép tạo giọng mới chỉ bằng cách mô tả bằng ngôn ngữ. Bộ này bao gồm nhiều biến thể mô hình khác nhau như Base, CustomVoice và VoiceDesign, cùng bộ mã hóa âm thanh Qwen3-TTS-Tokenizer-12Hz . 🗣️ 2. Hỗ trợ đa ngôn ngữ và giọng nói đa dạng Qwen3-TTS hoạt động trên 10 ngôn ngữ phổ biến bao gồm tiếng Trung...

Microsoft ra mắt VibeVoice-ASR — mô hình chuyển giọng nói thành văn bản tích hợp xử lý cả file âm thanh dài đến 60 phút chỉ trong một bước

Microsoft vừa giới thiệu VibeVoice-ASR , một mô hình chuyển giọng nói sang văn bản thống nhất (ASR – Automatic Speech Recognition) có khả năng xử lý đoạn âm thanh dài đến 60 phút trong một lần duy nhất thay vì cắt nhỏ thành nhiều đoạn rồi ghép lại như trước đây. Điều này đánh dấu một bước tiến lớn trong công nghệ nhận dạng giọng nói, đặc biệt hữu ích cho các ứng dụng như phiên âm họp hội nghị, bài giảng hoặc các cuộc gọi dài. VibeVoice-ASR là một phần trong hệ sinh thái VibeVoice mà Microsoft phát triển dưới dạng mã nguồn mở và cấp phép theo MIT License . Hệ thống này được thiết kế để không chỉ nhận dạng nội dung lời nói, mà còn duy trì bối cảnh toàn cục của file âm thanh trong một phiên làm việc dài, giúp mô hình theo sát nội dung và người nói xuyên suốt cả đoạn ghi âm. Đây là điểm khác biệt so với các hệ thống ASR truyền thống thường phải chia nhỏ âm thanh rồi gộp kết quả lại. Một trong những điểm nổi bật của VibeVoice-ASR là khả năng xử lý toàn bộ file âm thanh dài lên đến...

NVIDIA ra mắt mô hình phiên âm mở nguồn Nemotron Speech ASR tối ưu cho tác vụ độ trễ thấp

Vào ngày 6 tháng 1 năm 2026 , NVIDIA đã chính thức phát hành một mô hình phiên âm tiếng Anh mới mang tên Nemotron Speech ASR – được thiết kế từ đầu để phục vụ các trường hợp sử dụng cần độ trễ cực thấp như trợ lý giọng nói thời gian thực và chú thích trực tiếp (live captioning) cho video hay hội nghị trực tuyến. Nemotron Speech ASR là một mô hình Automatic Speech Recognition (ASR) với khoảng 600 triệu tham số , sử dụng kiến trúc FastConformer có hỗ trợ bộ nhớ đệm (cache-aware) kết hợp với bộ giải mã RNNT nhằm tối ưu hóa hiệu quả cho các luồng âm thanh trực tiếp cũng như xử lý theo lô trên GPU hiện đại của NVIDIA. Thiết kế và kiến trúc mô hình Khác với những mô hình ASR truyền thống dựa trên cửa sổ trượt có chồng chéo , Nemotron Speech ASR lưu trữ trạng thái của bộ mã hóa (encoder) ở tất cả các lớp self-attention và convolution để tái sử dụng thay vì phải tính toán lại các phần âm thanh đã xử lý trước đó. Điều này đem lại những lợi ích rõ rệt: Hệ thống xử lý từng khung âm tha...

Microsoft ra mắt VibeVoice-Realtime: mô hình chuyển văn bản thành giọng nói thời gian thực siêu nhẹ, hỗ trợ nhập liệu theo luồng và phát âm dài hạn

Microsoft vừa công bố VibeVoice-Realtime-0.5B , một mô hình chuyển văn bản thành giọng nói (Text-to-Speech – TTS) mới, nhắm đến các ứng dụng cần phản hồi âm thanh ngay lập tức như trợ lý ảo, tác nhân tương tác trực tiếp và trình bày dữ liệu trực tiếp. 🌐 Tổng quan về VibeVoice-Realtime VibeVoice-Realtime-0.5B là phiên bản siêu nhẹ (0.5 tỷ tham số) của dòng VibeVoice do Microsoft phát triển, với điểm nổi bật chính là tốc độ phản hồi cực nhanh — mô hình có thể bắt đầu phát âm thanh trong khoảng 300 ms sau khi nhận đầu vào văn bản , giúp trải nghiệm tương tác nghe-nói trở nên tự nhiên hơn rất nhiều so với các hệ thống TTS truyền thống vốn cần đợi tới khi văn bản hoàn chỉnh mới bắt đầu tổng hợp âm thanh. Mô hình hiện hỗ trợ nhập liệu văn bản theo luồng (streaming text input) và có thể tổng hợp giọng nói liên tục tới khoảng 10 phút cho mỗi phiên làm việc — đủ để sử dụng cho hầu hết các ứng dụng trợ lý ảo, đọc tin tức, hoặc giải thích dài hạn. 🔍 Điểm mới trong kiến trúc VibeV...