Mistral AI ra mắt Voxtral Transcribe 2 – Hệ thống nhận dạng giọng nói đa ngôn ngữ với tính năng phân tách người nói và nhận dạng thời gian thực mở
Mistral AI, công ty AI có trụ sở tại Pháp, vừa công bố Voxtral Transcribe 2 , một dòng mô hình nhận dạng giọng nói (ASR – Automatic Speech Recognition ) thế hệ mới được thiết kế để đáp ứng nhu cầu sản xuất ở quy mô lớn với hiệu suất cao, hỗ trợ đa ngôn ngữ và tối ưu hóa cho cả xử lý hàng loạt ( batch ) lẫn nhận dạng thời gian thực ( realtime ). Voxtral Transcribe 2 gồm hai mô hình chính, mỗi mô hình hướng đến một loại trường hợp sử dụng cụ thể nhưng đều tập trung vào chi phí thấp, độ trễ thấp và độ chính xác cao. ⭐️ 1. Voxtral Mini Transcribe V2 – Xử lý hàng loạt với phân tách người nói Voxtral Mini Transcribe V2 là mô hình batch được thiết kế để xử lý các đoạn âm thanh dài (lên đến 3 giờ trong một yêu cầu), đặc biệt phù hợp cho các bài ghi âm cuộc họp, phỏng vấn hoặc dữ liệu âm thanh lớn. Mô hình này nổi bật với các tính năng sau: Độ chính xác cao: đạt tỉ lệ lỗi từ (WER) khoảng 4 % trên tập đánh giá đa ngôn ngữ, cho độ chính xác cạnh tranh với các mô hình hàng đầu như GP...