Microsoft ra mắt VibeVoice-ASR — mô hình chuyển giọng nói thành văn bản tích hợp xử lý cả file âm thanh dài đến 60 phút chỉ trong một bước
Microsoft vừa giới thiệu VibeVoice-ASR, một mô hình chuyển giọng nói sang văn bản thống nhất (ASR – Automatic Speech Recognition) có khả năng xử lý đoạn âm thanh dài đến 60 phút trong một lần duy nhất thay vì cắt nhỏ thành nhiều đoạn rồi ghép lại như trước đây. Điều này đánh dấu một bước tiến lớn trong công nghệ nhận dạng giọng nói, đặc biệt hữu ích cho các ứng dụng như phiên âm họp hội nghị, bài giảng hoặc các cuộc gọi dài.
VibeVoice-ASR là một phần trong hệ sinh thái VibeVoice mà Microsoft phát triển dưới dạng mã nguồn mở và cấp phép theo MIT License. Hệ thống này được thiết kế để không chỉ nhận dạng nội dung lời nói, mà còn duy trì bối cảnh toàn cục của file âm thanh trong một phiên làm việc dài, giúp mô hình theo sát nội dung và người nói xuyên suốt cả đoạn ghi âm. Đây là điểm khác biệt so với các hệ thống ASR truyền thống thường phải chia nhỏ âm thanh rồi gộp kết quả lại.
Một trong những điểm nổi bật của VibeVoice-ASR là khả năng xử lý toàn bộ file âm thanh dài lên đến 60 phút trong một lần “single pass” nhờ sử dụng ngưỡng 64K token cho ngữ cảnh liên tục. Vì vậy, mô hình có thể duy trì thông tin về người nói, chủ đề và thứ tự ngữ cảnh xuyên suốt nội dung, giúp tăng độ chính xác ghi chép ở các phân đoạn dài. Với kiến trúc này, việc phát hiện ra ai đang nói, khi nào họ nói và nói gì trở nên dễ dàng hơn so với các pipeline phân tách âm thanh truyền thống.
VibeVoice-ASR còn hỗ trợ các tính năng nâng cao như:
-
Chuẩn hoá thuật ngữ tùy chỉnh (Customized Hotwords) — người dùng có thể thêm các từ khóa riêng (chẳng hạn tên sản phẩm, thuật ngữ chuyên ngành…) để cải thiện độ nhận dạng mà không phải huấn luyện lại mô hình, giúp hạn chế sai sót khi xử lý các nội dung chuyên sâu.
-
Kết quả phiên âm có cấu trúc — đầu ra không chỉ là văn bản mà còn bao gồm thông tin người nói (Who), mốc thời gian (When) và nội dung (What), phù hợp để tích hợp vào các công cụ tổng hợp tóm tắt, phân tích hội thoại, hoặc hệ thống quản lý nội dung.
Đặc biệt, VibeVoice-ASR thực hiện cả ba nhiệm vụ: nhận dạng giọng nói (ASR), phân biệt người nói (diarization) và đánh dấu thời gian (timestamping) ngay trong một bước chạy duy nhất. Điều này đơn giản hóa toàn bộ pipeline xử lý âm thanh dài, loại bỏ nhu cầu ghép nhiều kết quả con lại với nhau hoặc chỉnh sửa thủ công nhờ các mô-đun rời rạc như trước.
Với những tính năng này, VibeVoice-ASR hứa hẹn sẽ là một công cụ mạnh mẽ cho các nhà phát triển, doanh nghiệp và nhà nghiên cứu trong nhiều lĩnh vực như phiên âm hội thảo, tổng hợp nội dung media, trợ lý ảo, và bất kỳ nơi nào cần biến đổi âm thanh thành dữ liệu văn bản có cấu trúc một cách chính xác và hiệu quả.

Nhận xét
Đăng nhận xét