Vào ngày 6 tháng 1 năm 2026, NVIDIA đã chính thức phát hành một mô hình phiên âm tiếng Anh mới mang tên Nemotron Speech ASR – được thiết kế từ đầu để phục vụ các trường hợp sử dụng cần độ trễ cực thấp như trợ lý giọng nói thời gian thực và chú thích trực tiếp (live captioning) cho video hay hội nghị trực tuyến.
Nemotron Speech ASR là một mô hình Automatic Speech Recognition (ASR) với khoảng 600 triệu tham số, sử dụng kiến trúc FastConformer có hỗ trợ bộ nhớ đệm (cache-aware) kết hợp với bộ giải mã RNNT nhằm tối ưu hóa hiệu quả cho các luồng âm thanh trực tiếp cũng như xử lý theo lô trên GPU hiện đại của NVIDIA.
Thiết kế và kiến trúc mô hình
Khác với những mô hình ASR truyền thống dựa trên cửa sổ trượt có chồng chéo, Nemotron Speech ASR lưu trữ trạng thái của bộ mã hóa (encoder) ở tất cả các lớp self-attention và convolution để tái sử dụng thay vì phải tính toán lại các phần âm thanh đã xử lý trước đó. Điều này đem lại những lợi ích rõ rệt:
-
Hệ thống xử lý từng khung âm thanh một lần duy nhất, giúp độ trễ được kiểm soát tốt hơn.
-
Dung lượng bộ nhớ tăng theo độ dài chuỗi âm thanh, thay vì tăng theo số lượng luồng đồng thời.
-
Độ trễ ổn định ngay cả khi hệ thống phải xử lý nhiều luồng song song – điều rất quan trọng với trợ lý giọng nói và các ứng dụng trực tiếp.
Độ trễ và độ chính xác
Mô hình được thiết lập với nhiều cấu hình “chunk” khác nhau – tương ứng với khoảng 80 ms, 160 ms, 560 ms và 1.12 giây – cho phép các nhà phát triển điều chỉnh độ trễ và độ chính xác ngay tại thời điểm suy luận mà không cần đào tạo lại mô hình. Khi thử nghiệm trên các bộ dữ liệu chuẩn như AMI, Gigaspeech hay LibriSpeech, Nemotron Speech ASR đạt tỷ lệ lỗi từ ~7.84% đến ~7.16% tùy vào kích thước chunk, thể hiện khả năng giữ được độ chính xác cao ngay cả ở cấu hình độ trễ thấp hơn.
Khả năng xử lý đồng thời và tích hợp hệ sinh thái
Trên các GPU dòng cao cấp như NVIDIA H100, mô hình có thể hỗ trợ tới ~560 luồng song song ở cấu hình ~320 ms, gấp 3 lần so với những hệ thống streaming ASR truyền thống. Việc duy trì độ trễ ổn định ngay cả trong môi trường nhiều luồng là yếu tố đặc biệt quan trọng để trợ lý giọng nói và các ứng dụng hội thoại đa người hoạt động trơn tru.
Nemotron Speech ASR cũng được thiết kế để dễ dàng tích hợp với các phần khác trong hệ sinh thái mở của NVIDIA, như Nemotron 3 Nano 30B và mô hình Magpie TTS, nhằm xây dựng các đường dẫn xử lý thoại đầy đủ – từ giọng nói sang văn bản, xử lý ngôn ngữ cho tới tổng hợp giọng nói đầu ra – với tổng độ trễ từ giọng nói này sang giọng nói khác chỉ khoảng 500 ms trong các thử nghiệm thực tế.
Mở nguồn và cấp phép
Điểm đáng chú ý là Nemotron Speech ASR được phát hành dưới dạng checkpoint của NeMo với giấy phép NVIDIA Permissive Open Model License, kèm theo trọng số mô hình, chi tiết huấn luyện và mã thực thi. Điều này cho phép các nhóm phát triển tự lưu trữ, tinh chỉnh và triển khai mô hình cho các sản phẩm thoại tùy biến mà không phụ thuộc vào dịch vụ đám mây.
Kết luận
Việc NVIDIA trình làng Nemotron Speech ASR đánh dấu một bước tiến mới trong lĩnh vực nhận dạng giọng nói thời gian thực khi kết hợp hiệu năng xử lý thấp, khả năng mở rộng cao và tính mở nguồn – mở đường cho các ứng dụng trợ lý giọng nói, hội thoại AI, chú thích trực tiếp và nhiều sản phẩm thoại thông minh khác trong tương lai.

Nhận xét
Đăng nhận xét