AI - Trí tuệ nhân tạo Phiên dịch giọng nói mượt mà, tự nhiên với Gemini 3.5 Live...

Phiên dịch giọng nói mượt mà, tự nhiên với Gemini 3.5 Live Translate

Người gửi:

10/06/2026

Gemini 3.5 Live Translate là mô hình âm thanh mới nhất của Google, cung cấp khả năng dịch giọng nói trực tiếp gần như tức thời trên hơn 70 ngôn ngữ, bao gồm tiếng Việt.

Những ý chính:

Google vừa ra mắt Gemini 3.5 Live Translate, mô hình âm thanh mới nhất đánh dấu bước tiến dài sau hai thập kỷ phát triển công nghệ dịch thuật của hãng.
Với khả năng chống nhiễu mạnh mẽ và xử lý đa ngôn ngữ không cần cấu hình thủ công, Gemini 3.5 Live Translate đang được triển khai trên nhiều nền tảng.
mô hình đã nhận được phản hồi rất tích cực về tốc độ và độ chính xác từ các đối tác lớn như Grab, CJ ENM và Agora. Đặc biệt, để ngăn chặn thông tin sai lệch, tất cả âm thanh do mô hình tạo ra đều được tích hợp ký hiệu mờ vô hình bằng công nghệ SynthID.

Hai mươi năm trước, dịch thuật tại Google được bắt đầu từ một trong những thử nghiệm tiên phong về học máy của Google, với mục tiêu biến khoa học ngôn ngữ thành phép màu của sự kết nối con người. Hai thập kỷ sau, thử nghiệm đó đã đạt được những bước tiến dài, với hơn một nghìn tỷ từ được dịch mỗi tháng cho hàng tỷ người dùng trên các sản phẩm của Google.

Hôm nay, Google tiếp tục tiến thêm một bước với việc ra mắt Gemini 3.5 Live Translate, mô hình âm thanh mới nhất của Google dành cho dịch thuật giọng nói trực tiếp.

Phiên dịch giọng nói mượt mà, tự nhiên với Gemini 3.5 Live Translate

Mô hình tự động nhận diện hơn 70 ngôn ngữ, bao gồm cả tiếng Việt và tạo ra giọng nói được dịch một cách mượt mà, tự nhiên, đồng thời giữ được ngữ điệu, nhịp nói và cao độ giọng của người nói. Không giống các hệ thống dịch theo từng lượt hội thoại, vốn phải chờ người nói kết thúc trước khi phản hồi, 3.5 Live Translate liên tục tạo ra bản dịch bằng giọng nói, cân bằng giữa việc chờ thêm ngữ cảnh để cải thiện chất lượng dịch và dịch ngay lập tức để duy trì sự đồng bộ với người nói.

Mô hình mang đến trải nghiệm âm thanh liền mạch, không có những khoảng ngắt quãng gượng gạo và chỉ chậm hơn người nói vài giây trong suốt cuộc trò chuyện.

Gemini 3.5 Live Translate bắt đầu được triển khai từ hôm nay trên các sản phẩm của Google:

Dành cho các nhà phát triển dưới dạng bản xem trước công khai thông qua Gemini Live API và Google AI Studio
Dành cho doanh nghiệp dưới dạng bản dùng thử riêng tư bắt đầu từ tháng này trên Google Meet
Dành cho tất cả người dùng thông qua Google Translate trên Android và iOS

Xây dựng ứng dụng với 3.5 Live Translate

Gemini 3.5 Live Translate xử lý giọng nói theo thời gian thực ngay trong quá trình truyền tải, giúp tạo nên sự kết nối liền mạch hơn giữa các ngôn ngữ. Mô hình có thể xử lý đầu vào đa ngôn ngữ mà không cần cấu hình thủ công. Đồng thời, khả năng chống nhiễu mạnh mẽ giúp các ứng dụng hoạt động hiệu quả trong những môi trường ồn ào và khó kiểm soát. Bạn có thể tận dụng những khả năng này để hỗ trợ phiên dịch trực tiếp cho các cuộc gọi, cuộc họp, lớp học và chương trình phát sóng đa ngôn ngữ, cùng nhiều tình huống khác.

Thông qua việc sử dụng Gemini Live API, các nền tảng dành cho nhà phát triển như Agora, Fishjam, LiveKit, Pipecat và Vision Agents giúp các nhà phát triển dễ dàng xây dựng và triển khai các ứng dụng dịch giọng nói. Các tích hợp này đảm nhiệm phần hạ tầng truyền tải dữ liệu đa phương tiện theo thời gian thực vốn phức tạp, cho phép các nhà phát triển tập trung vào việc xây dựng trải nghiệm người dùng.

Các đối tác của Google tại Grab đang thử nghiệm mô hình này nhằm hỗ trợ giao tiếp đa ngôn ngữ gần như theo thời gian thực giữa tài xế và hành khách tại điểm đón. Hiện mỗi tháng, tài xế và hành khách thực hiện hơn 10 triệu cuộc gọi thoại thông qua nền tảng Grab.

Những phản hồi đầu tiên

Bên cạnh Grab, các công ty như CJ ENM, LiveKit cùng nhiều đơn vị khác cũng đã chia sẻ những phản hồi tích cực về 3.5 Live Translate, trong đó nhấn mạnh chất lượng dịch thuật ấn tượng, độ chính xác cao và độ trễ thấp của mô hình này:

“Trong quá trình thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động nhận diện nhiều ngôn ngữ và dịch giọng nói một cách chính xác với độ trễ thấp của mô hình này.” – Philipp Kandal, Giám đốc Sản phẩm tại Grab

“CJ ENM rất hào hứng được hợp tác với Google DeepMind trong dự án 3.5 Live Translate. Các thử nghiệm ban đầu cho thấy chất lượng đầy hứa hẹn, góp phần mang lại trải nghiệm chân thực hơn cho khán giả toàn cầu và khán giả Hàn Quốc.” – Bella Baek, Giám đốc AI tại CJ ENM

“Gemini 3.5 Live Translate giúp việc giao tiếp bằng giọng nói giữa nhiều ngôn ngữ trở nên dễ dàng hơn bao giờ hết. Tôi đã xây dựng một bản demo trên LiveKit Agents, nơi mọi người có thể nói ngôn ngữ của riêng mình và vẫn hiểu nhau theo thời gian thực.” – Jesse Hall, Chuyên viên Hỗ trợ Nhà Phát triển tại LiveKit

“Trong quá trình làm việc với mô hình 3.5 Live Translate, chúng tôi đã thử nghiệm trên nhiều ngôn ngữ khác nhau và đội ngũ của chúng tôi thực sự ấn tượng trước tốc độ, độ chính xác và sự tự nhiên trong cách thể hiện của mô hình.” – Nash Ramdial, Giám đốc tại VisionAgents

“Gemini 3.5 Live Translate kết hợp với giao thức MoQ của Fishjam mở ra một bước tiến mới cho hoạt động truyền phát đa phương tiện theo thời gian thực, cho phép dịch trực tiếp từ giọng nói sang giọng nói trên hơn 70 ngôn ngữ.” – Maciej Rys, Phó chủ tịch kỹ thuật tại Software Mansion

“Chúng tôi đã thử nghiệm mô hình Gemini 3.5 Live Translate tại Agora và theo đánh giá của mình, mô hình đã mang lại những kết quả tiên tiến nhất hiện nay, với độ trễ thấp và độ chính xác cao, thiết lập một tiêu chuẩn mới cho dịch thuật theo thời gian thực.” – Mason Adams, Chuyên viên Phát triển Phần mềm tại Agora

Trải nghiệm 3.5 Live Translate trong các cuộc họp trực tuyến

Tính năng dịch lời nói trong Google Meet sẽ sớm được ứng dụng mô hình 3.5 Live Translate, giúp nâng cao trải nghiệm người dùng thông qua:

Hỗ trợ hơn 70 ngôn ngữ, một bước cải tiến lớn so với giới hạn chỉ 5 ngôn ngữ trước đây
Cho phép trò chuyện qua lại giữa hơn 2.000 cặp tổ hợp ngôn ngữ khác nhau ngay trong một cuộc họp, mở rộng đáng kể so với trước đây khi chỉ hỗ trợ dịch qua lại giữa tiếng Anh và các ngôn ngữ khác
Cập nhật giao diện mới giúp người dùng dễ dàng tiếp cận và sử dụng ngay tính năng dịch lời nói một cách tức thì.

Google sẽ triển khai bản cập nhật này dưới dạng Bản xem trước riêng tư (Private Preview) cho một số khách hàng doanh nghiệp của Google Workspace được lựa chọn từ tháng này, trước khi mở rộng triển khai rộng rãi hơn vào cuối năm nay.

Trải nghiệm 3.5 Live Translate trên ứng dụng Google Translate dành cho Android và iOS

Mô hình này cũng đang được triển khai trên ứng dụng Google Translate trên toàn cầu, áp dụng cho cả hệ điều hành Android và iOS. Khi sử dụng tính năng Dịch trực tiếp (Live translate), bạn chỉ cần kết nối với một cặp tai nghe bất kỳ để trải nghiệm bản dịch mượt mà hơn, đồng thời phản ánh chính xác tông giọng của người nói trên hơn 70 ngôn ngữ.

Đối với người dùng Android, Google cũng bắt đầu triển khai một “chế độ nghe” (Listening Mode) mới sử dụng 3.5 Live Translate, cho phép người dùng nghe bản dịch trực tiếp qua loa thoại của điện thoại. Chỉ cần đưa điện thoại lên tai như khi thực hiện một cuộc gọi thông thường, âm thanh đã được dịch sẽ được truyền trực tiếp đến bạn. Trải nghiệm mới này đặc biệt hữu ích trong những tình huống bạn muốn nhanh chóng nghe bản dịch mà không để người khác nghe thấy, hoặc khi không có sẵn tai nghe bên mình.

Được tích hợp ký hiệu mờ (watermark) bằng SynthID Tất cả âm thanh do các mô hình của Google tạo ra đều được gắn watermark bằng SynthID. Watermark vô hình này được tích hợp trực tiếp vào đầu ra âm thanh, giúp nội dung do AI tạo ra vẫn có thể được nhận diện, qua đó góp phần ngăn chặn thông tin sai lệch

Góc quảng cáo

Samsung Galaxy Z Fold8 Ultra 256GB Chính Hãng | Di Động Việt

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31