Zalo AI và Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) chính thức giới thiệu phiên bản mới của VMLU (Vietnamese Multitask Language Understanding) – bộ tiêu chuẩn đánh giá năng lực tiếng Việt của các mô hình ngôn ngữ lớn (LLM).

Những ý chính:

  • Zalo AI và Viện JAIST giới thiệu phiên bản mới của bộ tiêu chuẩn VMLU (Vietnamese Multitask Language Understanding).
  • VMLU là bộ tiêu chuẩn “Make in Vietnam” tiên phong, được giới thiệu lần đầu vào năm 2023.
  • Bộ tiêu chuẩn mới đo lường khả năng suy luận và tương tác của LLM trong ngữ cảnh thực tế, thúc đẩy LLM tạo ra giá trị hữu ích cho người dùng cuối.

Động thái này nhằm tiếp tục thúc đẩy cộng đồng AI Việt Nam hoàn thiện các mô hình LLM bậc cao, hướng tới mục tiêu xây dựng AI có chủ quyền cho Việt Nam.

Được giới thiệu lần đầu tiên vào năm 2023, VMLU đã trở thành bộ tiêu chuẩn “Make in Vietnam” tiên phong, tạo động lực cho nhiều nhóm nghiên cứu trong nước cải tiến chất lượng của LLM tiếng Việt.

Theo thống kê, trong năm 2024, VMLU đã công bố 45 LLM trên bảng xếp hạng, tiếp nhận yêu cầu đánh giá của hơn 155 tổ chức & cá nhân, tổng kết 691 lượt tải bộ tiêu chuẩn đánh giá và 3.729 lượt đánh giá LLM từ nền tảng. Bộ tiêu chuẩn được nhiều tổ chức trong và ngoài nước sử dụng như VinBigData, VNPT AI, Viettel Solutions, Trường ĐH Bách Khoa – ĐHQG TP.HCM, UONLP x Ontocord – Trường ĐH Oregon (Hoa Kỳ), DAMO Academy – Alibaba Group, SDSRV teams – Samsung…   

Zalo AI và Viện JAIST công bố bộ tiêu chuẩn VMLU 2025, đánh giá kỹ năng suy luận và tương tác của LLM

Trong bối cảnh các mô hình AI ngày càng trở nên thông minh, phiên bản VMLU được nâng cấp để đánh giá sâu hơn những năng lực phức tạp. Cụ thể, bộ tiêu chuẩn mở rộng đánh giá 03 kỹ năng cốt lõi của một LLM hiện đại, bao gồm:

  1. Đọc hiểu (ViSQuAD): 3.310 câu hỏi đánh giá khả năng hiểu sâu văn bản, xử lý các câu hỏi phức tạp dựa trên đặc thù ngôn ngữ và ngữ cảnh tiếng Việt.
  2. Suy luận (ViDrop): 3.090 câu hỏi thách thức khả năng suy luận logic của LLM qua các tác vụ như so sánh, đếm, và tính toán số học.
  3. Tương tác (ViDialog): 210 hội thoại đánh giá sự mạch lạc, khả năng hiểu ngữ cảnh và vận dụng kiến thức đa lĩnh vực (lịch sử, địa lý, logic) trong đối thoại.

Điểm nổi bật của bộ tiêu chuẩn mới là phương pháp đánh giá tiên tiến, kết hợp đa dạng hình thức từ trắc nghiệm, câu hỏi mở đến yêu cầu suy luận từng bước. Đặc biệt, VMLU áp dụng phương pháp “LLM as a judge” (dùng LLM để đánh giá LLM) – một xu hướng đang được cộng đồng AI toàn cầu áp dụng để có kết quả khách quan và quy mô hơn.

Với 10.880 câu hỏi trắc nghiệm, thuộc 58 chủ đề, được chia theo nhiều cấp độ, phiên bản 2023 đã tập trung vào đánh giá kiến thức nền tảng của LLM. Trong khi đó, bộ tiêu chuẩn mới tiến một bước xa hơn, đo lường khả năng suy luận và tương tác của LLM trong những ngữ cảnh thực tế. Sự nâng cấp này không chỉ giúp các nhà phát triển đánh giá mô hình toàn diện hơn mà còn thúc đẩy LLM tạo ra những giá trị hữu ích cho người dùng cuối.

Zalo AI và Viện JAIST công bố bộ tiêu chuẩn VMLU 2025, đánh giá kỹ năng suy luận và tương tác của LLM

“Thế giới hiện có hàng trăm bộ tiêu chuẩn khác nhau để đánh giá năng lực của các mô hình ngôn ngữ lớn. Tuy nhiên, số lượng các bộ tiêu chuẩn đánh giá phục vụ riêng cho tiếng Việt lại rất hạn chế. Với việc ra mắt các bộ tiêu chuẩn vào năm 2023 và 2025, chúng tôi mong muốn đa dạng hóa các phương diện đánh giá” TS. Châu Thành Đức, Giám đốc Nghiên cứu & Phát triển Trí tuệ nhân tạo tại Zalo AI cho biết.

Hiện bộ tiêu chuẩn mới đã được ra mắt trên website VMLU https://vmlu.ai/ để các cá nhân, và nhóm nghiên cứu thực hiện đánh giá mô hình của mình.

Zalo AI và Viện JAIST công bố bộ tiêu chuẩn VMLU 2025, đánh giá kỹ năng suy luận và tương tác của LLM

Với sự hợp tác của các chuyên gia đầu ngành tại Zalo AI và Viện JAIST, VMLU sẽ tiếp tục nghiên cứu xây dựng các bộ tiêu chuẩn đánh giá đa dạng hơn về lĩnh vực cũng như độ khó. Trong tương lai, VMLU cũng hướng tới phát triển các bộ tiêu chuẩn đánh giá tính an toàn và trung thực, đảm bảo các mô hình LLM được phát triển một cách có trách nhiệm. 

Với quyết tâm của Đảng và Chính phủ trong việc định hình và thúc đẩy kỷ nguyên phát triển công nghệ của đất nước, thể hiện thông qua Nghị quyết 57-NQ/TW về Đột phá phát triển Khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia và Nghị định 147/2024/NĐ-CP về Kiến tạo không gian mạng xã hội minh bạch, an toàn, trách nhiệm, sự đồng hành cùng cộng đồng AI cho thấy nỗ lực của Zalo AI trong việc thúc đẩy người Việt làm chủ công nghệ tiên tiến.

Qua đó tạo nền tảng phát triển các sản phẩm AI của người Việt để phục vụ chính người dùng Việt, đóng góp vào công cuộc chuyển đổi số, kinh tế số và xã hội số tại Việt Nam.                     

Góc quảng cáo