Mô hình ngôn ngữ lớn tiếng Việt với 120 tỷ tham số

4/6

103

Mô hình ngôn ngữ lớn tiếng Việt với 120 tỷ tham số

Mô hình VT-Super-120B-A12B do kỹ sư Viettel huấn luyện dựa trên kiến trúc của Nvidia, hướng tới tạo ra các AI hiểu sâu ngôn ngữ Việt Nam.

Ngày 4/6, Trung tâm dịch vụ dữ liệu và trí tuệ nhân tạo Viettel (Viettel AI) cho biết VT-Super-120B-A12B "do đội ngũ kỹ sư Việt trực tiếp huấn luyện, tinh chỉnh và tối ưu cho tiếng Việt".

Mô hình được xây dựng trên kiến trúc mở Nvidia Nemotron 3 Super, với quy mô 120 tỷ tham số. Theo đại diện Trung tâm, nhờ khả năng xử lý ngữ cảnh dài của kiến trúc Nvidia Nemotron, VT-Super-120B-A12B có thể duy trì mạch thông tin xuyên suốt giữa nhiều tài liệu, quy trình và hội thoại phức tạp trong cùng một tác vụ.

Trong các mô hình ngôn ngữ lớn, "tham số" (parameter) để chỉ các giá trị mà mô hình học được trong quá trình huấn luyện nhằm nhận diện quy luật trong dữ liệu, từ đó đưa ra dự đoán hoặc phản hồi. Tham số càng cao tức quy mô của mô hình càng lớn, có khả năng biểu diễn những mối quan hệ phức tạp, nhưng đồng thời cũng đòi hỏi nhiều dữ liệu, năng lực tính toán và chi phí vận hành hơn. Mô hình của Việt Nam thường từ vài tỷ đến vài chục tỷ tham số, trong khi các mô hình tiên tiến nhất của OpenAI, Google có thể có hàng nghìn tỷ tham số.

Tuy nhiên, lượng tham số lớn không đồng nghĩa chất lượng luôn tốt hơn, bởi hiệu quả còn phụ thuộc vào dữ liệu huấn luyện, kiến trúc mô hình và cách tối ưu. Trong bảng xếp hạng đánh giá năng lực VLMU, một bản tinh chỉnh dựa trên VT-Super-120B-A12B hiện đạt điểm số trung bình 85,47, đứng thứ ba trong số các mô hình tại Việt Nam, trong đó mạnh nhất ở phần xếp hạng về STEM với hơn 89 điểm.

Viettel AI cho biết qua các bài kiểm tra, mô hình của họ đạt hiệu suất "trong nhóm dẫn đầu" về độ chính xác so với các mô hình cùng quy mô. "Đây là kết quả huấn luyện trên dữ liệu bản địa và tối ưu cho các bài toán nghiệp vụ trong nước", đại diện Trung tâm nói.

Mô hình này được đánh giá đã tăng cường năng lực xử lý tiếng Việt mà không làm suy giảm hiệu năng tiếng Anh của mô hình gốc, đồng thời hạn chế hiện tượng quên kiến thức cũ, vấn đề thường gặp trong quá trình huấn luyện và tinh chỉnh. Theo nhà phát triển, việc này quan trọng với các bài toán đặc thù tại Việt Nam, nơi nhiều quy định và quy trình có thể thay đổi tùy theo loại hồ sơ, hoặc bối cảnh thực thi cụ thể.

Viettel AI cũng cho biết đang xây dựng quy trình huấn luyện LLM dựa trên các nguồn dữ liệu mang tính bản địa như dữ liệu hành chính, nghiệp vụ doanh nghiệp, hội thoại thực tế và hệ thống văn bản chuyên ngành tại Việt Nam. Quá trình này bao gồm nhiều giai đoạn, như tiếp tục tiền huấn luyện (continued pre-training) mở rộng năng lực ngôn ngữ và tri thức tiếng Việt trên kho dữ liệu quy mô lớn; tinh chỉnh có giám sát (supervised fine-tuning) nhằm cải thiện khả năng suy luận, sau đó là học tăng cường (reinforcement learning) để nâng cao độ chính xác trong phản hồi và khả năng xử lý nghiệp vụ.

"Làm chủ LLM tiếng Việt là bước đi cốt lõi để hình thành các giải pháp AI chủ quyền có khả năng đồng hành thực sự cùng các tổ chức, doanh nghiệp Việt Nam", ông Nguyễn Mạnh Quý, Giám đốc Viettel AI, nhận định.

Bà Shilpa Kolhatkar, Giám đốc AI Nations của Nvidia, đánh giá việc phát triển mô hình ngôn ngữ lớn tiếng Việt sẽ góp phần phổ cập khả năng tiếp cận trí tuệ nhân tạo trên quy mô lớn tại Việt Nam, đồng thời chuyển hóa ngôn ngữ và dữ liệu bản địa thành những giá trị ứng dụng thực tiễn cho cơ quan chính phủ và doanh nghiệp.

Viettel AI cho biết đang phát triển nền tảng AI Agent cho người Việt với khả năng tự thực hiện chuỗi tác vụ trong cùng một không gian làm việc. Trong đó, Trợ lý AI Pháp luật là một trong những ứng dụng đầu tiên, được kỳ vọng sở hữu khả năng hỗ trợ phân tích hồ sơ, đối chiếu quy định, tổng hợp dữ liệu và đề xuất giải pháp xử lý theo bài toán cụ thể của người dùng, với chất lượng được nâng cao so với các phiên bản trước đây.

Lưu Quý