Theo trang tin nội bộ của FPT, tập đoàn cùng NVIDIA vừa công bố phát hành bộ dữ liệu Nemotron-Personas-Vietnam, một sáng kiến nhằm hỗ trợ cộng đồng AI xây dựng các hệ thống trí tuệ nhân tạo phản ánh tốt hơn đặc điểm nhân khẩu học, văn hóa và ngôn ngữ của người Việt.
Bộ dữ liệu được cung cấp miễn phí cho cả mục đích thương mại và phi thương mại, giúp các nhà nghiên cứu, doanh nghiệp và nhà phát triển dễ dàng tiếp cận nguồn dữ liệu chất lượng cao để phát triển các ứng dụng AI phục vụ thị trường Việt Nam cũng như khu vực Đông Nam Á.
Nemotron-Personas-Vietnam là một phần trong hệ sinh thái NVIDIA Nemotron, bao gồm các mô hình, bộ dữ liệu, tài nguyên đánh giá và thư viện NVIDIA NeMo, cho phép tùy chỉnh, đánh giá và triển khai các ứng dụng AI phù hợp với từng quốc gia và từng bối cảnh sử dụng cụ thể.
Nemotron-Personas-Vietnam.
Xây dựng AI am hiểu ngôn ngữ và văn hóa bản địa
Trong nhiều năm, phần lớn các mô hình AI được phát triển theo hướng toàn cầu, dẫn đến những hạn chế nhất định khi áp dụng vào từng quốc gia với đặc thù riêng về ngôn ngữ, văn hóa, pháp lý và dữ liệu.
Từ mục tiêu chung là thúc đẩy AI có khả năng thích ứng với từng thị trường địa phương, NVIDIA cung cấp khung mô hình mở, thư viện dữ liệu tổng hợp NeMo Data Designer và phương pháp xây dựng Nemotron-Personas. Trong khi đó, FPT đóng góp chuyên môn địa phương, năng lực nghiên cứu, phương pháp xác thực và hạ tầng công nghệ để hiện thực hóa bộ dữ liệu dành riêng cho Việt Nam.
Là NVIDIA Preferred Partner, FPT Smart Cloud tham gia dự án thông qua nhiều đơn vị chuyên môn. Đơn vị FPT cung cấp hạ tầng GPU Cloud với các thế hệ GPU NVIDIA mới nhất cùng các nền tảng suy luận AI phục vụ quá trình xây dựng và triển khai bộ dữ liệu. Viện Quantum AI & Cyber Security (QACI) tham gia nghiên cứu, xây dựng phương pháp triển khai và xác thực dữ liệu. Trong khi đó, FPT DC5 thực hiện khảo sát thực địa, đóng góp dữ liệu nguồn và hỗ trợ quy trình thu thập thông tin.
Sự kết hợp giữa năng lực công nghệ toàn cầu của NVIDIA và hiểu biết bản địa của FPT giúp tạo ra một bộ dữ liệu phản ánh sát hơn thực tế đời sống và môi trường làm việc tại Việt Nam.
900.000 hồ sơ nhân khẩu học phục vụ phát triển AI
Nemotron-Personas-Vietnam được phát triển dựa trên các số liệu thống kê chính thức mới nhất của Việt Nam về dân số, lao động và địa giới hành chính.
Bộ dữ liệu bao gồm 900.000 persona tổng hợp, mô phỏng nhiều nhóm nhân khẩu học khác nhau trong xã hội Việt Nam. Mỗi bản ghi chứa 31 trường dữ liệu, bao gồm thông tin nhân khẩu học, thuộc tính nghề nghiệp, bối cảnh sinh sống, môi trường làm việc và các trường ngữ cảnh liên quan. Cấu trúc này cho phép các nhà phát triển dễ dàng phân loại, lọc và xây dựng các mô hình AI phục vụ từng nhóm người dùng cụ thể.
Hạ tầng AI mới của FPT sử dụng CPU NVIDIA.
Bộ dữ liệu được phát hành dưới dạng mã nguồn mở trên nền tảng Hugging Face và tương thích với hệ sinh thái NVIDIA NeMo trong toàn bộ vòng đời phát triển AI, từ xây dựng dữ liệu, tinh chỉnh mô hình cho đến triển khai thực tế.
PGS.TS. Ngô Xuân Bách, Giám đốc Khối Sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security chia sẻ: “FPT tin rằng AI chủ quyền phải được xây dựng từ nền tảng dữ liệu phản ánh đúng ngôn ngữ, văn hóa và thực tế kinh tế của từng quốc gia. Nemotron-Personas-Vietnam thể hiện cam kết của chúng tôi trong việc giúp cộng đồng AI tiếp cận những nguồn lực cần thiết để xây dựng các giải pháp dành riêng cho người Việt và có khả năng mở rộng ra khu vực”.
Thúc đẩy hệ sinh thái AI chủ quyền cho Việt Nam
Trong bối cảnh nhiều quốc gia đang ưu tiên phát triển AI chủ quyền nhằm đảm bảo khả năng làm chủ dữ liệu, công nghệ và năng lực đổi mới sáng tạo, việc sở hữu các bộ dữ liệu bản địa chất lượng cao trở thành một yếu tố quan trọng.
Không chỉ tham gia phát triển dữ liệu, FPT còn đang xây dựng hệ sinh thái AI toàn diện nhằm hỗ trợ doanh nghiệp và tổ chức triển khai AI ở quy mô lớn. Hệ sinh thái này được hình thành từ ba lớp năng lực xuyên suốt toàn bộ vòng đời phát triển AI.
Ở lớp nền tảng, FPT cung cấp dịch vụ GPU Cloud với các dòng GPU NVIDIA thế hệ mới, đáp ứng nhu cầu huấn luyện và vận hành các mô hình AI quy mô lớn. Trên nền hạ tầng đó là các nền tảng AI sẵn sàng suy luận, hỗ trợ doanh nghiệp triển khai và vận hành các mô hình AI một cách hiệu quả. Cao hơn là lớp ứng dụng, nơi các năng lực AI được chuyển hóa thành những giải pháp thực tiễn phục vụ hoạt động sản xuất, kinh doanh và quản trị.
Ba lớp năng lực này tạo thành một hệ sinh thái AI chủ quyền khép kín, từ dữ liệu nền tảng, mô hình mở cho đến các sản phẩm AI đã được triển khai và bản địa hóa, góp phần thúc đẩy mục tiêu xây dựng AI chủ quyền cho Việt Nam và mở rộng ra khu vực Đông Nam Á.
Việc phát hành Nemotron-Personas-Vietnam không chỉ đánh dấu một cột mốc mới trong hợp tác giữa FPT và NVIDIA, mà còn mở ra thêm nguồn lực quan trọng cho cộng đồng phát triển AI trong nước trên hành trình xây dựng các ứng dụng AI am hiểu người Việt, phục vụ người Việt và sẵn sàng vươn ra thị trường quốc tế.