Trong bối cảnh cuộc cách mạng công nghiệp lần thứ tư đang diễn ra mạnh mẽ, dữ liệu được ví như "nguồn tài nguyên mới", là "nhiên liệu" cốt lõi để vận hành cỗ máy Trí tuệ Nhân tạo (AI). Nhằm hiện thực hóa tầm nhìn chiến lược và tạo hành lang pháp lý vững chắc cho sự phát triển của công nghệ nước nhà, ngày 06 tháng 5 năm 2026, thay mặt Thủ tướng Chính phủ, Phó Thủ tướng Hồ Quốc Dũng đã ký ban hành Quyết định số 804/QĐ-TTg. Quyết định này chính thức ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu. Đây được xem là một bước tiến mang tính bước ngoặt, khẳng định quyết tâm cao độ của Đảng và Nhà nước trong việc đưa Việt Nam trở thành điểm sáng về AI trong khu vực và trên thế giới.

Bối Cảnh Lịch Sử Và Cơ Sở Pháp Lý Vững Chắc
Chỉ vài tháng sau khi Luật Trí tuệ nhân tạo được thông qua vào ngày 10 tháng 12 năm 2025 và dựa trên nền tảng của Luật Tổ chức Chính phủ ngày 18 tháng 02 năm 2025, Quyết định số 804/QĐ-TTg ra đời theo đề nghị của Bộ trưởng Bộ Khoa học và Công nghệ. Sự ra đời nhanh chóng và kịp thời của Quyết định này cho thấy sự nhạy bén trong công tác điều hành của Chính phủ.
Quyết định này mang tính định hướng chiến lược cao, quy định rõ các bộ dữ liệu sẽ được tập trung triển khai thực hiện trong giai đoạn từ năm 2026 đến năm 2030. Việc vạch ra lộ trình rõ ràng trong 5 năm tới giúp các bộ, ngành và địa phương có cơ sở vững chắc để phân bổ nguồn lực, hoạch định chiến lược thu thập, xử lý và chuẩn hóa dữ liệu, từ đó tạo ra những mô hình AI mang đậm bản sắc và trí tuệ Việt Nam.
15 Trụ Cột Dữ Liệu Thiết Yếu: Nền Tảng Cho Sự Trỗi Dậy Của AI Việt Nam
Phụ lục I của Quyết định đã vạch ra 15 danh mục bộ dữ liệu bao quát toàn diện mọi mặt của đời sống kinh tế - xã hội, văn hóa và an ninh quốc phòng. Cụ thể:
- Bảo tồn và phát triển ngôn ngữ, tri thức dân tộc: Xây dựng Bộ dữ liệu ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số (bao gồm văn bản, tiếng nói, chữ viết tay, dữ liệu song ngữ...) để huấn luyện các mô hình ngôn ngữ lớn. Cùng với đó là Bộ dữ liệu tri thức quốc gia chứa đựng sự hiểu biết về lịch sử, văn hóa, xã hội, và Bộ dữ liệu văn hóa, di sản, du lịch nhằm số hóa và bảo tồn di tích, bảo vật quốc gia.
- Minh bạch hóa và thúc đẩy hành chính công: Bộ dữ liệu văn bản pháp luật và văn bản hành chính (không bao gồm văn bản mật) và Bộ dữ liệu dịch vụ công, thủ tục hành chính sẽ làm nền tảng để tạo ra các trợ lý ảo pháp lý và hành chính, giúp người dân và doanh nghiệp tiếp cận dịch vụ nhà nước một cách nhanh chóng, minh bạch nhất.
- Thúc đẩy kinh tế, khoa học và công nghệ: Các bộ dữ liệu về Khoa học, công nghệ và đổi mới sáng tạo; Bộ dữ liệu kinh tế và thị trường (vĩ mô, thương mại, chứng khoán); và Bộ dữ liệu nông nghiệp (thổ nhưỡng, giống cây, chuỗi cung ứng) sẽ là đòn bẩy giúp AI phân tích xu hướng, tối ưu hóa sản xuất và kiến tạo giá trị kinh tế mới.
- Nâng cao chất lượng sống và hạ tầng: Bộ dữ liệu y tế và chăm sóc sức khỏe (lâm sàng, hình ảnh, dược); Bộ dữ liệu giáo dục và đào tạo; Bộ dữ liệu giao thông và đô thị; Bộ dữ liệu tài nguyên và môi trường; cùng Bộ dữ liệu bản đồ, không gian địa lý và hạ tầng viễn thông số sẽ giúp AI thâm nhập sâu vào việc giải quyết các bài toán y tế, giáo dục, ách tắc giao thông, và biến đổi khí hậu.
- Vị thế quốc tế: Bộ dữ liệu đa ngôn ngữ quốc tế về Việt Nam sẽ giúp cộng đồng quốc tế tiếp cận thông tin chính thống về văn hóa, chính trị, xã hội nước ta.
Trọng Tâm Ưu Tiên: Từ Mô Hình Ngôn Ngữ Đến An Toàn, Đạo Đức AI
Để đảm bảo nguồn lực không bị dàn trải, Phụ lục II của Quyết định đã chắt lọc và chỉ định rõ Danh mục dữ liệu ưu tiên triển khai, chia thành 5 nhóm chiến lược:
1. Khẳng định chủ quyền ngôn ngữ trên không gian số: Nhóm ưu tiên số I tập trung vào Dữ liệu phục vụ phát triển mô hình ngôn ngữ lớn tiếng Việt. Việc xây dựng dữ liệu tiếng phổ thông, tiếng nói đa vùng miền, ngôn ngữ dân tộc thiểu số, và đặc biệt là dữ liệu hướng dẫn, căn chỉnh mô hình cùng dữ liệu tổng hợp nhân tạo sẽ giúp Việt Nam tự chủ trong việc tạo ra các "ChatGPT" mang đặc trưng văn hóa và tư duy người Việt, không bị phụ thuộc vào các nền tảng nước ngoài. Bổ sung vào đó là các dữ liệu tri thức chuyên ngành, báo chí, toán học, mã nguồn và dữ liệu từ nguồn mở Internet.
2. Tiên phong trong thị giác máy tính: Nhóm ưu tiên số II hướng tới phát triển AI thị giác máy tính với các bộ dữ liệu đa phương tiện, hình ảnh y tế (phục vụ chẩn đoán), hình ảnh nông nghiệp (giám sát cây trồng), hình ảnh giao thông, đô thị và đặc biệt là ảnh vệ tinh, viễn thám phục vụ phân tích không gian quốc gia.
3. Đặt chuẩn mực kiểm thử và đánh giá: Để một hệ thống AI được đưa vào sử dụng, nó cần phải vượt qua các bài kiểm tra khắt khe. Nhóm ưu tiên III tập trung cung cấp dữ liệu phục vụ đánh giá năng lực của AI: từ khả năng hiểu tiếng Việt, kỹ năng hội thoại, hiểu biết pháp luật Việt Nam, cho đến năng lực lập trình, suy luận logic và sự am hiểu văn hóa, xã hội bản địa.
4. Ứng dụng sâu rộng vào các lĩnh vực cốt lõi: Nhóm ưu tiên IV nhấn mạnh việc tạo lập dữ liệu để AI trực tiếp phục vụ các mảng thiết yếu như: giải quyết thủ tục hành chính, khám chữa bệnh y tế, giáo dục đào tạo, giám sát môi trường khí hậu, quản lý năng lượng, phân tích tài chính kinh tế, bản đồ số và quản lý hạ tầng viễn thông.
5. Bảo vệ an toàn mạng và xây dựng niềm tin: Đáng chú ý nhất, trong thời đại thông tin thật giả lẫn lộn, nhóm ưu tiên V đặt trọng tâm vào Dữ liệu phục vụ phát triển AI để đánh giá an toàn và tin cậy. Các bộ dữ liệu này sẽ được dùng để huấn luyện AI phát hiện tin giả, thông tin sai lệch; nhận diện các sản phẩm giả mạo (Deepfake) do chính AI tạo ra; mô phỏng các kịch bản tấn công để kiểm thử đạo đức AI; cũng như phát hiện mã độc và các mối đe dọa an ninh mạng.
Kỷ Luật Thực Thi Khắc Khe Và Trách Nhiệm Của Các Cấp Ngành
Phát triển dữ liệu không đồng nghĩa với việc buông lỏng quản lý. Quyết định 804/QĐ-TTg nêu rõ nguyên tắc tối thượng tại khoản 2 Điều 1: Mọi hoạt động thu thập, chia sẻ và khai thác dữ liệu phải tuân thủ nghiêm ngặt các quy định pháp luật về bảo vệ dữ liệu cá nhân, bảo vệ bí mật nhà nước và sở hữu trí tuệ.
Về công tác tổ chức thực hiện, Bộ Công an được giao trọng trách là cơ quan đầu mối chủ trì, đôn đốc, giám sát và tổng hợp báo cáo tình hình triển khai tại tất cả các bộ, ngành, địa phương. Bộ Công an cũng sẽ là đơn vị tiếp nhận đề xuất để định kỳ tham mưu Thủ tướng sửa đổi, bổ sung danh mục cho phù hợp với thực tiễn tiến vũ bão của công nghệ.
Các bộ, ngành và Ủy ban nhân dân các tỉnh/thành phố được giao nhiệm vụ chủ trì phải phối hợp xây dựng kế hoạch tạo lập, gán nhãn, chú thích và chuẩn hóa dữ liệu thuộc phạm vi mình quản lý. Đặc biệt, toàn bộ các bộ dữ liệu này phải được phối hợp với Bộ Công an để kết nối, đồng bộ về cơ sở dữ liệu quốc gia về trí tuệ nhân tạo, tạo thành một hệ sinh thái tập trung, thống nhất. Đối với các nhóm dữ liệu nhạy cảm liên quan đến giao thông, đô thị, bản đồ không gian địa lý, viễn thông và hạ tầng số (các Mục IX, XIII, XIV của Phụ lục I) có yếu tố quốc phòng, an ninh, các cơ quan chủ quản bắt buộc phải phối hợp chặt chẽ với Bộ Công an và Bộ Quốc phòng trong suốt quá trình thực hiện.
Khởi Đầu Cho Kỷ Nguyên Trí Tuệ Việt
Quyết định 804/QĐ-TTg có hiệu lực ngay từ ngày ký (06/05/2026), phát đi một thông điệp mạnh mẽ và cấp bách tới toàn bộ hệ thống chính trị. Bộ trưởng, Thủ trưởng cơ quan ngang bộ, Chủ tịch UBND các tỉnh, thành phố chịu trách nhiệm trực tiếp thi hành.
Việc ban hành "Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu" không chỉ là một văn bản hành chính đơn thuần, mà là một bản "tuyên ngôn số" của Việt Nam. Bằng việc xây dựng, chuẩn hóa và bảo vệ kho tàng dữ liệu khổng lồ của quốc gia, chúng ta đang tự tay đặt những viên gạch vững chắc nhất để xây dựng một cường quốc công nghệ trong tương lai. Kỷ nguyên Trí tuệ Nhân tạo đang mở ra, và với sự chuẩn bị kỹ lưỡng về mặt dữ liệu, Việt Nam hoàn toàn tự tin bước lên con tàu tiến vào kỷ nguyên số với tư thế của một quốc gia làm chủ công nghệ, phục vụ đắc lực cho sự nghiệp dân giàu, nước mạnh, xã hội dân chủ, công bằng, văn minh.