首页/人工智能/人工智能大语言模型数据集现状和充实对策研究/
人工智能大语言模型数据集现状和充实对策研究
2025-12-10 14:01:06485浏览
源自:大数据

0 引言

截至2024年7月,全球人工智能大语言模型(以下简称大模型)数量已达1 328个,其中国外大模型数量为732个,国内大模型数量为596个。美国拥有的大模型数量位列全球第一,中国拥有的大模型数量占比为36%,位列全球第二。国外主要的大模型包括GPT、Claude、Gemini、LLama等,参数规模从十亿个到万亿个,相应的数据集规模至少为参数规模的20倍,大模型训练成本较高[1]。例如,GPT-4的模型参数在1.8万亿个左右,一次训练的成本为6 300万美元[2]。大模型数据集是大模型技术的基础[3],其发展水平是衡量一个国家科技实力的重要标志。全球各国加速数据战略部署,在技术、政策和市场等多因素驱动下,国内外大模型数据集呈现出不同的发展态势。我国受国内产业环境、数据积累程度、数据处理技术、运营生态等多维因素影响,与领先国家仍存在一定差距,大模型难以拥有足够专业的数据资源进行训练。本文通过对国内外大模型数据集数据基础制度和机制、数据来源和供给渠道、数据处理工程化、数据质量评估、数据应用场景挖掘等方面进行研究梳理,提出充实数据集供给的建设性建议。

1 国外大模型数据集发展情况

1.1 国外典型大模型数据集情况

欧美国家具备深厚的人工智能学术研究基础,为大模型数据集的开发和应用提供了理论支持,在数据多样性、数据质量和数据开放方面处于领先地位。国外典型大模型数据集情况[4-21]分析见表1

1.2 国外典型大模型数据集特点

(1)国外大模型数据集来源多样
欧美国家的学术机构、企业和公共部门为大模型提供了大量、丰富、广泛的数据集。本文通过对国外通用大模型使用的公开数据集进行不完全统计,得到目前质量比较高的大型公开数据集分布状况:文本类有49个、图片类有35个、语音类有48个、视频类有57个、多模态训练数据集有48个、评测数据集有44个,涵盖从自然语言到科学数据等多个领域,特别是在科技、医学、社交网络等领域形成了高质量的大型公开数据集。
(2)欧美国家数据质量普遍较高
欧美国家建立了严格的数据采集规范和审核机制。例如,欧盟制定了统一且严格的数据采集框架指令,各成员国的统计机构需按照该指令开展数据收集与统计工作,同时在数据审核方面,要求企业内部建立数据保护官制度,负责监督数据采集并对数据隐私及合规性进行审查。另外,许多企业和科研机构通过设立奖项和资金支持,激励数据集的质量优化和公开共享。
(3)欧美国家公共数据开放较充分
欧美国家建立了较完备和宽松的公共数据开放政策,颁布相关法律框架确保数据开放和用户隐私保护的平衡。以美国Data.gov网站为例,其是美国政府在2009年推出的开放数据网站,要求联邦机构以标准化格式在线发布开放数据,从数据主题、格式、标签、组织和发布者等视角构建统一数据集资产目录,管理来自近100个组织的30多万个数据集和数据集集合,并配套发布数据管理与治理的指南、策略,提供统一的数据集处理工具、数据项目孵化和人才技能发展资源。Data.gov网站进行公共数据开放,为研究人员和企业提供了获取高质量数据集的渠道,网站每月浏览量超100万次。

2 我国大模型数据集发展情况

我国庞大的人口基数及发达的互联网应用,为大模型训练提供了海量数据。此外,在政策推动下,智慧城市、智能交通等垂直领域大数据应用场景逐渐丰富。虽然国内数据规模和应用场景优势显著,但大模型数据集相较国外仍存在差距。

2.1 国内通用大模型

据不完全统计,国内具有代表性的通用大模型超过200个,包括智谱清言、盘古大模型、阿里巴巴发布的通义千问大模型、百度在线网络技术(北京)有限公司(以下简称百度)发布的文心一言大模型、北京百川智能科技有限公司(以下简称百川智能)发布的百川系列大模型、科大讯飞股份有限公司(以下简称科大讯飞)发布的星火大模型、北京字节跳动科技有限公司(以下简称字节跳动)发布的豆包、腾讯混元大模型、北京市商汤科技开发有限公司(以下简称商汤科技)发布的商量大模型、DeepSeek发布的大模型等。截至2024年年底,我国有5%~8%的企业大模型参数实现从千亿级向万亿级的跨越性跃升。
(1)智谱清言
智谱清言GLM-4新一代基座大模型,支持128 K上下文,具备理解和规划复杂指令、完成复杂任务的能力。其在不影响任何自然语言处理(natural language processing,NLP)任务性能的情况下,实现了视觉语言特征的深度融合。
(2)盘古大模型
盘古大模型包含五大基础大模型,包括NLP、计算机视觉、多模态、预测和科学计算大模型,覆盖了结构化数据和非结构化数据的处理。盘古大模型使用的数据集基于海量图像、视频数据以及独特的技术构建,融合了跨模态信息。
(3)阿里巴巴发布的通义千问大模型
通义千问大模型采用开源大语言模型LLama的数据训练方法,具有长文本功能,向所有人免费开放1 000万字的长文档处理功能。其在数据训练中使用了TB级的训练数据和亿级的参数,以提高预测和推理能力。
(4)百度发布的文心一言大模型
文心一言大模型具有中文领域先进的自然语言处理能力,尤其在中文语言和中国文化上相比其他大模型有更好的表现。其能够正确解释成语、创作诗歌,并且具备多模态生成能力,能够生成文本、图片、音频和视频。
(5)百川智能发布的百川系列大模型
百川系列大模型提供较高性价比的MoE模型,基于工程架构的技术创新进行业务落地的优先选择,其针对金融、法律、教育、客服、销售等多个重点行业和领域进行专项优化,形成面向不同行业的大模型。
(6)科大讯飞发布的星火大模型
星火大模型具有超过1 000亿个参数,使用超过1 000亿字的中文文本数据进行训练,涵盖新闻、百科、小说等多个领域,有效地捕捉中文语言的复杂性和多样性。
(7)字节跳动发布的豆包
豆包通过对大量文本等数据进行训练,能够理解问题意图并生成回答。其优势在于能够快速、准确地提供信息,并且可以灵活应对不同类型的NLP任务,为用户在知识获取、文案写作等多个场景提供便利。
(8)腾讯混元大模型
混元大模型由腾讯公司全链路自主研发,在高质量内容创作、数理逻辑、代码生成和多轮对话上的性能表现卓越。其支持人工智能搜索联网插件,整合腾讯优质的内容生态,提供强大的时新、深度内容获取和人工智能问答能力。
(9)商汤科技发布的商量大模型
商量是千亿参数大模型应用平台,拥有语义理解、多轮对话、知识掌握、逻辑推理的综合能力,能理解和处理中文文本,可自主反思及修正错误等。
(10) DeepSeek发布的大模型
DeepSeek是一家创新型科技公司,专注于开发先进的大模型和相关技术。DeepSeek-R1、V3、Coder等系列模型,拥有强大的NLP能力,能够理解并回答问题,还能辅助写代码、整理资料和解决复杂的数学问题。与OpenAI开发的ChatGPT相比,DeepSeek不仅率先实现了等同OpenAI-o1模型的效果,还大幅降低了推理模型的成本。其新模型DeepSeek-R1以十分之一的成本达到了GPT-o1级别的表现,引发海外人工智能圈的广泛讨论。DeepSeek最大的优势在于算法的改进和优化,节省了算力和数据量。

2.2 国内行业大模型

国内行业大模型的发展正聚焦于技术进步和广泛应用,模型规模和复杂度的增加、多模态整合能力的加强、自监督学习的兴起、可解释性与公平性的关注、部署策略优化及特定领域定制化成为主要发展趋势。

2.2.1 电信行业

中国移动通信集团有限公司(以下简称中国移动)、中国联合网络通信集团有限公司(以下简称中国联通)、中国电信集团有限公司(以下简称中国电信)三大电信运营商在大模型发展上具有数据资源丰富和应用场景广泛的优势,分别发布了在技术架构、行业应用和数据处理方面各有侧重的大模型产品体系。同时,3家电信运营商通过汇聚企业内部、外部开源、行业合作、外部商用等多类来源端数据,按模态、按训练过程、按使用对象进行数据设计分类和清洗标注,形成高质量数据集,共同推动了人工智能技术在通信行业的深入应用和产业数字化转型。
(1)中国移动发布的“九天”人工智能基座大模型
“九天”人工智能基座大模型构建了通/专大模型体系,在网络、客服、营销、知识管理和反诈安全等运营商场景驱动业务服务敏捷创新,为客户提供智慧的信息通信服务。同时,其在能源、交通、医疗、政务等行业加快“AI+”深度融合赋能,如九天·网络大模型实现网络规划、建设、运维、优化、运营全流程智能化升级,加快向“AI+网络”转型;九天·客服大模型已在10086在线客服场景规模化应用,显示出其在超大规模客服生产系统中的工程化能力;九天·医疗大模型已在北京协和医院、中日友好医院等医疗机构落地部署;中国移动与中国石油天然气集团有限公司联合打造昆仑大模型,助力能源化工行业AI+转型。
(2)中国联通发布的元景大模型
元景大模型构建了“1+1+M”大模型体系,包括一套基础大模型、一个大模型底座和多种行业大模型。中国联通发布的大模型在网络、客服、反诈、工业、政务等行业实现落地应用,如元景热线提供即插即用智能工具包,助力电信客服、政务、企业热线实现降本增效。此外,中国联通发布的鸿湖图文大模型1.0具有文生图、视频剪辑、以图生图等功能,广泛应用于个性化推荐、广告创意、内容创作等领域。
(3)中国电信发布的星辰大模型平台
星辰大模型平台包括星辰语义大模型、星辰语音大模型等,支持多种方言识别理解。中国电信发布的大模型在经营分析、公文写作、电信客服、云网运营等场景探索智慧应用,如星辰大模型在政务客服、教育、医疗卫生等领域实现行业赋能。中国电信发布的大模型还依托5G消息为政务客户提供政务短信智能化多轮问答服务,显示出其在特定行业的应用潜力。
电信行业是数据密集型行业,其业务覆盖范围广、用户基数大,产生了丰富的多维度数据。典型行业的数据集有通话记录数据,包括用户的通话时间、频率、通话对象等,用于网络优化和用户行为分析;网络流量数据、互联网流量数据,包括流量类型、流量峰值、数据包信息等,支持网络性能优化和流量管理;基站数据,包括基站位置、覆盖范围、信号强度、用户接入情况等,帮助优化基站布局和网络覆盖;客户服务数据,包括客户投诉、故障报告、服务记录等,用于提升客户服务质量和满意度。
2.2.2 其他典型行业
国内在医疗、金融、交通、电力和教育等典型行业积极推动大模型技术的应用和发展,显著提升了各领域的智能化和效率。
(1)医疗行业
在医疗行业,大模型被广泛应用于图像识别、疾病预测与诊断等领域。大模型通过对海量医疗数据进行分析,帮助医生更准确地进行诊断和治疗决策。例如,商汤科技的“大医”和科大讯飞的星火医疗大模型通过分析海量医学数据,提升了医疗问答、辅助诊断和治疗推荐的准确性和效率;百度发布的灵医大模型在互联网医疗、公立医院等领域实现商业化落地。医疗行业的数据集包括医学影像,如数字X成像(X光片)、磁共振成像、计算机断层(computed tomography,CT)扫描图像等;电子健康记录,如病历、诊断记录、治疗方案等;生物信号,如心电图、脑电图、血氧数据等。
(2)金融行业
金融行业的大模型应用主要集中在风控、智能投顾和客户服务等方面。通过对交易数据和用户行为的分析,大模型能更好地识别潜在风险,防范金融欺诈[22]。同时,智能投顾系统基于大模型分析为用户提供个性化的投资建议,提升了用户理财体验。金融行业的数据集包括交易数据,如股票交易记录、期货交易数据等;财务报表,如公司年报、季报、财务报告等;市场数据,如市场行情、宏观经济指标等。
(3)交通行业
在交通领域,大模型促进了智能交通系统的发展。通过交通数据的实时分析与预测,大模型能够优化交通信号控制、规划最优出行路线,从而有效地缓解城市交通拥堵状况,提高整体交通效率。交通行业的数据集包括车辆数据,如车辆行驶记录、GPS轨迹数据等;交通流量数据,如道路交通流量、拥堵情况等;公共交通数据,如公交/地铁运营数据、乘客流量等。
(4)电力行业
电力行业通过大模型实现了电网智能化管理。大模型帮助预测电力需求波动,优化电力调度和分配,提高了电网的可靠性和可持续性,同时支持新能源的高效集成。电力行业的数据集包括电网运行数据,如电网负荷、发电量、输电线路状态等,帮助监控和优化电力系统的运行;用户的用电记录,如家庭、商业和工业用电数据,支持用电模式分析和需求预测;设备状态数据,如电力设备(如变压器、断路器)的运行状态、故障记录等,支持设备维护和故障诊断;与电力生产和传输相关的气象数据,如温度、风速、降雨量等,帮助预测可再生能源发电量(如风电、光伏)。
(5)教育行业
在教育领域,大模型应用于个性化学习和智能教育管理。通过大模型分析学生的学习行为和表现,教育平台可以提供定制化的学习资源与建议,有力支持因材施教,提升教学效果。教育行业的数据集包括学习行为数据,如在线学习记录、考试成绩、作业提交情况等;课程资源,如教学视频、教材、课件等;师生互动数据,如课堂互动记录、师生交流记录等。
2.3 国内数据集特点
国内大模型数据集的多样化、特定化和丰富场景,严格的隐私安全和多模态支持,构成了我国在大模型领域创新与突破的坚实基础。这些特点不仅提升了大模型的适用性和实用价值,也在全球人工智能竞赛中塑造了我国的独特优势。
(1)国内数据集主要来源于公众和行业
国内数据集不仅包括来自公有领域的信息,如互联网开源数据、社交媒体内容等,还包括行业应用中的私有数据,如医疗记录、金融交易数据和交通监控数据等。公众领域的信息开源程度较高,行业私有数据一般较封闭。
(2)国内数据集的语言以中文为主
中文语言具有复杂性,包括丰富的语句结构、同音异义字、成语和谚语等,专注于中文的大模型需要能够处理这些细节。国内大模型数据集在语料采集上更加注重覆盖不同的语言习惯、方言与地域差异,但具有中华文化特色的数据还不够丰富。
(3)垂直行业大模型的数据集发展速度较快
国内垂直行业大模型应用广泛,针对不同行业的需求,这些数据集被专门设计以应用于通信、医疗、金融、教育、电力、交通等领域。各行业特定的术语、格式和知识体系被仔细整合进这些数据集,以确保大模型能有效地解决实际问题。
(4)国内大模型对多模态数据需求愈发增长
在智慧城市和自动驾驶汽车等需要综合多种信息来源的领域中,数据集不仅局限于文本数据,还包括图像、音频和视频等多模态数据。多模态数据的使用能够增强大模型理解真实世界的能力,支持更复杂的人机交互和决策任务。

3 我国大模型数据集发展面临的挑战

3.1 中文数据规模总量有待挖掘

据研究公司Epoch AI预测,人类生成的公开文本数据的总有效存量约为300万亿个Token。Epoch AI在2025年发布的论文“Will we run out of data to train large language models?”中预测,未来10年内,数据增长的速度无法支撑起大模型的扩展,大模型会在2028年用完互联网上的所有文本数据。相比英文语料数据,大模型训练数据集的中文数据规模不足问题尤为凸显。阿里巴巴2024年5月发布的《大模型训练数据白皮书》显示,全球网站中文数据仅占1.3%,而英文数据占比高达59.8%。这表明在大模型可获取的基础数据中,中文数据在数量上相比英文数据存在较大差距。
为解决大模型数据缺失的问题,行业界认为合成数据可能成为解决该问题的新思路。合成数据通过对现有数据进行深加工,将不能被用于训练的数据转化为可用于训练的数据,提升大模型对数据利用的可能性。但当前大模型仍面临无法完全模拟真实世界的复杂性、缺乏可解释性和可信度、在新场景中的泛化能力不足等问题,需要进一步加强相关技术研究和论证[23]
中华文化具有几千年的历史,在几千年的文化传承中,沉淀了很多优秀的中文宝库,如《四库全书》、《康熙词典》、四书五经、《资治通鉴》等。没有证据证明,这些具有中国传统文化特色的中文文本已经被大模型训练语料库收集,并被加工处理成大模型训练数据集。

3.2 体现本土文化和价值的数据集亟待丰富

国内外大模型训练所用数据主要来自互联网、电商、社交、搜索等渠道,中文数据集也主要来自知乎、百度百科、百度知道等公开网络数据,尽管互联网上中文文本存量数据资源丰富,但仍然存在以下问题。
(1)在大模型训练中,承载中华优秀传统文化和价值观的数据集使用比例不够
大模型训练数据集中不同类型数据比例的使用,直接决定了大模型的“性格基因”和“文化基因”。一方面,国内的很多大模型以国外开源大模型为基础进行开发,国外的开源大模型在训练时,中文语料的投喂比例是不够的。另一方面,即便是从头训练的国内大模型,由于数据加工的成本巨大,耗时冗长,大多数公司仅从公开可得的渠道获取可用的中文语料库,很难保证数据足够。
(2)体现本地科学技术和经济特色的数据集缺乏[24]
由于各种原因,国内科研数据、政府部门数据、反映本地经济运行的数据、大型企业掌握的行业数据等被加工成大模型训练的数据集数量不详。仅从公开可得的少数信息判断,中文语料数据总量规模明显不足。例如,悟道语料库从包括开源开放数据集、Common Crawl网页数据、电子书等的不同渠道获得规模为80 TB的文本、图文和对话数据集,通过数据清洗过滤、去重、质量评估等处理流程,构建了一个规模约为1.1 TB的高质量中文语料数据集;开源中文本数据集CLUECorps的规模为100 GB。相比之下,GPT-3的训练数据以英语为主,数据集规模达45 TB。此外,中文语料还存在本地化数据来源单一、可供大模型训练的有效数据源呈现碎片化分散状态的问题,至少政府部门的公共数据标准不规范,机器直接调用的技术支撑仍不到位。以国家统计局为例,大量数据分布在网站群中,需要人工收集。
大模型训练在语言模型和文化相关数据方面存在差异会影响模型的泛化能力,中文数据语料的缺失会影响大模型对中华文化的理解和表达能力。例如,在ChatGPT训练数据中,中文资料比重不足千分之一,而英文资料占比超过92.6%。

3.3 大模型数据集质量管理体系需要完善

构建高质量数据集通常涉及严格的数据清洗、去重和标注流程,以减少噪声对模型训练的干扰,提升预测准确性[23]。在大模型数据集质量方面,国内缺乏统一的管理框架和制度规范,且高质量中文数据集缺乏,部分中文大模型采用“英文数据集+翻译软件”的方式生成中文语料库,导致训练结果不佳。此外,在大模型数据集质量评价方面,国内缺乏统一规范的评测体系,导致不同评测结果难以精确对比,阻碍大模型的落地应用。

3.4 公共数据开放机制有待健全

国内公共数据开放起步较晚。在观念上,公共部门工作人员更加偏重保守秘密;在考核上,国内每年均进行保密检查,相对严格,且对公开数据的考核不明确。近年来,随着“数据要素”深入人心,各级政府陆续推动公共数据平台建设,提高数据的开放性和可用性。但标准与规范尚不健全,可操作指南较少,特别是专业人才缺乏。2024年,《中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见》发布,首次对公共数据资源开发利用进行系统部署。公共机构开放数据集的开放利用面临机制体制、标准规范、平台统一、行政手续等挑战,影响了公共数据集的流通和利用。

4 人工智能大模型数据集充实对策建议

4.1 加大数据产业和技术发展支持力度

(1)加强专项政策支持和研发资金支持
加强在数据要素市场化配置、数据产权制度、数据交易等领域的政策措施来推动数据产业的创新和应用[25]。同时,设立专项资金,支持大模型数据处理相关技术的研发和应用,鼓励企业和科研机构进行创新。
(2)优化数据产业发展环境
完善数据流通和交易的法律法规,建立健全数据安全和隐私保护机制,营造公平竞争的市场环境。加大基础设施建设,提升算力和数据存储能力,支持产业链上下游的协同发展。依托国家重点研发计划、国家科技重大专项等,开展数据加密、可信流通、安全治理等关键技术研究和攻关。
(3)支持国内数据开源社区和国家公共数据开放项目
积极资助和鼓励数据开源社区建设,参照支持开源软件项目的政策,支持数据开源项目。制定数据开源标准和评估体系,提升国内开源数据质量和应用水平。推动企业和高校参与开源数据项目,促进技术共享与合作创新。
(4)支持培育数据标注产业
制定产业扶持政策,建立数据标注职业技能培训体系和职业资格认证制度,建立数据标注行业标准和规范。鼓励和支持数据标注技术创新,研发自动化标注技术、标注工具,提高标注效率。搭建数据标注公共服务平台,整合数据标注资源。

4.2 拓展中文大模型数据集规模

(1)深入挖掘传统文化数据
收集大量与中华文化相关的图像、音频、视频等多模态数据,深入挖掘中华传统文化数据。整合现有资源,如从图书馆、档案馆、博物馆等文化机构的文献资料、古籍善本、历史档案中提取有价值的文本信息,将其数字化后纳入大模型数据集。
(2)促进科研数据共享
加强对英文科技数据的翻译整理,鼓励高校、科研机构将科研过程中产生的实验数据、研究报告、学术文献等数据进行共享,建立科研数据共享平台,制定数据共享的标准和规范,促进科研数据在不同机构和研究团队之间的流通和利用,为大模型训练提供更多专业领域的知识和数据支持。
(3)推动政府、行业、大型企业的公共数据开放
各级政府部门应进一步梳理和整合所掌握的公共数据,包括但不限于人口、地理、气象、交通、医疗、教育、政务服务等领域。在保障数据安全和隐私的前提下,向科研机构、企业和社会公众开放更多高质量的公共数据。鼓励同行业的企业成立数据联盟,共同制定数据共享的规则和标准,将各自分散的数据进行整合和共享。推动大型企业开放公共数据,提升数据治理能力,探索数据流通机制。
(4)鼓励技术融合与创新
在收集处理后的高质量中文种子数据基础上,将数据合成技术与数据增强技术相结合,丰富数据的表现形式和多样性,并探索不同领域数据生成方法的迁移,实现更广泛的数据共享。引入人工审核环节,对生成的数据进行抽样检查和校正;严格遵守相关的法律法规,确保数据合成过程的合法性和合规性;制定相应的伦理准则和规范,引导数据合成技术的合理应用。

4.3 开展大模型中华文化价值观度量

(1)构建中华文化价值观评测数据集
明确以社会主义核心价值观为核心,涵盖国家、社会、个人层面的价值观,同时兼顾中华优秀传统文化价值观等,如爱国、敬业、诚信、友善以及尊老爱幼、尊师重道、和谐中庸等。基于收集的文本和实际应用场景,设计多种类型的测试题目,其应涵盖不同的价值观维度和具体情境,以全面考察大模型对中华文化价值观的理解和应用能力[27]
(2)构建中华文化价值观评测指标体系并开展评测
从准确性、完整性、一致性、敏感性等方面,构建评测指标体系,采用自动评测与人工评测相结合的方法,从内容生成、问答交互、对抗性等多维度进行评测。可结合对中文大模型的综合评测情况形成达标分值,对于评测结果低于达标分值的大模型不授予认证许可。
(3)研究大模型中文数据集与中华文化价值观的相关性
针对大模型中文数据集比例与中华文化价值观的相关性,组织行业专家学者提出诱导偏见、歧视回答的问题,并构建文化价值评估数据集,探索基于专家原则的对齐研究,制定价值对齐评测基准[28]

4.4 推动公共数据的开放和治理

(1)政府机构率先示范,建立高水平公共中文数据集
在国家层面组织专家团队,尽快组织实施政务数据分类分级工作。在《中华人民共和国保守国家秘密法》、《中华人民共和国政府信息公开条例》、保护商业秘密和个人信息的框架下,组织开展政府机关掌握的公共数据的分类分级工作,将政府机关掌握的公共数据分成国家秘密数据不予公开;涉及企业商业秘密和个人隐私的数据不应公开;涉及政府工作的敏感信息,如国家利益相关的战略数据、国家安全数据、与国家经济发展相关的敏感数据、行业发展数据、与百姓生活密切相关的个人信息数据(涉案调查、刑事侦查)等,暂缓公开。对于上述不作公开的政府机构掌握的数据要明确办法,广而告之。其余信息能公开尽可能公开。
(2)建立全国统一的数据平台、标准与工具体系
建设国家级公共数据平台,整合各地区、各部门的数据资源,实现数据的集中管理和共享交换,打破“数据孤岛”,提高数据的可用性和价值。制定统一的数据标准,包括数据格式、编码规则、数据质量标准等[29],确保不同来源的数据能够相互兼容和整合,提高数据的一致性和准确性,为数据的开放和治理提供基础支撑[30]。构建全面且分类清晰的数据集目录体系,如按主题、部门、数据格式等多维度分类,方便用户精准定位所需数据[31]。提供工具来简化数据的发布、共享、查找和使用。依据国家标准《数据安全技术 数据分类分级规则》(GB/T 43697-2024),优先开放数据级别为一般数据的公共数据,逐步扩大数据开放范围[32]
(3)强化监督与评估机制
建立数据开放监督机制,加强对公共数据开放过程的监督,确保数据开放的合法性、公正性和透明度。建立投诉和举报渠道,鼓励社会公众对数据开放中的问题进行监督和反馈。定期对公共数据治理的效果进行评估,评估指标可包括数据开放的程度、数据质量的提升程度、数据应用的创新程度等,根据评估结果及时调整和改进数据治理策略和措施,不断提高数据治理水平。
(4)完善法律法规与制度建设
建立健全公共数据产权制度,明确公共数据的归属、使用、管理等权利和责任,为数据开放和治理提供清晰的法律依据,解决数据产权不明晰导致的开放和利用难题。细化数据安全相关法律法规的实施细则,明确公共数据开放过程中不同主体的安全责任和义务,确保数据在开放和治理过程中的安全性。

4.5 建立数据质量评估和激励机制

(1)加强数据质量管控与审核机制
制定公共数据统一且严格的数据质量管理框架和工具,按数据集质量管理流程,对数据质量进行严格审核。数据集开放机构内部建立数据质量管理制度规范,负责监督数据采集并对数据隐私及合规性进行审查[33]
(2)完善数据质量评估标准体系
从准确性、完整性、一致性、时效性、唯一性、可解释性、简洁性、可访问性、合规性等多个维度构建数据质量评估指标和方法,定期对公共数据质量进行评估,保证数据的真实性和可靠性。同时,探索研究评估指标与数据集质量之间的多变量和单变量相关性,通过挑选特定微调数据集,检验微调后的大模型与基准大模型相比的性能变化[28],以进一步验证数据集质量对模型性能的影响。
(3)建立公平合理的激励政策
对提供高质量数据的机构、部门或个人给予正向激励,如奖励、表彰等。加强对中文高质量评测数据集的激励。

4.6 完善数据人才培养体系

(1)优化大数据学科设置,政产学研合作协同育人
鼓励高校优化大数据学科专业设置,推进政产学研合作协同育人。高校应根据市场需求和技术发展动态,调整和优化大数据相关专业设置,增加跨学科课程。同时,建立政产学研合作机制,鼓励高校与企业、研究机构共同开发课程和项目,推动实践教学,培养具有实际操作能力的人才。
(2)与企业合作开展专业培训和认证
与企业合作,设计针对性的培训项目,提升企业员工在大数据处理和分析方面的能力。通过与行业领军企业合作,联合开发认证课程,促进企业与人才的良性互动。
(3)鼓励利用大模型技术提升人才数据能力项目实践
高校和企业应共同探索基于大模型的实践项目,鼓励学生和员工参与实际数据分析和模型训练,提升其数据处理能力和应用水平。通过实习、项目实践和竞赛等形式,培养学生的创新思维和解决实际问题的能力,推动大数据技术在各行业的应用。

5 结束语

随着人工智能大模型技术的飞速发展,其在诸多领域展现出了强大的能力。大模型的性能高度依赖数据集的质量、规模和多样性,数据集作为大模型的“燃料”,是其实现卓越表现的基础。当前,大模型发展进入多模态融合阶段,对大规模、多模态、多领域的高质量数据集的需求愈发迫切。本文深入了解人工智能大模型数据集现状,探讨充实对策及后续研究方向,对于推动人工智能技术持续进步具有重要意义。
人工智能大模型技术领域后续亟须研究的方向有高质量数据集建设研究、高质量数据集评测体系研究、数据隐私保护与安全共享技术拓展研究、面向特定领域的数据集构建与应用研究、数据要素市场与数据集价值实现机制研究等。

友情链接: