0 引言
人工智能自1956年达特茅斯会议提出以来,经历了多个发展阶段,是一个多维度、跨学科领域,通过计算机科学和工程学方法模拟、延伸和扩展人类智能。AI技术广泛应用于工业、医疗、金融等领域,提高工作效率和生活质量。AI发展依赖于基础理论和算法、存储、计算、通信、数据等技术和要素,其中大规模、高质量的数据是AI系统的基础。有效的数据治理技术对AI系统至关重要,直接影响系统性能。面向AI的数据治理技术框架值得从理论和实践角度深入研究和探讨。
1 面向AI数据治理的理论分析
探讨了数据治理与人工智能发展之间的紧密联系,强调了数据治理在提升AI模型性能、可靠性和安全性方面的核心作用。文章指出,良好的数据治理是AI发展的前提,而AI技术的应用又增强了数据治理的智能化和自动化。数据治理通过确保数据的准确性、完整性和安全性,为AI系统的全生命周期提供支持,包括系统规划、预训练、评测、微调、部署和维护等阶段。文章还强调了数据治理在提高AI系统可信度、降低开发成本、保护个人隐私和建立公众信任方面的重要性。
2 面向AI的数据治理实践范式
讨论了以数据为中心的AI在早期阶段的局限性,强调了数据质量与多样性的重要性,并指出了数据级联效应可能带来的问题。章节还探讨了以数据为中心的AI与以模型为中心的AI之间的关系,说明了两者如何相互补充,共同推动AI系统的发展。此外,章节详细阐述了面向AI的数据治理的重点任务,包括源数据、预训练数据、评测数据、微调数据、推理数据和运维数据的治理,旨在确保AI系统在全生命周期中的数据质量和可靠性。
3 面向AI数据治理的技术框架
源数据治理是提升大语言模型性能的关键,涉及通用数据和专业数据两大类。通用数据如网页、图书、新闻和对话文本对模型的建模能力和泛化能力至关重要,而专业数据如多语言数据、科学数据、代码和特定领域资料能提升模型在特定任务上的解决能力。网页数据的多样性有助于模型获取丰富的语言知识,但需去除低质量内容以确保数据质量。对话数据对提升模型的对话能力和问答任务表现有显著效果,但收集和处理困难。书籍数据能丰富模型的词汇量和理解能力,尤其在理解长文本结构和语义连贯性方面。多语言数据、科学文本数据和代码数据对提升模型的多语言理解和生成能力、理解科学知识和生成功能起着重要作用。随着模型复杂度和规模的扩大,对数据的需求也在不断增加,需加强源头数据治理,从供给侧拓宽数据来源,增加数据规模,提高数据质量。
预训练数据治理旨在收集并生成丰富且高质量的训练数据,以支持AI模型的训练。数据收集包括数据集发现、数据集成和数据合成,以提高数据收集的效果。数据准备是将原始数据转换为适合AI模型训练的格式的过程,包括数据清洗、特征提取和特征转换。数据浓缩通过减少数据的特征数量或样本数量来降低数据复杂度,同时保留数据的关键信息。数据增强通过人工创造新的训练样本来增加数据集大小和多样性,提高模型的准确性、泛化能力和鲁棒性。
评测数据治理的目标在于构造合理的评测数据集,并适时更新或升级此数据集,以对大语言模型的综合性能和单项能力进行评定。同分布评测使用符合训练数据分布的样本作为评测数据集,评估模型在特定子群体上的性能,并验证检查模型的性能边界。异分布评测使用与训练数据分布不同的样本作为评测数据集,全面评估模型的性能,为模型部署前的安全性和可靠性提供保障。评测数据集的治理需要关注评测数据集的数量、质量、设计和选择、多样性和代表性以及隐私保护等方面。
微调数据治理是使大语言模型具备行业专业知识和能力的关键步骤。数据标注是为数据集中的元素分配描述性标签的过程,对大语言模型微调至关重要。指令微调数据集的治理包括注重指令数据的来源和收集、数据标注和管理、数据预处理、数据集评估和验证以及数据集组合。推理数据治理是指在应用大语言模型进行推理的过程中,根据具体应用场景或执行推理任务的特点,有针对性地设计数据输入或者指令提示,嵌入必要的检索增强数据知识库,引入思维链,激发模型的特定能力,提高推理决策的准确性。提示工程是一种通过设计和构建高质量的模型输入提示来实现特定任务的方法,可以指导大语言模型完成复杂的任务,相比于微调模型更加灵活高效。
4 面向AI数据治理的案例与经验
详细探讨了面向人工智能的数据治理框架在不同领域的应用案例和实践经验。首先,分析了ChatGPT的数据治理实践,展示了从GPT-1到ChatGPT/GPT-4模型在训练数据治理方面的演进,强调了数据质量优化对模型性能提升的重要性。其次,讨论了推理数据和运维数据的治理演进,指出了未来AI从业者可能更专注于提示工程,以及运维数据需要不断更新和维护的必要性。接着,介绍了Ziya2大语言模型的数据治理实践,说明了通过高质量的预训练数据和持续预训练策略,可以有效提升模型性能。最后,探讨了能源领域AI大语言模型的数据治理实践,强调了数据收集、清洗、标注和优化在提升模型准确性和泛化能力中的关键作用。整体上,通过具体案例展示了数据治理在提升AI模型性能中的核心作用,并提出了一系列数据治理策略。
5 结束语
强调了数据在人工智能领域的核心地位,指出提升数据集规模和质量是增强AI系统性能的关键。源数据治理、预训练数据治理等六个方面将更紧密融合在AI系统开发应用全过程中,成为推动AI发展的关键支撑。同时提出,大语言模型技术尚未应用于双碳目标等细分领域,未来可结合能源环境和应对气候变化专业领域特点,将面向AI的数据治理框架和技术应用于能源-环境-经济复杂系统和应对气候变化建模,以智能化组合生成、发掘评价省间多区域协同减排关键技术,进一步丰富和完善面向AI的数据治理理论框架和技术实践。