关于举办“大数据建模、分析与挖掘技术应用研修班”的通知-人工智能技术与咨询

关于举办“大数据建模、分析与挖掘技术应用研修班”的通知

2026-04-17 10:38:16412浏览

培训时间：2026年5月28日-6月1日

各企事业单位：

随着2015年9月国务院发布了《关于印发促进大数据发展行动纲要的通知》，各类型数据呈现出了指数级增长，数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级，企业有了能够轻松访问和分析数据以提高性能的新机会，如何从数据中获取价值显得尤为重要，也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组织数据结构和关系，还必须与最终用户的需求和问题联系起来，并提供指导，帮助确保正确的数据正确使用正确的方法获得正确的结果。

为响应科研及工作人员需求，根据《国务院关于推行终身职业技能培训制度的意见》提出的“紧跟新技术、新职业发展变化，建立职业分类动态调整机制，加快职业标准开发工作”要求，中国人工智能培训网（http://www.chinaai.org.cn）、北京龙腾亚太教育咨询有限公司、北京龙腾智元信息技术有限公司特举办“大数据建模、分析、挖掘技术应用研修班”。本次培训采用实战培训模式。

本次培训由北京龙腾亚太教育咨询有限公司、北京龙腾智元信息技术有限公司承办，并进行相关费用收取及发票开具。

一、授课师资

来自企业实战派的首席专家，拥有丰富的科研及工程技术经验，长期从事人工智能、数据挖掘、大数据分析等领域的教学与工程应用研究工作。

二、时间安排

2026年5月28日 — 2026年6月1日北京（同时转线上直播）

（5月28日发放上课所需材料，5月29日-6月1日上课）

三、参会对象

各省市、自治区从事大数据分析、数据挖掘、数据处理、数据建模等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员，以及大数据研究广大爱好者。

四、培训目标

1.掌握大数据建模分析与使用方法。

2.掌握大数据平台技术架构。

3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。

4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。

5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。

6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用，以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。

7.掌握常见的机器学习算法。

五、费用标准

A类、5980元/人（含培训费、场地费、资料费、午餐费、平台费）。

B类、另加3000元（B类证书费）。

注：费用含培训期间的午餐，交通及住宿费用自理，住宿可统一安排执行团队价格

1、报名5人以上可享受9折优惠，报名8人以上可享受8.8折优惠。

2、B类证书费不享受优惠。

3、参加线上、线下培训学员均可享受视频录播回放权益，及本人再次免费参加线下同主题课程学习权益。

六、颁发证书

A类、参加相关培训并通过考核的学员，由北京龙腾亚太教育咨询有限公司颁发培训结业证书。

B类、参加相关培训并通过考核的学员，由工业和信息化部教育与考试中心颁发《大数据技术应用工程师》（高级）职业技能证书，可通过工业和信息化部教育与考试中心官方网站查询，并纳入工信部教育与考试中心人才库，该证书可作为有关单位职称评定、专业技术人员能力评价、考核和任职的重要依据。

注：报到时请提交电子版彩照（大于20KB，红蓝底皆可）、身份证复印件和学历证明复印件各一份。

七、注意事项

1.指定报名邮箱：2044115758@qq.com。

2.报名成功后，会务组在报到前一周发具体报到通知及行车路线，并电话告知。

3.学员需自备电脑WIN10电脑64位系统，16G及以上内存，硬盘空间预留100G。

八、联系方式

联系人：张杰

手机：13401149170（微信同号）

电话：010-81311930

报名邮箱：2044115758@qq.com

具体课程安排

第一天

9:00-12:00 14:00-17:00

第一部分大数据概述

具体内容：

1.大数据及特点分析

2.大数据关健技术

3.大数据计算模式

4.大数据应用实例

第二部分大数据处理架构Hadoop

具体内容：

1.Hadoop项目结构

2.Hadoop安装与使用

3.Hadoop集群的部署与使用

4.Hadoop 代表性组件

实践训练：

1.Hadoop Single Node Cluster

2. Hadoop Multi Node Cluster

第三部分分布式文件系统HDFS

具体内容：

1.HDFS体系结构

2.HDFS存储

3.HDFS数据读写过程

实践训练：

1.创建与查看HDFS目录

2.从本地计算复制文件到HDFS

3.将HDFS文件复制到本地计算机

4.复制与删除HDFS文件

5.Hadoop HDFS Web浏览HDFS

第四部分分布式数据库HBase

具体内容：

1.HBase访问接口

2.HBase数据类型

3.HBase实现原理

4.HBase运行机制

5.HBase应用

第二天

9:00-12:00 14:00-17:00

第五部分 MapReduce

具体内容：

1.MapReduce体系结构

2.MapReduce工作流程

3.资源管理调度框架YARN

4.MapReduce应用

第六部分 Spark

具体内容：

1.Spark生态与运行架构

2.Spark SQL

3.Spark部署与应用方式

实践训练：

1.Python Spark 安装

2.本地运行pyspark程序

3.在Hadoop YARN 运行pyspark

4.Spark Web UI

第七部分 IPython Notebook运行Python Spark程序

具体内容：

1.Anaconda

2.IPython Notebook使用Spark

3.使用IPython Notebook在Hadoop YARN模式运行

实践训练：

1.在不同模式运行IPython Notebook运行Python Spark命令

2.Python 程序开发

第八部分 Python Spark集成开发环境

具体内容：

1.Python Spark集成开发环境部署配置

2.Spark数据分析库MLlib的开发部署

实践训练：

Spark MLlib应用程序示例

第三天

9:00-12:00 14:00-17:00

第九部分 Python Spark决策树二分类与多分类

具体内容：

1.决策树原理

2.大数据问题

3.决策树二分类

4.决策树多分类

实践训练：

1.搜集数据

2.数据准备：导入并转换数据、提取特征字段、提取标签

3. Python Spark建模，训练模型

4.预测数据

5.评估数据，给出评价指标并得到评估结果

第十部分 Python Spark支持向量机

具体内容：

1.支持向量机SVM 原理与算法

2.Python Spark SVM程序设计

实践训练：

1.数据准备

2.建立SVM模型，训练模型

3.评估参数并找出最优参数

4.根据模型进行预测

第十一部分 Python Spark 贝叶斯模型

具体内容：

1.朴素贝叶斯模型原理

2.Python Spark贝叶斯模型程序设计

实践训练：

1.建模贝叶斯模型，并进行对参数估计

2.训练模型，得到最优参数

3.根据模型进行预测

第十二部分 Python Spark逻辑回归

具体内容：

1.逻辑回归原理

2.Python Spark逻辑回归程序设计

实践训练：

1.Python Spark逻辑回归建模

2.根据模型进行分类

第四天

9:00-12:00 14:00-17:00

第十三部分 Python Spark回归分析

具体内容：

1.大数据分析

2.数据集介绍

3.Python Spark回归程序设计

实践训练：

1.数据准备

2.训练回归模型

3.建立评估指标

4.训练回归模型，并找到最优参数

5.根据模型进行预测

第十四部分 Spark ML Pipeline 机器学习流程分类

具体内容：

1.机器学习流程组件：StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

实践训练：

1.数据准备

2.建立机器学习Pipeline流程

3.使用Pipeline流程训练

4.使用PipelineModel预测

5.评估模型准备率

第十五部分 Python Spark 创建推荐引擎

具体内容：

1.推荐算法

2.推荐引擎大数据分析使用场景

3.推荐引擎设计

实践训练：

1.搜索数据

2.准备数据

3.训练模型

4.使用模型进行推荐

第十六部分项目实践

具体内容：

1.日志分析系统与日志挖掘项目实践

a、Hadoop，Spark，ELK技术构建日志数据仓库

b、互联网微博日志分析系统项目

1.推荐系统项目实践

a、电影数据分析与个性化推荐关联分析项目