大数据分析
模块供应商: Computer Science
学分数: 10 [5 ECTS credits]
水平:7
教学用语: 春天 term module
先决条件:
模块化的必备条件:
相关内容: CSMCC16 Cloud Computing and CSMDM16 Data Analytics and Mining
模块被排除在外:
目前从: 2021/2
模块召集人: 林嘉雯博士
电子邮件: carmen.lam@reading.ac.uk
模块类型:
概述模块描述:
这个模块涵盖了大数据的主题。
目的:
对大数据的分析不仅仅是对非常大的数据源的分析,尽管这是其中的一部分。 典型的数据包括四个方面:体积、速度、多样性和准确性。 这种关于大数据的观点被普遍接受。 体积是指数据的实际大小,这里需要计算良好的缩放方法; 速度是指非常快的数据生成,这里的数据流处理方法需要用于时间关键的应用; 多样性是指不同类型的数据,可能是非结构化数据,如视频流、点击流或音频文件; 准确性指的是从大数据分析技术中提取的知识中建立决策者信任的挑战。
本单元的目标是通过引入可扩展的并行数据挖掘算法来解决大数据分析的这些方面和挑战,这些算法可以在计算机集群(如Hadoop)上执行; 介绍了高速数据分析的数据流挖掘技术和算法; 介绍了微博数据、社交网络数据等非结构化数据的情感分析技术; 引入可扩展的推荐系统。 A further aim of the unit is to introduce software systems used for Big Data Analytics such as KNIME, MOA, MapReduce and Spark.
可评估的学习成果:
- 学生将能够讨论、识别和描述大数据分析的挑战。 此外,学生将能够评估相关的算法、工具和技术来应对这些挑战。
- 学生将学习如何应用大数据分析技术和算法来解决大数据分析中的挑战。
- The students will be able to analyse complex Big Data Analytics problems, develop and appraise analytics techniqu es to tackle the problems and evaluate solutions.
- 学生将学习如何重新定义和修改分析问题的解决方案,以便将其应用于新的但类似的问题。
额外的结果:
学生们将认识到大数据分析在现实世界中的应用,并演示如何在计算机集群上部署和评估大数据的数据挖掘应用。
大纲内容:
- 介绍大数据分析原理和挑战;
- 大数据集分析的数据挖掘技术和工具,特别是并行数据挖掘技术;
- 用于分析快速流实时数据的数据挖掘算法和工具;
- 构建推荐系统的数据挖掘技术
- 用于非结构化数据分析的数据挖掘技术和算法。
数据挖掘,概念与技术,(第二版)韩佳伟,Micheline Kamber Morgan Kaufmann出版社,2006年3月。 ISBN: 978-1-55860-901-3
《行动中的驯象人》肖恩·欧文,罗宾·阿尼尔,泰德·邓宁和艾伦·弗里德曼。ISBN 9781935182689
进一步阅读:
数据挖掘:实用机器学习工具和技术(第二版
p>
教学方法简述:
该模块包括讲座和实践环节。 讲座介绍了高级数据分析的基本概念和方法。 通过实践课程,学生将对所教授的科目有更多的见解和技能。 一个基于项目的作业将允许学生将所学的概念应用到实际案例中。
秋天 | 春天 | 夏天 | |
讲座 | 10 | ||
实践课程和工作坊 | 10 | ||
引导自主学习: | 80 | ||
按学期划分的总学时 | 0 | 0 | |
模块总学时 | 100 |
方法 | 百分比 |
笔试 | 50 |
论文以外的项目成果 | 50 |
总结性评核-考试:
5月/ 6月一次1.5小时的试卷。
总结性评估-课程作业和课堂测试:
一个基于项目的作业(50%)。
形成性评价方法:
逾期提交的处罚:
下列资料适用于修读nba投注式课程的学生,但修读nba投注弹性课程的学生除外。 Penalties for late submission, and the associated procedures, which apply to Postgraduate Flexible programmes are specified in the policy Penalties for late submission for Postgraduate Flexible programmes, which can be found here: /web/files/qualitysupport/penaltiesforlatesubmissionPGflexible.pdf
The Support Centres will apply the following penalties for work submitted late:
- 在原定截止日期(或任何正式同意的延期截止日期)之后提交的作业:截止日期后的每个工作日(或其中的一部分)将从该作业的总分数中扣除10%的分数,最多可达五个工作日;
- 如果作品在原始截止日期(或任何正式同意的截止日期延长)后超过五个工作日提交:将记录零分。
You are strongly advised to ensure that coursework is submitted by the relevant deadline. 您应该注意,建议在未完成状态下提交作业,而不是没有提交任何作业。
通过考试的评估要求:
总体得分为50%。
重新安排:
8月/ 9月一次2小时的考试。 请注意,补考模块的分数将以以下两项中较高者为准:(a)本次补考的分数;(b)本次补考的分数与之前课程作业的分数的平均值,根据第一次尝试(50%考试分数,50%课程作业分数)进行加权。
额外费用(适用时指定):
1) Required text books: None
2) Specialist equipment or materials: None
3) Specialist clothing, footwear or headgear: None
4) Printing and binding: None
5) Computers and devices with a particular specification: None
6) Travel, accommodation and subsistence: None
最后更新: 2021年7月29日
本模块描述中包含的信息不构成学生合同的任何部分。