数据科学与大数据技术专业特色课程研究

日期:2020-01-24编辑作者:公司简介

  加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福大学、卡内基梅隆大学、哥伦比亚大学、伦敦城市大学等

  2016年,教育部发布的《2015年度普通高等学校本科专业备案和审批结果》中就首次增设“数据科学与大数据技术专业”,并获批了北京大学、对外经济贸易大学及中南大学的新增专业申请。接着,2017年,中国人民大学等32所高校出现在第二批次的获批名单中。另,全国高校大数据教育联盟的统计数据显示,2017年申请该专业的院校高达263所,其中工学190所,理学73所[1]。从申请资料看,国内数据科学专业是一门主要以统计学和计算机科学与技术专业为基础建设的全新专业。数据科学专业已成为我国现阶段高等教育的热点问题之一。但是,建设什么样的专业以及如何建设该专业仍为各高校面临的难点问题。

  在国外,数据科学(Data Science)专业是以数据分析学(Data Analytics)专业为基础发展而来的,可追溯至2007年北卡罗来纳州立大学(North Carolina State University)率先设立的数据分析硕士学位(Master of Science in Analytics)[2]。与统计学和计算机科学与技术等基础学科不同的是,数据分析学进一步抽象了这些底层科学中的数据问题,连接了包括统计学和计算机科学在内的基础学科与数据科学之间的空白,为数据科学这一新学科的出现奠定了直接基础。从“数据分析学”向“数据科学”的实质性过渡出现在2013年左右,比较有代表性的是纽约大学于2013年新开设的数据科学硕士专业(The Master of Science in Data Science)[3]。之后,包括加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学在内的多个学校设立了数据科学专业。可见,国外一流大学的数据科学专业建设至少早于国内三年。

  为此,本文在调查分析世界一流大学数据科学专业的培养方案,重点分析数据科学专业中开设的特色课程,并对探讨我国数据科学专业建设的借鉴意义。

  作者通过Study Portal进行调查发现,截止2017年11月,国外数据科学专业的本科、硕士、博士学位项目分别已达到5601、4179和301项,主要分布在美国、英国、澳大利亚、加拿大、德国和意大利等国家。但是,从课程体系和人才培养定位看,能够体现国外数据科学专业教育的本质与特色的是硕士层次的教育,比较有典型的学校有加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福大学、卡内基梅隆大学、哥伦比亚大学、伦敦城市大学,如表1所示。

  该学校的数据科学专业由信息学院(School of Information)开设,专业名称为信息与数据科学,授予的学位为信息和数据科学专业硕士(Professional Master of Information and Data Science, MIDS)[12]。该专业主要侧重于培养学生的研究设计、数据清洗、存储与检索、挖掘与探索、数据可视化、道德与隐私、数据分析、沟通与呈现的能力,如图1所示。

  从总体上看,人才培养定位在培养数据科学领域的领导者,侧重培养学生的运用新工具和新方法,从现实数据中获得洞见(Insights)以及如何有效地沟通与阐释自己的研究发现,进而改变他人行动和思想的能力。该学校的数据科学专业的人才培养具有如下几个特点:

  强调数据科学的多学科交叉特点,将社会科学,计算机科学,统计学,管理学和法学等多学科知识融入具体课程之中;

  凸显数据科学本身的讲解,注重提升学生的基于数据提出好问题的能力以及面向数据科学的研究设计、数据清理、存储与检索、交流与沟通、统计分析、道德与隐私、数据可视化以及数据挖掘与探索等关键技能;

  引入基于项目的学习方法,借鉴本校信息学院其他专业的培养经验,通过基于项目的教学方式,鼓励学生综合运用多种不同的工具和方法来解决复杂问题;

  强调动手实践能力的培养,为学生提供亚马逊Web服务和IBM大数据平台等实践平台。

  该专业的课程体系包含先修课程(Prerequisite Courses)、基础课程(Foundation Course)、必修课程(Required Courses)、选修课程(Electives)以及独立学习(Independent study)课程等近60门课程[13]。基础课程有2门,即算法基础(Foundations of Algorithms)和统计方法与数据分析(Statistical Methods and Data Analysis);必修课程包括数据库系统原理、数据科学、数据可视化、优化导论(Introduction to Optimization)、统计模型与回归、计算统计学;选修课分为机器学习和统计学两个大方向,共有14门主要课程,均为较为常见课程。值得一提的是,该专业另提供了近30门扩展选修课程(Additional Selections),供学生用于置换同一个领域的必须/选修课程,这些扩展课程均为统计学和计算机科学与技术专业常见课程。独立学习(Independent study)课程主要包括独立动手实战(Capstone项目)和独立学习(Independent Study)。

  从人才培养的目的看,专业旨在培养“有竞争力”的数据科学家,要求学生具备三方面的能力:综合运用计算机科学和应用数学的知识,分析与处理大规模数据集的能力;从复杂数据中快速洞察到有价值信息的能力和从信息中发现相关关系的能力;基于规范的技术和抽象的方法以及面向现实世界中的具体问题的建模能力[14]。

  强调学生对数据科学的理论基础的掌握程度,突出了三个主要领域:计算机科学与技术、统计学与应用数学。其中,对应用数学的重视是该学校数据科学专业的一大特色。

  从课程设计及内容选择看,该专业鼓励在每一门课程中引入来自现实世界的具体问题作为例题和主要关注点。例如,独立学习(Independent Study)课程中强调对具体行业中实际问题的处理能力。

  从整体看,该学校的数据科学专业主要定位在应用型人才的培养,尤其是数据分析师和应用型数据科学家。人才培养的主要特点如下:

  面向在职人员。该专业主要针对刚毕业的学生或在职人员开设,上课时间一般为业余时间,允许学生脱产或在职学习。

  重视团队协作能力。多数课程的作业均需要团队方式完成,而并非为个人独立完成。

  强调动手操作能力,加强学生运用Python和R进行数据分析的能力,部分作业还需要进行Java编程。

  突出以人为中心的数据科学与可视化(human-centered data science and visualization)能力,开设有专门《以人为中心的数据科学( Human-Centered Data Science)》。

  该学校的数据科学专业由数据科学中心(Center for Data Science)开设,授予的学位为数据科学理学硕士(Master of Science in Data Science)[16]。主要必选课程有数据科学导论、面向数据科学的统计学与概率论(Probability and Statistics for Data Science)、机器学习、大数据以及Capstone项目。此外,该专业还要求学生从以下6门课程中选择1门:推理与表示、深度学习、基于表示学习的自然语言处理、自然语言理解与计算语义、基于优化的数据分析(Optimization-based Data Analysis)、优化与计算线性代数。值得一提的是,该学校的数据科学专业设有多个培养方向(Track):

  纽约大学的数据科学专业的人才培养定位在“下一代数据科学家”,为具备数学、计算机科学和应用统计基础的学生提供了多个可选的培养方案,其主要特点如下:

  设有多个培养方向,如大数据、数学与数据、自然语言处理、物理学和生物学等,其人才培养特别强调数据科学与其他专业的深度融合。

  重视对优化论的学习,在课程体系中设置了多个与优化论相关的课程,如《基于优化的数据分析(Optimization-based Data Analysis)》和《优化与计算线性代数(Optimization and Computational Linear Algebra)》、《非光滑凸优化(Convex and Nonsmooth Optimization)》。

  斯坦福大学此专业的人才培养目标侧重的是统计学家,而并非是数据科学家。其最突出的特点是将数据科学作为统计学的一个方向,将培养出面向数据科学的统计学家。因此,该专业与其他学校的数据科学专业不同,强调的是数据科学与统计学的深度融合。

  该学校的数据科学专业由数据科学学院(Data Science Institute)开设,授予的学位为数据科学理学硕士(Master of Science in Data Science)。课程体系可分为导论类课程、计算机科学、统计学、选修课程和Capstone课程等5大类。

  该专业的人才培养定位在数据科学家,特别强调学生的“洞察”能力的培养,即从大规模数据中快速洞见有价值的、可以指导实际行动的“洞见”的能力。主要特色如下:

  重点培养学生的3C精神,尤其是好奇心,立体模块通过掌握新技术来提升自己的职业竞争力。该专业的学员主要来自于经济学、统计学和计算机科学专业。

  强调数据科学的三个要素,突出数据科学的跨学科性,开设课程涉及计算机科学、统计学、机器学习及实战应用。此外,该学校特别强调机器学习在数据科学中的重要地位,重视学生对机器学习和数据可视化的掌握和应用能力

  强调实习的重要性,开设由PLU( Professional Liaison Unit)资助的专业实习项目(Professional Internships Program),将学生派送到NHS、Facebook、亚马逊、BBC的实际工作部门进行为期6个月的实习。

  重视产业真实数据及现实问题的处理能力。该学校设有个人大作业(The individual project),要求学生综合运用所学知识,选择来自产业、学术或政府的真实数据,解决现实世界中存在的具体问题。

  该学校的数据科学专业人才培养分散在多个专业之中,如表2所示,其中直接用数据科学命名的专业为计算数据科学(Computational Data Science)[20]。计算数据科学专业由计算机学院开设,课程体系设有分析和系统2个方向,学生必须选修5门核心课程、3门选修课和1门Capstone项目。分析方向的核心课程为智能信息系统、机器学习、大规模数据集的机器学习、搜索引擎和可扩展分析学;系统方向的核心课程为操作系统的实现、数据库应用、并行计算机架构及编程、分布式系统、大数据系统、高级存储系统、云计算及高级云计算、数据库系统的前沿问题及多媒体数据库。

  该学校的人才培养侧重于专业中的数据科学家,强调的是与具体专业学科高度融合的人才培养。其主要特点有两个:

  侧重融合式教育及专业中的数据科学家的培养。与上述其他学校不同的是,该学校的数据科学专业分散在多个学位项目,如公共政策、信息系统管理、工商管理、计算数据科学、智能信息系统、语言技术、教育技术、机器学习和统计实践等。其中,以数据科学为命名的专业只有一个,即为计算数据科学(Computational Data Science)。

  强调跨学科方法(Interdisciplinary Approach):重视统计学、计算机科学和具体应用领域之间的深入融合,所涉及的具体应用领域有公共政策、信息系统管理、商务分析、智能信息系统、语言技术、教育技术与应用学习。

  特色课程是一个新专业的存在标志之一。通过对上述8个学校的培养方案进一步深入调研发现,数据科学与大数据技术专业的特色课程有9种:

  主要讲解正式学习数据科学之前必备的知识而对数据科学本身的介绍较少,主要定位是数据科学专业的先修课程,为学生学习数据科学课程奠定基础。常见的理论基础类课程有统计学、机器学习以及Python语言(或R语言)。

  “统计学”类课程:主要讲解面向数据科学的应用统计学的知识,为学生深入学习数据科学理论奠定基础。例如,华盛顿大学《应用统计与试验设计( Applied Statistics & Experimental Design) 》[21]主要学习离散和连续随机变量的推理统计方法,包括手段和比例差异的测试、线性和逻辑回归、因果关系以及重采样方法等。再如,斯坦福大学开设两门统计学类课程,即现代应用统计学:学习( Modern Applied Statistics:Learning)和现代应用统计学:数据挖掘(Modern Applied Statistics:Data Mining)[22]。

  “机器学习”类课程:主要讲解面向数据科学的应用机器学习的知识,为学生深入学习数据科学理论奠定基础。例如,加州大学伯克利分校开设的应用机器学习(Applied Machine Learning)[23]课程认为机器学习是计算机科学与统计学交叉点之上发展迅速的领域,强调的是寻找数据中的模式。类似的课程还有华盛顿大学的数据科学家常用的统计机器学习(Statistical Machine Learning for Data Scientists)[24]和纽约大学的机器科学与计算统计学( Machine Learning and Computational Statistics)等课程。

  Python语言(或R语言)课程,主要讲解面向数据科学的数据分析语言及开源工具。例如,加州大学伯克利分校开设的《面向数据科学的Python语言(Python for Data Science)》[25]侧重讲解的是数据科学工作所必需掌握的Python知识——Python基本语法及数据科学常用包的应用。

  主要讲解数据课程本身的术语、理念、理论、方法、技术、工具和最佳实践应用,属于数据科学专业的入门性、导论类课程。例如,约翰·霍普金斯大学《数据科学(Data Science)》[26]课程涵盖数据科领域的核心概念和技能,包括问题识别和通信、概率、统计推断、可视化、提取/变换/加载、探索性数据分析、线性和逻辑回归、模型评估以及常用机器学习算法等。该课程以有效沟通和可重复分析为指导思想,认为数据科学并不等同于统计学和机器学习的简单拼接,强调的是对数据科学自身的新知识的讲解。

  主要讲解数据科学对某一学科领域的影响及其应用方法论或最佳实践。例如斯坦福大学开设的《数据驱动型医学( Data Driven Medicine)》[27]和《基于大数据的商务智能(Business Intelligence From Big Data)》[28]课程,分别探讨的是如何将数据科学的理念、理论方法和技术应用于医学和商务智能领域。

  主要讲解数据呈现与沟通能力在数据科学中的重要地位以及数据科学中常用的可视化表示与故事化描述方法。例如,加州大学伯克利分校《数据可视化(Data Visualization)》[29]、约翰·霍普金斯大学的《数据可视化(Data Visualization)》[30]以及伦敦城市大学的《可视分析学(Visual Analytics)》[31]课程讲解可视化方法在数据科学专业中的应用。此外,数据的故事化描述能力也是数据科学家的基本功之一。杜克大学的交叉数据科学硕士专业认为数据的故事化描述与可视化表示同等重要,并开设课程《数据逻辑、可视化表达与故事化描述(Data Logic, Visualization,and Storytelling)》[32]。

  主要讲解大数据环境下计算模式的变化及新的算法、技术、工具与平台。例如,华盛顿大学的《可扩展的数据系统与算法(Scalable Data Systems & Algorithms)》主要讲解面向大规模数据的可扩展算法。再如,卡内基梅隆大学的《云计算(Cloud Computing )》[33]课程不仅介绍云计算模式,还讲解数据中心,虚拟化,云存储和编程模型等主题。斯坦福大学也同样开设了关于数据计算方面的《基于数据的计算范式(Paradigms for Computing with Data)》[34]课程。

  主要讲解数据管理,尤其是大数据时代的数据管理新挑战、新理念、新方法、新技术和新工具。例如,华盛顿大学开设的《数据管理与数据科学(Data Management for Data Science)》主要讲解的是数据模型、查询语言、数据库调优和优化、数据仓库以及并行处理等内容。再如,加州大学伯克利分校开设的《数据存储与检索(Storing and Retrieving Data )》[35]课程的涉及面很广,鼓励学生综合运用Python、关系数据库、Hadoop、Map reduce、Spark和云计算(AWS)等多种技术,完成分布式数据处理、流式数据分析、图计算和大数据架构设计等工作。

  主要讲解数据分析,尤其是大数据分析的方法和技术。例如,卡内基梅隆大学多媒体数据库及数据挖掘(Multimedia Databases and Data Mining),华盛顿大学的大数据分析学(Big Data Analytics)以及哥伦比亚大学(纽约)的大数据分析学(Big Data Analytics)[36]均强调了大数据分析的主要挑战和新方法。值得一提的是,正如Gartner数据分析价值扶梯模型(Gartners analytic value escalator)所示,因果分析是大数据数据分析中重要组成部分。例如,哥伦比亚大学开设有《数据科学中的因果推理(Causal Inference for Data Science)》,重点讲解因果分析在数据科学中的应用。此外,探索性数据分析成为数据科学专业的重要课程之一,如约翰霍普金斯大学和哥伦比亚大学均开设有名为探索性数据分析(Exploratory Data Analysis)的课程。

  主要讲解数据产品开发方法、试验设计和优化论等知识。其中,数据产品开发是数据科学专业教育的重要抓手之一。例如,卡内基梅隆大学的智能信息系统的设计与开发(Design and Engineering of Intelligent Info Systems)。在数据产品开发中,试验设计和优化论是必不可少的支撑课程,如华盛顿大学和纽约大学分别开设有关试验设计(Design of Experiment)和优化论(Optimization)有关的课程。

  主要讲解数据科学的研究与实践中的非技术和工程类问题,主要涉及大数据与数据分析相关的道德、隐私、法律、经济和社会影响。例如,立体模块华盛顿大学开设的《以人为中心的数据科学(Human-Centered Data Science)》课程[37]的内容涉及数据道德与隐私、算法偏倚、法律框架和知识产权保护、数据溯源和再现、数据管理与长久保存、大数据的用户体验和可用性测试、大规模协同中的道德问题、数据沟通以及数据科学的社会影响。

  主要讲解如何综合运用数据科学专业中学习的理论、方法、技术和工具解决具体行业中的实际问题,重点培养学生的实战能力。加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、哥伦比亚大学(纽约)的综合训练课程成为《数据科学综合训练课程(Data Science Capstone)》课程,均强调学生以团队工作的形式,选择解决具体行业中真实问题和真实数据,提升自己的数据洞见、数据产品开发和综合动手能力。

  目前,我国数据科学与大数据技术专业建设仍处于起步阶段,其课程体系的设计中存在一些不足之处,甚至存在曲解现象。我国大数据教育中存在的常见曲解以及以上分析的借鉴意义主要体现在:

  从目前国内部分高校的培养方案可看出,其数据科学专业课程体系主要由计算机科学和统计学两大学科领域的主干课程组成,而对数据科学本身的关注不够,并没有开出数据科学专业的特色课程。需要注意的是,计算机科学和统计学是数据科学的理论基础,而并非是数据科学特有的知识[38]。世界一流大学的数据科学课程设置看,数据科学专业并非是计算机科学和统计学的简单拼凑,而更加突出的是数据科学本身——数据科学的基础理论、数据加工、数据分析、数据计算、数据管理及数据产品开发。从本次调查分析发现,数据科学专业中应重视的新课程有:

  从国内部分高校公布的数据科学专业课程体系看,一般均设有两门基础课程——统计学和机器学习,并直接将计算机科学和统计学专业的两门课程照搬到数据科学这一新专业之中,甚至教学大纲都没有做任何的改动。但是,从上述一流大学的课程设置看,数据科学专业中讲解统计学和机器学习的方式与统计学和计算机科学等传统学科不同。以机器学习为例,

  加州大学伯克利分校和约翰霍普金斯大学的开设的课程名分别为《应用机器学习(Applied Machine Learning)》、《实用机器学习(Practical Machine Learning)》,强调的是从应用角度讲解机器学习;

  华盛顿大学开设课程名为《数据科学家常用的统计机器学习(Statistical Machine Learning for Data Scientists)》,强调的是从数据科学视角讲解统计学,突出的是数据科学与机器学习之间的关联;

  卡内基梅隆大学的课程名为《大数据集的机器学习(Machine Learning with Big Data Sets)》,强调的是面向大数据的机器学习。

  纽约大学开设的课程名为《机器学习与计算统计学(Machine Learning and Computational Statistics) 》,强调的是机器学习与统计学的深层融合,而并非是二者的简单拼凑。

  由于大数据在相关性分析领域的应用案例和故事较多,部分高校的大数据教育中过分强调相关分析,而忽略了因果分析,甚至认为大数据或数据科学不善于或不包括因果分析。因此,因果分析的课程在国内数据科学与大数据技术专业的课程中极其罕见。与此不同的是,国外数据科学专业中“因果分析”课程较为常见,体现了数据分析的多样性以及因果分析在数据科学中的重要地位:

  在国内,部分学校的数据科学专业的人才培养方案与数据工程、数据仓库、商务智能等其他专业或方向的区别并非明显,课程设置仍定位在于数据工程师的培养,关注的科学问题是数据本身的管理。但是,数据科学专业与数据工程专业不同,侧重的是“基于数据的管理”,而并非是“数据本身的管理”,其培养目的为数据科学家和数据分析师。例如,

  在国内,从部分学校的大数据专业课程体系看,为了区分和凸显新专业的特殊性,在每个课程的名称中简单机械地增加了“大数据”字样,如《大数据系统与算法》等。但是,从国外经验可以看出,数据科学专业的课程不一定要打“大数据”的旗号,例如:

  华盛顿大学开设的课程《可扩展的数据系统与算法(Scalable Data Systems & Algorithms)》,虽没有注明“大数据(Big Data)”字样,但充分体现了大数据系统和算法的核心需求和主要矛盾——可扩展性(Scalability)。

  斯坦福大学开设的课程“基于数据的计算范式(Paradigms for Computing with Data)”,虽然没有“大(Big)”字样,但抓住了数据科学的核心问题——基于数据的计算范式。

  目前,国内多所高校的数据科学专业的培养方案趋于同质,相互参照得过多,并没有体现所在高校的优势。从国外课程体系的设计看,不同学校的数据科学与大数据技术专业的人才培养方案并非相同,而主要区别体现在所在高校的学科优势和人才培养的定位。例如斯坦福大学结合自己在统计学、医学、生物学和商务智能的优势,开设出了一些特色课程:

  目前,国内部分学校的数据科学专业的课程设计中仅强调技术和工程问题,而忽略了人文和管理问题。但是,从国外数据科学专业课程设计看,数据科学不仅是技术和工程的问题,而且还涉及道德和法律的范畴,例如:

  目前,国内数据科学专业的课程设计是专门为计算机科学、统计学或数据科学专业的学生设计的,而忽略了其他专业学生的需求。但是,从国外大学数据科学专业或课程的选修生源看,主要生源并非是上述三个专业,而其他专业的生源占绝大多数。纽约大学的数据科学专业的多个培养方向也证明了这一点。因此,在数据科学专业的课程设计中应适当考虑学生来源和去向,加强数据科学与领域知识的高度融合。

  图文来自网络,有删减、如涉及版权问题,请联系我们以便处理。文章内容纯属作者个人观点,不代表本网观点。返回搜狐,查看更多

本文由昆明市波箱控制模块有限公司发布于公司简介,转载请注明出处:数据科学与大数据技术专业特色课程研究

关键词: 立体模块

Excel VBA用户窗体怎么调用模块里的变量?

插入一个用户窗体,放一个文本输入框和一个命令按钮,命令按钮的click事件: 随便输入一个数比如8,得到结果-8,...

详细>>