摘要1月13日下午中国人民大学信息资源管理学院副教授朝乐门在CIO时代APP微讲座栏目进行了题为——为什么《数据科学》是现代人才的“必修课”的主题演讲。
关键词 CIO时代APP微讲座 《数据科学》
1月13日下午中国人民大学信息资源管理学院副教授朝乐门在CIO时代APP微讲座栏目进行了题为——为什么《数据科学》是现代人才的“必修课”的主题演讲。以下为演讲实录
大家好我是人民大学的朝乐门。今天我们只讨论一个why的问题——为什么《数据科学》是现代人才的“必修课”
“数据科学”是什么“数据科学”是大数据背后的科学。大家静下来想一想“大数据热”到底给我们带来了什么呢带来的是各个学科领域所面对的“数据”变了导致我们对数据的“认识”也发生了改变。当然这还不是问题的关键问题的关键在于大数据这场“风暴”过后它会“留下”什么留下的是《数据科学》。至于“数据科学”的规范定义今天不讨论。如果你感兴趣可以查阅我的《数据科学》一书书中给出了规范定义方法。
现在很多人都在纠结于大数据的这个“大”字之上都在试图诠释现代社会的“数据规模”有“多大”其实这是一种“曲解”。所谓的“大”是相对概念。人类历史上每过一段时间人们都会觉得信息量“大”了“大”到要“快要爆炸了”。比如一百年前的科学家也曾感到当时的信息已经“爆炸”了他们觉得学术论文一下子“多得不得了”都看不过来了开始要求写“摘要”abstract。从现代人的眼界看一百年前的所谓“信息爆炸”不算什么。同样今天所谓的“大数据”对于一百年后的人们来说也不算什么。
那么“大数据”就不重要了么不是。我的意思是“大数据”的“奥妙”不在于其“大小”上而在于“我们所面对的数据变了”。怎么讲看上面这个slice。近年来随着“云物移大智”等新技术的普及我们获得、存储和处理数据的能力提升了结果是我们所面对的“数据”变了更重要的是传统知识如各领域中的传统理念、理论、方法、技术、工具等无法处理“这种变化了的新数据”最终结果呢各学科需要重新认识“数据”并必须在认识论和方法论层次上重写自己学科领域“知识”。
如果仔细观察出我们会发现一个很奇怪的现象——现在几乎所有的领域都在高谈“大数据”但是每个领域对“大数据”的理解不同。每个领域都认为自己做的才是“真正的大数据”总是怀疑另一个领域所说的“大数据”并不是“真正的大数据”。那么谁对谁错呢我的观点是大家不要总纠结“大数据”中的这个“大”字如果非要关注也不要仅限于“量的大小”而是理解成“大的变革”。也就是说传统学科所面临的“数据”有了“大的变革”。随之各学科要做的工作、要用的方法以及要面对的问题的也需要变更。可以这样理解大数据时代到来之前每个学科对数据都有自己固有的一套认识和处理方法。但是大数据时代的到来迫使人们改变这些传统认识。
数据变了与每个学科中固有的数据认识论不同了。原来我们一直以为数据是“那样”的但现在却变成“这样”了。以社会科学为例以前我们都是挑选一些关键节点进行采集数据如小区进出口有个大爷登记你的姓名进去了就没有其他记录了。现在小区门口小区内都有摄像头采上来的数据比较全面那么这种数据又如何处理和分析呢在传统理论中找不到答案。这就我们需要一个新的理论——大数据理论即数据科学。
那么我们再讨论一个更深层次的问题——为什么基于“小数据”的传统理论就不能解释“大数据现象”了呢“大数据”不就是“小数据”的集合吗没那么简单。大数据不是小数据的“简单集合”。从“小数据”到“大数据”的过程中产生了“涌现”现象大家看这个slice。这个slice告诉我们“涌现”才是大数据的本质特征。所谓的“涌现”就是系统大于元素之和或者说系统在跨越层次时发生了新的属性或新的质。比如大数据中个别数据可以有误允许缺失、冗余、垃圾数据的存在但不影响大数据的质量再如大数据中的每一条数据都“没什么用”但放在一起就“很有用”大数据中的每一条信息都“不是什么秘密”放在一起“就得保密”了。
听到此处你可能说“在说什么呢怎么开听不懂了”。这样吧我给你一个不是很恰当的例子来解释什么是“涌现”吧。有人研究过黑人闹事现象之后发现了一个很奇怪的现象。当这些人一个个独处时是很老实、善良甚至有点胆小那么聚在一起就不老实了经常闹事了呢研究发现这些人的“理智指数”与“聚集人数”成反比当聚集人数很多时每个人的理智几乎等于零一个弱女子都变得非常恐怖。也就是说从小数据到大数据会涌现出很多你想象不到的特征。
回到“大数据”这个话题用大数据为例子说明这个“涌现”现象。比如交通大数据街上有很多摄像头交通部门收集了大数据你要跟交通部门要数据他们说保密不能提供。你可能会很郁闷为什么呢凭什么呢你会特别‘想不通’大街上发生的事情是公开的摄像头也是公开的摄像过程也是公开的那怎么到他们那里就成了“保密”了呢越想越想不通越想越生气。其实从数据科学角度讲交通部门的做法是合理的而你想得太简单啦。你想想交通部门的每一条数据都不是什么保密的但是这些不保密的数据放在一起就不得了了可以分析出你的行为习惯危害到个人隐私、社会安全、甚至国家安全。这就是大数据的“涌现”也是为什么不能用基于“小数据”的理论不能解释“大数据现象”的原因所在。
各学科领域是否意识到这种变化了呢答案是当然已经意识到了。大数据出现以后似乎对每个学科领域的影响很大大到什么程度呢似乎每个学些都怕死如统计学怕死都在喊我是数据科学的祖宗至少是他的亲戚或朋友。比如呼声最高的是统计学和计算机科学。结果呢都怕死都开始主动去“拥抱”大数据于是出来了很多新学科请看下一个slice。
比如新闻学与大数据交叉后产生了一门新的研究领域——DataJournalism。还有金融和大数据交叉之后出现了“大数据金融”很多学科中都出现了一个新的方向。那么我们进一步想一下这些新的学科交叉会出现什么或者说这些新的学科中有哪些共同性理论呢那就是数据科学。也就是说数据科学将会是学习这些领域知识的基础理论。
上面说的都是比较遥远的事情对于很多人来说都是“难以体会到”的问题来一个离你最近的例子吧请问你在做研究时比如写论文做课题时在用什么“研究方法”呢是不是还在“问卷”和“访谈”再看看Jimgray的观点是什么我是想提Jimgray的第四范式理论。Jimgray是谁呢图灵奖的获得者学过数据库的都知道他一个伟大且神秘的科学家。JimGray提出的科学研究的第四范式又称《数据密集型科学发现Data-intensiveScientificDiscovery》。在他看来人类科学研究活动已经历过三中不同范式的演变过程原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”目前正在从“计算科学范式”转向“数据密集型科学发现范式”。第四范式即“数据密集型科学发现范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识无须直接面对所研究的物理对象。例如近年来天文学家的研究方式发生了新的变化——其主要研究任务变为从海量数据库中发现所需的天体活动的照片而不再需要亲自进行太空拍照。那么JimGray提出的第四范式对我们的科学研究有什么意义呢意义在于绝大部分大学生的研究范式有待调整——他们往往习惯性地“采用问卷调查法等方法亲自收集新数据”而不是“首先想到有没有现成的大数据以及如何再利用已有的数据数据洞见”。我是再强调一次在大数据时代研究范式需要调整你需要学习的专业理论、方法、技术、工具、最佳实践都需要拓展甚至必须改变。这就是我为什么说“数据科学是现代人才的必须课”的原因所在。
由于时间所限至于数据科学的理论体系以及如何学习数据科学、注意哪些事项、到底什么事大数据研究范式等what、how、when、where、who等更多问题我们今天就不讨论了。如果你想进一步学习建议你读我写的书《数据科学》清华大学出版社。当然也呼吁大家多读经典文献多做最佳实战注意数据科学的“3个要素”和数据科学家的“3C精神”。