大数据时代:未来十年新趋势


一、更多的数据科学策略
数据科学就是通过定量的方式解决问题的一门学科。在过去,由于缺少数据或数据处理能力,我们只能依赖其它东西,比如“独裁者的突发奇想”、“专家的直觉”和“普遍的共识”等。10 年后它们的作用会更有限。数据科学家转而在搭建一些系统,这些系统可以输出语音、预测、给出期望并输出真正的结果。数据科学技术的泡沫不会破裂,相反,数据驱动策略的引入将继续占据主流。更多的人会关注数据,从数据中获得真知灼见,所以数据科学团队成为任何成功组织机构,至少是大部分组织不可或缺的一部分。

二、更多界定明确的角色
现在,数据科学家是一个宽泛的头衔。我们一般把数据科学领域的角色分成 4 类,它们角色职能不同但有重叠。
1、数据架构师——开发数据架构,以有效地捕获、整合、组织、中心化和维护数据。
2、数据分析师——处理和解释数据,为公司提供有执行意义的预测。
3、数据科学家——一旦数据体量和产生速率达到一定水平,需要复杂技术时,他们会对数据进行分析。
4、数据工程师——开发、测试和维护数据架构,保证随时使用和分析数据。
我认为随着时间推移,所有这些角色我们会更熟悉,我们也会更了解它们的不同点。因此,顾客会对什么可得什么不可得,有更切实际的期待,头脑中会有更清晰的工作流程,还有从中获得的收益。


三、更多的软技能需求
随着时间推移,我们会更清楚地看到,大量的数据科学家会熟练运用 Python 或 R 语言。但是,向管理层推销你的想法的能力,说服他们相信你的洞察和见解才值得追求的能力,这种能力会怎样?可视化描述可以承担一半工作,而另一半就是老旧的市场营销能力。我们会看到市场更青睐那些知道如何围绕出售产品创造关键性对话的人。


四、更少的代码
据特斯拉 AI 总监 A. Karpathy 说,不久的将来,我们可以不用写代码了。我们只需要找到数据,并输入到机器学习系统即可。此种场景下,软件工程师的角色会成为“数据监管者”。未来大多数程序员都不再需要复杂的软件仓库,不用写复杂的程序。程序员会从事搜集、清理、操作、标记、分析数据以及对神经网络产生的数据进行可视化的工作。机器学习正在引领一种新的计算范式,在该范式中训练机器才是关键技能。随着机器学习技术的普及,以及通过工具的抽象达到更高程度,我们会看到大部分编程工作会逐渐消失。最终,制造产品的大部分步骤将是屏幕上的拖拽、刷卡、指向和点击操作。

五、尽可能多地使用 API
大部分公司是先做好一件事情,攒到名气,然后以此起步,以开源 API(应用程序接口)的形式贡献到社区。10 年后,大部分软件的制作方式会可见地接入到终端,最大程度地利用一切所需的服务生成解决方案。数据科学家能快速构建测试模型,一次建立和测试多种算法,最后和整个团队可视化验证结果。

六、数据会更多,处理数据的人工智能也会更多
到 2025 年,预计全球每天将产生 463 艾字节(463*10^18 字节)数据,相当于每天212,765,957 张 DVD 的数据量!实际上,仅靠数据科学家,无法管理和处理这么庞大的数据。届时,人工智能很可能成为协助数据科学家处理数据的有效工具。自动化数据分析工具和机器学习会“聪明”到取代数据科学家做例行工作,比如探索性数据分析、数据清理、统计建模和构建机器学习模型。

七、自我学习
传统的学术环境将逐渐失去意义。信息经济需要能快速改变信息的途径。人们通过 3-4 年的学习毕业后,所学的技能已经过时。人们开始掌控自己的学习过程为自己赋能,未来得以生存的学院将是那些拥抱在线学习、快速更新课程授予方式的学院。未来的学习会基于你能构建什么而定义,而不是缺乏现实世界应用的基础原理。