科技论文心得,学习谷歌三篇重要论文有感

作者:PaperPP  日期:2019年12月01日

一、掀起门帘,探了一眼

我是一名会计专业的学生,由于专业知识方面的限制,对三篇论文的理解有一定的困难。第一次阅读完这三篇论文后的真实感受,就是云里雾里和无法理解。但随着后来老师带领下不断深入地学习,很幸运的是,我还是有所收获。

正如向老师所说,学习这门选修课的目的,并不是要求我们每个人都能够完全掌握和精通大数据与人工智能。一方面不需要给自己这么大的压力,另一方面也不现实。毕竟念完大学四年才可能仅仅算作入门的专业,显而易见需要相当扎实深厚的知识基础功底作为积淀。对于我们来说,专业知识固然不在掌握能力范围之内。因此这门课程对我来说,最大的意义不仅仅在于知识,更在于开阔了眼界和视野,拓展了思维的宽度和深度,对于当今乃至未来引领发展趋势的技术有了更深一步地认识。学习这门课程,相当于为我们打开了一扇窗(虽然门可能没有机会进去了),或者说向老师给我们掀起了一个门帘,让我们有机会往里头探了一眼。

以下就是我对学习了谷歌三篇论文后的收获的记录和一个小小的分享。其中可能有专业知识方面的错误,希望能够得到指正,也希望多多理解。

二、大数据-“大”“数据”

谷歌三篇论文中的三个主角“Google File System”“Google MapReduce”“Google Bigtable”,均是为了处理大规模数据而诞生的三个重要的工具。所以,首先想要分享对于大数据的理解。

大数据是什么?在这里主要是指大小超过了常用软件工具在常规的运营时间内可以承受的收集、管理和处理数据能力的数据集。

我们可以通过拆分词语来理解它的意思。

大数据的特征首先就在于“大”:这个“大”的程度还不仅仅是一般的大量、巨大、庞大可以描述的过来的,用两个词语“浩如烟海”“海量”来形容倒是比较贴切。如果用数学上的表示则是数十TB~十几PB级的数据规模。当然大数据除了数据量大以外,还包括其多样性、真实性(含可审计性)、价值密度低、速度快的几大特性。

那么“数据”呢,是指事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。可以说数据是信息的表现形式和载体,一方面,它是一切可定量分析信息的记录,在这不单指狭义上的数字,还包含具有意义的数符、文字、图像、音频等等;另一方面,数据经过加工可以成为信息,对信息进行挖掘成为知识,合理应用知识可产生价值,最终使人类受益。总的来说,我认为其中运用到了量化的思维对信息进行处理,加以统计分析,从而得出结论。只要数据量越大,那么得到的结果准确性就越高、结论的普遍性和科学性就越强。

在《新人类简史》中也提到,数据是个老掉牙的东西了,从早期的结绳记事、以月亮圆缺计算岁月,到后来部落内部以猎物、采摘数量计算贡献,再到每朝每代的土地农田、人口粮食、车马军队等等,都涉及到了大量的数据,只是人们从未以“大”冠之,但其实很早就已经出现。随着互联网、物联网伟大的技术革命的开始,物与物之间的联系日益密切起来,即使是一件物品几天内被人感知到的动态数据都可以多达古代一个国王一年内收集的数据量。很显然,物联网上成万成亿的物品,其涉及到数据量不得是用海量来形容吗?由此,大数据诞生。“云计算”“人工智能”“智能XX”……随之而来。

看起来大数据一词被提及的频次是近几年才比较高的,但实际上它其实很早就被广泛地应用在我们生活当中了。比如说超市货架上货物的陈列规律、服装店里通过模特身上安装的传感器对衣服取下、放回的次数统计、淘宝、京东等购物平台的后台根据购买数据、浏览页面的频率对消费者进行广告精确定位推送、通过电量对该地区经济发展水平高低作出推断、天气预报等等方面对大数据的运用,几乎无处不在,与我们的生活密不可分。这些应用背后的规律,正是通过对大数据的分析得来的。数据本身只是一个结果,并不具有多大的意义,其意义往往是人们赋予给它的。只有通过对数据进行处理、分析和判断,得出结论并加以应用,才能够产生价值。所以说,当今挖掘数据背后的价值、拓宽它的应用领域就显得尤为重要。这对人才和各个行业之间的合作方面就有大量的需求。

科技论文心得

三、实现大数据处理的三样工具-“Google File System”“Google MapReduce”“Google Bigtable”

Google File System(GFS),一个面向大规模数据的分布式文件系统,主要用于文件存储。GFS出现的背景是为了满足Google 迅速增长的数据处理需求。当时的Google公司一方面对数据处理有着巨大需求,需要一个支持海量存储的文件系统,另一方面市场上仅有IBM公司可提供可靠的分布式文件系统与硬件,但价格又及其昂贵。现实条件的冰冷和残酷碰撞,Google的技术人员们并没有向现实低头。他们开始思考:是否可以在一堆廉价且不可靠的硬件上构建一个可靠的分布式文件系统呢?令人振奋的是,他们做到了,他们成功了!GFS的诞生就是一个最好的见证。GFS虽然运行在廉价的普遍硬件设备之上,但它却可以为大量的客户机提供高性能的服务,这很好地解决了当初阻碍他们前进的问题。了解到这背后的故事,我不禁为之触动:即使现实条件不算好,也有创造奇迹的可能!

“并行式”:我们使用电脑时,经常接触到的C盘、D盘、E盘、F盘就属于一种单机的物理存储形式,这种被称为并行式。

关于“可靠性”:对于我们再熟悉不过的电话机来说,它的可靠性是由线路来完成的,属于物理连接,可靠性比较高。从前电话联通可少不了接线员。拨号的一头通过摇动手柄,手摇发电,接线处信号灯亮起后,接线员接线到拨号地,从而实现电话的联通。而现如今我们使用的网络,则是由“端”进行负责,可靠性就由协议和软件来完成。

Google MapReduce,是一种处理海量数据的并行编程模式,主要包括映射和化简两个方法和体现了化整为零的思维方式。为什么会出现MapReduce呢?这是因为Google拥有着海量的数据需要处理,如全球网页数据、邮件数据、地图数据、卫星图片……计算问题简单,但求解困难,数据量巨大(PB级),只有分布在成百上千个节点上并行计算才能在可接受的时间内完成。如何进行并行分布式计算?如何分发待处理数据?如何处理分布式计算中的错误?这就需要封装并行化处理、负载均衡、容错处理、本地化计算等来一一解决。

开发者需要编写两个函数-key和value。其中我们可以将整个模型的运行过程形象地类比采茶工采茶的流程。那么这里编写两个函数,就相当于对采茶工进行技能培训:key好比每个采茶工的某一个茶篓,它只允许该种茶叶放入指定的茶篓;value类比每个采茶工采摘所得的茶叶数量,如张三采集的量是value 1,王五采集的量是value 2。

MapReduce 的操作执行流程中,有两个主体:Master和Worker。前者类似于领导,会定时监督后者的情况,确定其是否仍在运行。每个worker之间不相干扰,分别完成各自被分配的任务。

在处理文件时,master 和worker之间会进行交流。若一个worker完成了任务,它会向master报告,等待接收。master接受完毕后又继续工作。任务完成,master也会向worker下发指令:任务完成,收工!指令的来来回回,与现实之中人们的沟通交流非常相像。

再来说一下MapReduce的容错机制,分为两个部分,一个是worker,另一个是master。worker出现情况,就像采茶过程中采茶工遭遇突发事件,如遭蛇攻击、采茶工中暑晕倒等。master如何知晓出现情况呢?它是通过master周期性地向worker下发指令,通过worker的回应来判断worker是否在正常运行。一旦遇到这种情况,master会重新调配新的worker顶替。

如果是master出现状况,原先的master崩溃,那么worker之中就会随之重新选出新的master,又开始新一轮的工作。使工作能够有条不紊地进行,不被中断。

“编程模型”:处理问题的步骤,运用到分布思想。

“并行”:多个CPU同时进行,类似于多个采茶工同时采茶。

“并发”:CPU在高速运行的状态下,从微观层面看,是单个CPU多个任务的交替进行。好比“360卫士”“暴风影音”“QQ”三个软件同时在运行,那么微观上,可能就是先运行一段时间360卫士,下一段时间运行暴风影音,再下一段运行360卫士,继续是QQ运行一段时间……如此交替下去。

我还想谈谈自己对MapReduce的一个想法。我认为MapReduce的设计主要体现出了一种“化整为零”再“化零为整”的思想。比如,论文中提到,“用户程序首先调用的MapReduce库输入文件分成M个数据片度”。基本上都是采用了分割和拆分的方法去处理大量的数据,把问题分解成为大量的“小”任务,很好起到化繁为简的作用,可以使很多复杂的问题的得到简单的解决。

Google Bigtable,则是一个分布式的结构化数据存储系统,同样是被设计用来处理海量数据(通常是PB级)。它与Chubby、Paxos算法有较多联系。

“Chubby”被称作是“强制性的锁”,它是是一对一的串行并发的,具有一致性。在买票系统、银行系统方面有着非常广泛的应用。

Google的三篇技术论文意味着世界进入大数据时代,数据计算速度的极大提升,也为各个领域提供了新思路。

四、走在当下,未来可期

再谈谈学习的收获吧。虽然无法完全理解专业性知识,但我不仅对大数据与人工智能有了进一步的了解和认识,而且还学习到了一些分析数据的方法、量化分析处理的思维方式,也对日常生活中时常出现的现象有了更深的认识,多了几个角度去看问题、处理问题。同时,我也不禁被人类的智慧折服,被技术员面对困难不轻言放弃的态度和严谨做事风格所打动。

我想分享一个最近看到的非常令我佩服的一个大数据在调查大学生心理方面的应用的例子,与关于心理问题的预防管理有关:某校对00后进入大学的大学生进行调查发现,五千个00后新生里,有将近一百个学生有严重自杀倾向,比例达到惊人的百分之二。于是他们通过学生的社交状态来分析学生的心理状态。每个学生都有一卡通,里面记录了学生在学校里的生活状态,比如食堂刷卡、进出图书馆之类。关系比较亲密的同学之间,前后脚刷卡的可能性很大。我们做过个数据调查,两个陌生同学,一个月内前后脚刷卡的概率只有三百分之一,两次及以上概率十二万分之一,三次及以上三千万分之一。2017年,通过调查一卡通数据,找到了校园里八百多名“最孤独的人”,他们在一年半内没有一个亲密好友。而这八百多人里,有一百七十多人,在一年内做过心理方面的咨询或治疗。通过这种类型的分析,尽可能的发现学生中的潜在心理问题患者,并予以相应的帮助。

这个例子给我的震撼极大,通过这些我们平时根本不会多去留意的数据,深入发掘,竟然还可以有这么大的用武之地,甚至可以挽救生命。这着实令人震撼!

2016年,“十三五”规划建议提出实施国家大数据战略,旨在全面推进我国大数据发展和应用。至此,大数据战略上升为国家战略。国家大数据战略对于中国经济社会发展的重要地位和时代意义。可见,大数据对于一个国家,甚至是世界的发展都具有十分重要的意义。大数据一方面是人工智能的前提、基础和支撑,另一方面它与“云计算”“物联网”“数据挖掘”“智能XX”“区块链”都有着密不可分的联系,或者说都是“拴在一根线上的蚂蚱”,它们在各个行业和领域的应用,大大提高了整个社会的生产效率,推动了各行各业的发展,惠及了千家万户。

在我所学的会计专业领域里,成本费用的控制、财务状况的统计分析、企业客户的往来数据分析,大数据都已经慢慢渗透到其中,大大地提高会计工作人员的工作效率,也便利了领导者和管理者对企业或是部门的大局把控和企业战略走向部署。我想,这对于会计从业者来说不仅仅是机遇,也更是挑战。从整个社会的角度来说,我们希望大数据能够更多地与各个行业的合作,使得整个社会得到加速的发展。未来可期呀!这也需要我们每一个人脚踏实地地走好脚下的路,才能给未来打下最坚实的基础!

分享到:
在线客服在线客服