核心提示:Google 每天花费大量时间探索更好的信息整理技术,目前使用的技术为 MapReduce。Google 的每 TB 数据处理能力为,在1000台计算机中处理 1TB 数据的时间为68秒,而以前的表现为 910 台电脑 209秒。 |
中国站长站(chinaz.com)11月24日据谷歌博客透露:谷歌采用的新信息整理技术——MapReduce,处理速度是过去三倍。
谷歌热衷于处理全球的信息,每天,他们花费大量时间探索更好的信息整理技术,他们目前使用的技术为 MapReduce,这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力,MapReduce 是谷歌日常数据处理的完美技术方案。
谷歌 的数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助谷歌理解和对比不同技术的优秀劣,并获得经验和教训,以改进下一代数据处理技术。
目前,谷歌的每 TB 数据处理能力为,在1000台计算机中处理 1TB 数据的时间为68秒(使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中),以前的表现为 910 台电脑 209秒。
但谷歌要处理的数据远超过 TB 级,因此,Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍,或者,形象一点说,1PB 数据相当于 2008 年5月,美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示,谷歌每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。
有一个有趣的问题,就是,如何保存这么多数据。谷歌将这些数据保存在 48000 个硬盘中(每个只利用了部分空间),每次进行数据整理,至少有一个硬盘坏掉(鉴于处理的时长,硬盘的数目和硬盘本身的寿命,这并不奇怪),因此,为了保证数据安全,谷歌将每份数据都在不同的硬盘上写三份。(来源:googleblog.blogspot.com翻译:COMSHARP CMS)
广州市越秀区沿江中路313号康富来国际大厦1203-1205室
深圳市福田区深南大道6007号安徽大厦创展中心18楼14-17室
上海市长宁区延安西路895号申亚金融广场18楼D2-10
佛山市禅城区季华五路万科金融中心3313室
Copyright © 2003-
互诺科技, All Rights Reserved
粤公网安备 44010402000282号 粤ICP备09019378号-1