推荐榜 短消息 big5 繁体中文 找回方式 手机版 广 广告招商 主页 VIP 手机版 VIP 界面风格 ? 帮助 我的 搜索 申请VIP
客服
打印

Google每天处理的数据量已超20PB

购买/设置 醒目高亮!点此感谢支持作者!本贴共获得感谢 X 4

Google每天处理的数据量已超20PB

要在搜索领域超越Google绝非易事,即使对微软和Yahoo!这样的企业而言,也是极困难的。其中一个重要的原因是即使别的企业可以复制或模仿 Google的搜索技术、界面,但它们却无法完全复制Google最引以为荣的软硬件基础架构。Google的硬件方面包括了自行组装的服务器群,以及建设于世界各地的超大型数据中心等 等,这一点我们早就已经知道了。而在软件方面,我们也知道Google服务器里运行的是由Google自行设计的OS及应用程序。事实上,Google的 软件架构的名字为MapReduce,Google依靠它来处理各种数据,比如索引互联网、计算网页PR值、处理Google Earth/Maps的地理信息、聚合Google News里的文章、进行机器翻译等等。可以说MapReduce的效率直接决定着Google的各种产品的表现。因此我们不难想像,MapReduce每 天所处理的数据量将会是十分惊人的,因为Google不仅是世界上最多人使用的搜索引擎,它的众多产品也拥有大量的用户。

到底有多惊人?网络技术专家Niall Kennedy(via GOS)给出的结果是,MapReduce现在每天所处理的数据量已超过20PB(即 20480 TB或20971520GB)。这意味着Google员工可以花更少的时间处理更多的数据,比如他们可以计算数TB的数据,但在10分钟内就可得到结果。 这些MapReduce来自由Google员工Jeffrey Dean及Sanjay Ghemawat所写的一份ACM论文。

当然,要获得这种效率,花费也是惊人的。Google的标准机集群节点由两个2GHz的Intel Xeon多线程处理器、4GB内存、双160GB硬盘及千兆以太网连接构成。从硬件成本上推算,平均每个Google MapReduce任务就会用到100万美元的硬件,而这个价格还不包括网络带宽费、数据中心支出及员工支出等费用在内。因此正如我们之前所说的那样,要 追上Google,你必须得有很多很多的钱,否则你是烧不起来的。

点此感谢支持作者!本贴共获得感谢 X 4
TOP

好恐怖光流量的钱就不得了,相当于20971520 000 000 000字节

TOP



当前时区 GMT+8, 现在时间是 2025-6-29 19:42