用户名: 密码:
设为首页 加入收藏 网站地图
首页 | 资讯 | 国内 | 国际 | 人物 | 评论 | 新品 | 安全 | 学院 | 系统 | 办公  | 网页 | 平面  | 程序 | 组网 | 图库 | 壁纸 | 风景
植物 | 动物 | 美食 | 图标 | 插画 | 数码 | 建筑 | 风俗 | 家居 | 素材 | 矢量 | 模板 | 下载 | 软件 | 字体 | 书籍 | 源码 | 搜索
您现在的位置: iT家园 >> 资讯中心 >> 互联网资讯 >> 国际互联网 >> 资讯正文
Google即将开始深度Web索引
ReadWriteWeb 2008-4-13 7:20:02  收藏本文

    Google 从来都不会停止对信息的追求,去年共有100 Exabyte 的数据被 Google 消化(1Exabyte=1000000000Gigabyte)。据估计,仍有大量的在线数据是 Google 所无法获取的,如那些未被索引的网页,非文本内容,以及需要通过表单发布方可获取的动态内容,即所谓的深度Web。Google 近日在一篇博客文章中宣布,他们即将涉足这些深度Web数据。

在这篇博客文章中,Google 的 Jayant Madhavan 与 Alon Halevy 说,对于那些文本框,我们会从所在页选择一些词汇填写,对于选择框与复选框,我们会从 HTML 中选择一些值,一旦填写好表单,我们会尝试发布这个表单并对返回的合法,有意义的内容进行索引。

Google 同时强调,他们会一如既往地尊重 robots.txt 协议,任何在 robots.txt 被禁止的表单都不会被索引。

据估计,深度 Web 的规模是常规的公开 Web  的数倍,尽管在网络中,有很多数据是  Google 不应涉足的,但表单可以让 Google 在网络中更进一步,Matt Cutts 指出,我们这样做主要不是为了那些通过表单发布而返回的搜索结果,更多是为了发现一些通过常规手段所没能发现的新链接。

需要指出的是,Google 只索引那些使用 GET 协议的表单,而不会尝试去发布那些使用 POST 协议的表单,所以,你不必担心自己的在线反馈表单收到一堆来自 Google 的垃圾信息。

      
相 关 资 讯

美联社总裁:我们更关心微软Google在做什么
Google:12个月完成十二起收购
Google推最热门搜索关键词排行榜 每日一份
Google全球CEO施密特:李开复不会离开谷歌

  • 上一条资讯:
  • 下一条资讯: 没有了
  • 网 友 评 论
    昵 称
    评 分 1分 2分 3分 4分 5分
    评论内容
    评论内容只代表网友个人观点,与本网站立场无关。
    资讯搜索
    热点推荐
    ·Google即将开始深度Web索引
    ·消息称雅虎董事会将与微软AO
    ·雅虎高层再次重组 全球销售副
    ·新闻集团和NBC合作网站被命名
    ·博客已发展成主流 但仍不是正
    ·美国电子商务十年间十大成果
    ·国家的域名受欢迎:德国.de与
    ·谷歌手机电子支付服务现身
    ·YouTube泰国解禁
    ·互联网之父瑟夫:2011年IPv4
    ·亚马逊确认将推网络支付服务
    ·报告称明年全球互联网广告将
    ·美43%未成年人下载过盗版音乐
    ·MySpace删除性犯罪分子账户
    ·韩对六大门户展开反垄断调查
    网站简介 | 广告服务 | 联系方式 | 意见建议 | 版权声明 | 网站导航
    iT家园 iT926.com 版权所有 冀ICP备06008368号
    Copyright 2006-2009 All rights reserved