如何正常访问Google快照?

Poon 发表于 历史资料库 分类,
0
 

什么是网页快照?网页快照,其实就是搜索引擎在收录网站时,抓取的网页内容,这些内容被保存在搜索引擎的服务器上面,当被收录网站的服务器出现故障时,用户仍可通过网页快照去查看相关页面。

当我们通过Google、Baidu、Yahoo、Sogou等网站进行搜索的时候,在搜索得到的结果处,可以看到许多的网页快照。然而,因为众所周知的原因,Google的网页快照在中国一直都打不开,虽然Google的服务器一直都是正常运行着的。

前段时间,在月光博客上面看到一篇题目为《正常访问Google网页快照的方法》的文章,我也按照文章所给出的方法试验了,然而结果并不是很理想,只能解决部分问题,有许多网页快照仍然无法打开。

去年就听说,soso是Tencent跟Google合作的项目,今年早些时候也听说soso用的是Google的网页快照。今天突然想到能不能通过soso.com来访问Google.com的网页快照呢?

soso的快照地址格式是 http://www.google.com/search?hl=zh-CN&q=cache:…………..
Google快照地址格式是 http://72.14.235.104/search?q=cache:…………

我们来个狸猫换太子,将Google网页快照地址前面的 http://72.14.235.104/search?q=
换成 http://www.google.com/search?hl=zh-CN&q= 试试:

比如在Google.com查询 site:honglousky.com,得到本站首页的快照地址是
http://72.14.235.104/search?q=cache:xV2WV_18YxoJ:http://www.honglousky.com/

如上图,Google.com得到的快照是无法显示的,但是换成下面这个地址,便能够正常打开了:
http://www.google.com/search?hl=zh-CN&q=cache:xV2WV_18YxoJ:http://www.honglousky.com/

实践证明,我想出来的这个方法是可行的。但如果每次都这样操作,实在是太麻烦了,所以如果需要经常使用Google的网页快照,建议你安装一些浏览器的开发插件,自动将快照地址中的字符串进行转换。

需要说明的是,不同的浏览器使用的插件是不同的,FireFox使用的是GreaseMonkey插件,而IE使用的是Trixie,不过两者功能基本一样,使用的js代码也一样,这里我就以FireFox为例详细说明一下如何安装使用。

FireFox浏览器的具体操作方法如下:

首先,使用FireFox浏览GreaseMonkey网站,点Install Greasemonkey来安装GreaseMonkey插件。

然后,访问这个地址,点Install来安装Google Cache代码,安装完毕后就能正常访问Google的网页快照了。

下面是具体的代码,Trixie插件同样也可以使用这段代码:

(function() {
var allLinks = document.links;
if (allLinks  != null)
   {
      for (i = 0; i <allLinks.length; ++i)
      {
         if (allLinks [i].href.indexOf ("72.14.235.104/search?q=cache:") > 0)
         {
             allLinks [i].href = allLinks [i].href.replace ("72.14.235.104/search?q=cache:", "www.google.com/search?hl=zh-CN&q=cache:");
         }
      }
   }
}
)();

可能有人要问了:既然soso的网页快照也能正常访问,那何不直接使用soso进行搜索呢?

其实,soso只是使用了Google的网页快照,而soso的搜索质量,跟Google相差很大的。换句话说,比如同样的关键字,在Google可能搜到上万条相关的信息,而通过soso,可能只能搜到几百条相关信息,甚至更少。

相关链接一:《正常访问Google网页快照的方法
相关链接二:《正常访问Google网页快照的插件代码


【版权声明】 
  禁止转载本站含有照片的文章(包括但不限于本人及本人亲友的照片)
  禁止转载本站涉及中国大陆现状的描述、本人的政治评论等相关文章
  其余文章允许非商用性质的转载,但请保留链接 http://400.tw

发表我的评论