计算机‎ > ‎软件‎ > ‎Linux‎ > ‎

安装 Google Search Appliance 虚拟机版 为本地局域网提供搜索引擎

发布者:guo rue,发布时间:2014年7月17日 04:19   [ 更新时间:2014年7月17日 18:38 ]
对我来说谷歌三大应用是,Google Reader,Gmail,和搜索。阅读器被谷歌自己砍了,邮箱2010年之后就一直被干扰,如今(受到G-F-W的干扰)连 www.google.com 搜索都打不开了。

机智的网友发现可以用IP直连谷歌搜索,但是谷歌觉得还是不要让网友这样做比较好,就发现一个IP流量异常就关掉一个IP搜索访问,然后网友有找到新的可以直连的IP,然后又被关掉。很有当年寻找GAE的IP的赶脚。

但是,我老了,对我来说,每天去论坛等着新IP发出来,或者自己去找新IP什么的,很浪费时间。好在,老有老的优势,我有几乎是一门失传了的手艺,当初是发表在 黑板报 上面。不幸的是,黑板报似乎已经挂了。没关系,这里有一份被抓到的备份。

http://reader.guoruei.net/archives/1199
在自己的计算机上运行搜索引擎——谷歌搜索服务器虚拟版发布

2008/11/11, 21:32
发表者:谷歌中国工程师 童文超 陈雍升

谷歌公司的使命是整合全球信息,使人人皆可访问并从中受益。对于那些防火墙背后,谷歌的搜索爬虫接触不到的信息,我们提供了谷歌搜索服务器(Google Search Appliance,以下简称GSA)软硬件整体解决方案。GSA 能够对企业、高校等拥有的网页、文档、数据库等相关信息进行高效安全的通用搜索,支持的文件格式达 220 余种。随着 GSA 最新的 5.2 版的发布,我们在全球同时发布了一个运行在虚拟机中的纯软件版的 GSA ——谷歌搜索服务器虚拟版(Google Search Appliance virtual edition,以下简称 GSAve)。

今天,全世界的技术爱好者可以免费从这里下载 GSAve,在自己的计算机上运行自己的搜索引擎,使用它来抓取和索引自己的网站、博客、数据库和网络文件夹。

GSAve 秉承了 GSA 强大的搜索功能和编程接口。谷歌鼓励广大程序员使用 GSAve 提供的接口来开发一些有趣的适合特殊内网环境的搜索体验。

- 使用连接器管理工具,可以让 GSAve 抓取和索引到非 Web 形式的网络资源,例如存放在Sharepoint 中的文档。 
- 使用 Feed API 和元数据搜索功能,您可以为自己的网络论坛(BBS)建立搜索功能。 
- 您可以使用 Onebox 编程接口在搜索结果页面中提供实时数据。 
- GSA 强大的安全搜索功能支持多种身份认证方式,使用户在搜索结果中只见到自己有权限访问的文档。
- 我们专门为小规模文档集设计了专门的网页排序算法。
- 用户可以定制 GSA 的搜索结果界面,甚至以 XML 格式的形式,来整合到您自己的应用中去。

我们在谷歌网上论坛上建立了子论坛 ,这里有世界各地的 GSA 用户一起分享使用经验。你对谷歌搜索服务器虚拟版有任何的建议和反馈,您可以直接发送 email 到 enterprise-gsa-virtual@google.com 告诉我们。

GSA 为我们 Googler 提供了功能强大的内网搜索,我们希望将这种愉快的搜索体验,提供给更多的用户,使人人皆可访问并从中受益。

看起来不错,已经有人感兴趣了。

http://reader.guoruei.net/archives/1206
搭个Google搜索服务器玩?
2008/11/27, 21:31

甚至有人一本正经的研究了起来。

http://reader.guoruei.net/archives/1603
利用Google Search Appliance 服务器做SEO
2009/06/26, 16:06

网上谣传的硬件配置需求。

The following system resources are required:
Intel? Pentium? 4 Processor 2.80 Ghz with HT or equivalent
3 GB of RAM
40 GB of free space on hard disk
Ethernet connection

The following system resources are recommended:
Intel Pentium D processor 915 (dual core) or equivalent
4 GB of RAM
40 GB of free space on a 7200 RPM or faster hard disk
Serial ATA storage interface or better
Ethernet connection

现在的电脑,应该不差这个配置了。

因为这个是,虚拟机版本,所以先要安装虚拟机,啊哈,我们之前有安装过虚拟机了。
这里:http://wiki.guoruei.org/computer/software/linux/install-vmware-workstation-9-on-ubuntu

终于要下载这个东西了,话不多说,我们先来下载吧。

官方下载列表:
http://code.google.com/enterprise/gsave/download_main.html
或者直接下载地址
http://dl.google.com/vgsa/vgsa_20081028.7z

版本是Google Search Appliance software version 5.2,文件大小是1G多一点,但是要确保你的硬盘剩余空间有40G以上,应为这个压缩包解压出来就要占用这么多空间,否则会提示错误,硬盘空间不足。那……先解压吧。
Ubuntu 12.04下解压 .7z 文件。
安装解压程序命令:
$ sudo apt-get install p7zip
解压命令:
$ 7z x vgsa_20081028.7z

硬盘可要疯狂读写一会了,好在,我是用测试机做的。哈哈。OK,解压结束,用掉了34GB硬盘空间,vgsa_20081028文件夹里面发现了,install_guide文件夹,README_FIRST.html文件和README_FIRST.txt文件。

README_FIRST.html文件和README_FIRST.txt文件提示要安装.7z解压软件才能解压,还提供了系统的用户名和密码。install_guide文件夹里面有很多语言版本,包括英文和中文的。可以自己打开来看一看。

我先去启动VM了。如果你没有注册Workstation版的,那就只能用Player版的。

找到图标,启动还算顺利,到了 starting sshd 这里双核CPU狂刷了100%几分钟。内存占用在360MB左右。

最终,启动到这么一个界面。


浏览器打开 Admin Home page 是这样的


浏览器打开 Search Home page 是这样的


update:啊。补充一下,如果你要截图的话,可以试试这个软件:
sudo apt-get install ksnapshot