搜索引擎
维基百科,自由的百科全书
本條目屬於网络搜索引擎系列 |
网络搜索引擎 |
元搜索引擎 |
知名搜索引擎 |
Google 谷歌 |
Yahoo! 雅虎 |
中文搜索引擎 |
蕃薯藤 |
百度 |
新浪 |
PChome Online |
其他搜索引擎 |
AltaVista |
Exalead |
Mooter |
其他连接 |
(网络)搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。
目录 |
[编辑] 搜索引擎的工作原理
搜索引擎的工作原理大致可以分为:
- 搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络爬虫(spider)的自动搜索机器人程序来連上每一個網頁上的超連結。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,連到數據庫上所有到其他网页的链接。理论上,若網頁上有適當的超連結,机器人便可以遍历绝大部分网页。
- 整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。
- 接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
[编辑] 搜索引擎发展史
1990年初当时万维网(World Wide Web)还未出现,为了查询散布在各个分散的主机中的文件,曾有过Archie、Gopher等搜索工具,随着互联网的迅速发展,基于HTTP访问的web技术的迅速普及,他们就不再能适应用户的需要。在1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线,它还支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,随着访问量和收录链接数的增长,开始支持简单的数据库查询。这就是我们说的早期的目录导航系统,他们的缺点网站收录/更新都是要考人工维护,所以在信息量剧增的条件下,就不是非常受用了。
1994年7月,Lycos推出了基于robot的数据发现技术,并支持搜索结果相关性排序,并且他第一个开始在搜索结果中使用了网页自动摘要。Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。
1995年,一种新的搜索引擎工具出现了——元搜索引擎,第一个元搜索引擎是华盛顿大学的学生开发的Metacrawler。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。
1995年12月才登场亮相的AltaVista推出了大量的创新功能使它迅速到达当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具备了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎(如AND 、OR、NOT等),同时AltaVista还支持搜索新闻群组(Newsgroups),搜索图片等具有划时代意义的功能。同时期还有inktomi、HotBot等搜索引擎。
1997年8月Northernlight 公司正式推出搜索引擎,它第一个支持对搜索结果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。
1998年10月,Google诞生。它是目前最流行的搜索引擎之一,具备很多独特而且优秀的功能,并且在界面等实现了革命性创新。
1999年5月,Fast(Alltheweb)公司发布了自己的搜索引擎AllTheWeb,它的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。它曾经是最流行的搜索引擎之一,后在2003年2月被Overture收购。
在中文搜索引擎领域,1996年8月成立的搜狐公司是最早参与作网络信息分类导航的网站,曾一度有“出门找地图,上网找搜狐的”美誉。由于其人工分类提交的局限性,随着网络信息的暴增,逐渐被基于robot自动抓取智能分类的新一代信息技术取代。
台湾中正大学吴升教授所领导的GAIS实验室1998年1月创立了Openfind中文搜索引擎,是最早开发的中文智能搜索引擎,采用GAIS实验室推出多元排序(PolyRankTM)核心技术,截止2002年6月,宣布累计抓取网页35亿,开始进入英文搜索领域。
北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务, 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
百度中文搜索由超链分析专利发明人、前Infoseek资深工程师李彦宏和好友徐勇2000年1月创建,目前支持网页信息检索,图片,Flash,音乐等多媒体信息的检索。并且百度在中文领域第一个开始使用ppc经营模式。
2002年开始很多公司受搜索市场前景和Google神话的吸引,积极进入搜索引擎市场,谋求一席之地。但是不幸的是他们当中很多公司尤其是不少中国公司采用流氓手段进行自己搜索引擎的推广工作,常用的手段是浏览器劫持、恶意捆绑adware/spyware等等,比较恶劣的典型公司是中搜、3721等等。中搜是由慧聪国际主持开发的,自称是搜索领域的后起之秀。目前处于起步阶段,但是采用流氓软件手段推广后,强占了不少用户的搜索引擎选择。2003年年底慧聪搜索改名为中国搜索,推出第三代智能搜索引擎。最近中国搜索主推桌面搜索--网络猪,是臭名昭著的流氓软件之一。
2003年11月,Yahoo全资收购3721公司。2005年8月,阿里巴巴和Yahoo达成战略合作,全资收购雅虎中国,并更名为阿里巴巴雅虎,并将其业务重点全面转向搜索领域。
[编辑] 搜索引擎的商务
搜索引擎的商务是一种新的商业模式,在国内的大多数人还在用网址大全去寻找商业平台网站的时候,搜索引擎营销的方式慢慢的兴起,越来越多的买家又或卖家通过搜索引擎来寻找自己的需要。其中以Google最为出名,可以说是一代搜索引擎的楷模。Google以其优秀的搜索算法,不被竞价排名所笼罩的口碑成为全世界最为出名的搜索引擎。
[编辑] 搜索引擎的未來展望
隨著互聯網的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會朝著知识型搜索引擎的方向發展,期以為搜尋者提供更準確及适用的数据。目前,網上的百科全書如雨後春笋般發展起來;另一方面,近年來亦有不少公司嘗試在搜尋方面改進,務求更符合用戶的要求。當中諸如Copernic Agent之類的搜尋代理就是其中之一。
[编辑] 參看
- 知識管理 (Knowledge Management)
- 搜尋代理
- 知识型搜索引擎
- 垃圾連結 (Linkspam 或 Spamdexing)