CIOAge.com IT推动创新
爬在网页上的“蜘蛛” 搜索引擎的三个原理(1)
出处:中国计算机用户 文: 中国计算机用户 评论 ( 0 ) 条 ( 0 ) 砖 ( 0 ) 好 论坛 博客
阅读提示:搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。...

搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。
十四年前1994年的一月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。在它之后才出现了雅虎,直至我们现在熟知的Google、百度。但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。
从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网。先用手工后用蜘蛛程序,能够搜集到的网页数量更多、时间更短。搜索引擎的技术应该说在很早之前就已成熟。
但是搜索引擎如果仅仅靠技术的话,可能很难达到现在“人们离不开”的程度。能够精确的提供人们想要的信息是搜索引擎成功的关键。这是现在占主导地位的搜索引擎的存活法则。

搜索引擎原型初显
如果要追溯的话,搜索引擎的历史比WorldWideWeb 还要长。早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。
它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。
当万维网(WorldWideWeb)出现后,人们可以通过 html传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。
现在人们很熟悉的网站雅虎(Yahoo)就是在这个环境下诞生的。还在Stanford大学读书的美籍华人杨致远和他的同学迷上了互联网。他们将互联网上有趣的网页搜集过来,与同学一起分享。后来,1994年4月,他们俩共同办了雅虎。随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。

共2页: 1 [2] 下一页
【内容导航】
 第 1 页:搜索引擎原型初显  第 2 页:爬在网页上的“蜘蛛”
已有0人发表看法
我来说两句
验证码: (如果看不清请点击图片进行更换.)   匿名
最新评论更多..
服 务 CIO 推 进 信 息 化
主编推荐
最近更新
热门文章
中国CIO周刊
浪潮通软助力建峰化工信息化展现CIMS之舞 浪潮通软助力建峰化工信息化展现CIMS之舞
建峰化工CIMS工程的立项,获得了重庆市经委和科委的支持,两个机构分别向该工程拨款10万元和6万元人民币。虽然这部分资金与建峰化工CIMS工..
做好教育信息化需先行 浙大网络的S+S体验 做好教育信息化需先行 浙大网络的S+S体验
浙江大学网络信息系统有限公司是国内最大的教育软件专业开发商、教育电子商务提供商之一,占据国内校校通、城域网软件平台50%以上市场份额..
洞察
揭秘:中小化工企业拒绝ERP的四个理由 揭秘:中小化工企业拒绝ERP的四个理由
拥有43个行业、3000多家大企业、2~3万家中小企业的化工行业,其信息化水平究竟如何呢?前不久记者采访了中国化工信息中心副主任李中。李..
SaaS概念要落地 软件提供商不能任意定价 SaaS概念要落地 软件提供商不能任意定价
软件领域任何字母都可能组合成新的名词,进而上升到概念的高度,SaaS也不例外。2003年SaaS提出,顷刻间概念飞遍了各个角落,然而,概念不..