投递文章投递文章 投稿指南投稿指南 RSS订阅RSS订阅

搜索引擎的历史:从1945到Google2007

来源:iT堂会员 yuyan 发布时间:2008-09-03 收藏 投稿 字体:【

在享受过受二战影响的对科学发展的黄金时代后,超文本和内存扩展到概念在1945年7月真正走进来人们的生活,Vannaver Bush的“As We May Think”在Atlantic月刊上发表了。

As We May Think.

他呼吁科学家们一起工作,建造一个造福全人类的一体的知识库。这里是摘录他主要观点的一些句子和段落。

专业化对取得进展来说越来越重要,相应的,在学科之间架起桥梁的努力也越来越肤浅。

面临的困难似乎较少因为我们不恰当发表的看法的程度和如今兴趣的种类,而更是因为我们现在的能力根本不足以使这些看法产生多大的影响。人类的获得的经验正在以巨大的速率增长,我们将这些迷宫一样的结果提取为暂时的重要条目的方式就像以前我们造横帆的大船一样(工程量大)。

如果一项纪录在科学上有价值,它必须一直扩展和储存。总之,它要能被查阅。

他不仅是数据存储坚定的支持者,他也相信如果数据源对人类有用,那么我们应该尽我们最大的努力使这些数据源好好运转。

我们在获取这些纪录时的愚昧主要是由索引系统的人工操作引起的……人不能希望人工的完全复制精神过程,但是他肯定能从这个过程中学到东西。至少他能进步,因为他得到的知识是相对持久的。

假如人能反思灰暗的过去并更加完整客观的分析他现在的问题,那么他的精神境界能得到提高。人类建造了一个如此复杂的社会,所以他需要更完整的机械化他的纪录以便将他的经验变成一个有逻辑的结果而不仅仅是被他有限的记忆能力遗忘掉大半。

随后他提出了一个无限制的、虚拟的、快速、可靠、可扩展、联合记忆存储的和可恢复的系统的想法。他将这个设备命名为memex。

Gerard Salton (1960s - 1990s):

卒于1995年8月28日的Gerard Salton是现代搜索技术之父。他在哈佛和康奈尔大团队开发出了SMART信息恢复系统。Salton’s Magic Automatic Retriever of Text包含了类似向量空间模型、逆文档频率(IDF),术语频率(TF),术语偏离值(term discrimination values)等概念和相关反馈机制。

他写了一本56页的书,叫做 A Theory of Indexing,这本书里很好的解释了很多他的实验,这些实验大部分是以搜索为基础的。Tom Evslin发表了(文章)a blog entry介绍和Mr. Salton工作的情况。

Ted Nelson:

Ted Nelson在1960年创造龄Xanadu项目,并在1963年制造了超文本这个概念。他在Xanadu这个项目中的目标是建造一个有简单用户界面的计算机网络,用来解决类似归属感这样的社会问题。

当Ted着在反对复杂的标记代码,受损链接和其他一些在万维网中与传统HTML相关的问题时,他得到了很多有关建造一个万维网的启发。

直到现在还有很多关于Xanadu项目为什么没有腾飞的争论。

这是 提供了有关Nelson先生的背景和许多资源的Wiki链接。

Advanced Research Projects Agency Network:

ARPANet是最终导致因特网出现的网络。这里是一篇介绍ARPANet很好的文章和一个1972年有关ARPANet很有趣的Google视频。

Archie (1990):

Archie.

最早的几百个网站出现于1993年,大部分在大学里,但是很久之后才有了Archie。最早出现的搜索引擎叫Archie,是1991年由Alan Emtage,一个蒙特利尔的McGill大学的学生创造的。开始打算叫它“Archives”,但被简写成了Archie。

Archie用结合一个基于脚本的数据采集器和正则表达式,将用户查询和文件名相匹配的方法帮助解决了数据分散的问题。

Bill Slaski 提供了关于archie的更多背景知识.

Veronica & Jughead:

由于口口相传,Archie流行起来,它开始变成计算机的代名词,Archie变得如此流行使得Nevada大学的计算服务系统组开发了Veronica。Veronica和Archie有相同的目标,但它基于纯文本。不久,另一个与Veronica作用相同的用户界面Jughead出现了,他们都用作从Gopher传文件,Gopher是Minnesota大学的Mark McCahill1991年开发作为Archie替补的系统。

File Transfer Protocol:

Tim Burners-Lee 在这个时候出现了,但这是还没有万维网。当时人们共享文件的主要方法就是通过File Transfer Protocol(FTP)。

如果你有一个想要共享的文件,你就会设置一个FTP服务器。如果有人想要得到这个文件,他就会用一个FTP客户端。这个程序在小的团队中很有效率,但数据在收集过程中也变得不完整。

Tim Berners-Lee & the WWW (1991):

Tim Berners-Lee.

来源:维基百科:

1980年六月到十二月间,Berners-Lee是CERN的独立合同工时,他提议了一个基于超文本的项目,促进了研究人员之间分享和升级信息的能力。在Robert Cailliau的帮助下,他建立了一个叫Enquire的原型系统。

1980年之后,他离开CERN到John Poole's Image Computer Systems Ltd公司工作,但1984年他回到CERN并成为该公司的一位fellow。1989年,CERN是欧洲最大的因特网节点,Berners-Lee看到了将超文本加入因特网的机会。用他的话来说,“我必须将超文本的这个想法与TCP和DNS的想法结合--踏哒--万维网出现了”。他将Enquire系统中类似的重要想法用到万维网的创作当中,他设计并实现了第一个网络浏览器和编辑器(叫WorldWideWeb并在NeXTSTEP上开发)和第一个叫httpd的Web服务器(HyperText Transfer Protocol daemon的缩写)。

第一个网站在http://info.cern.ch/上建立并且在1991年8月6日上线。它解释了什么是万维网,人们怎样能拥有一个浏览器以及怎样建立一个网络服务器。他也是世界上第一个网络目录,因为Berners-Lee维护着他自己以及其他站点的条目。

1994年,Berners-Lee在麻省理工大学成立了the World Wide Web Consortium (W3C)。

Tim还创造了the Virtual Library,世界上最古老的网络目录,Tim还写了一本书介绍开办这个网站的故事,叫做Weaving the Web.

What is a Bot?(什么是Bot?)

Robot Spider.

计算机机器人是一类用来执行人类无法达到的快速重复任务的一类程序。bot这个习语是网络上用来描述任何与用户交互或手机数据的东西的。

搜索引擎用“爬虫”来收集(或爬取)网络上的信息。他们就像普通浏览器一样请求网页信息,只是爬虫不仅读信息进行索引还要记录链接。

引用的链接可以被看作可信任网页的代称。链接的文本可以帮助描述一个网页的内容。多次引用的链接可以帮助确定一个网页或网站存在于哪个专题社区中。附加的链接可以帮助搜索引擎查找新的文件和便于以后搜索。

另一个机器人的例子时候Chatterbots,它是用来增加某个话题的分量的。这些机器人尝试想人一样表现并与人一起就特定话题交流。

Parts of a Search Engine:(搜索引擎的一部分:)

搜索引擎主要由三部分组成。搜索引擎爬虫通过跟踪链接来请求那些没有被索引过的页面,或那些上次索引之后就没有更新过的页面。这些爬来的页面被增加到搜索引擎的索引里(也叫目录)。当你用主搜索引擎搜索的时候,你不是真的在搜索网络,而是搜索稍微有一些过时的内容索引,这些索引可以大体上代表整个网络的内容。搜索引擎的第三部分是搜索界面和相关软件。对每一次查询请求,搜索引擎都要做以下这些事情中的大多数或全部:

保存用户输入的查询,检查(用户输入)并用高级语法匹配以及坚持用户有没有拼写错误,对拼写错误给出推荐的流行查询或纠正后的值。检查这个查询是否与其他垂直搜索的数据库相关(比如新闻搜索或产品搜索)并从这种查询经常搜到的结果里挑选几个提供相关链接。收集这个搜索结果相关网页的条目。这些结果根据网页内容、可用数据、链接引文数据进行排序。请求一下相关的广告放置在结果旁边。

搜索人通常只点击最上面的几个搜索结果,这在Jakob Nielsen的文章里被提到,并在this search result eye tracking study.中做了备份。

最新评论:
评论内容:请自觉遵守互联网相关政策法规。
用户名: 密码: 匿名 注册
热门文章
随机推荐
About iTtang - 联系方法  - 专题列表 - 友情链接  -  高级搜索   -  帮助中心  -