承德信息港
生活
当前位置:首页 > 生活

简单的认识搜索引擎7z

发布时间:2019-07-14 00:36:05 编辑:笔名

虽然百度已全面取消referer,但站SEO优化工作,依然不可缺少。因为做SEO优化,是为了使站更加适合搜索引擎的检索行为,为站带来自然流量。常言道,知己知彼,百战不殆,下面,就和白掌一起来认识一下搜索引擎把。

首先,和白掌一起认识一下什么是搜索引擎。

搜索引擎,就是在搜索框中,直接输入所需信息的关键词,就可从互联中获取与搜索词相关信息的软件系统。通常,这些搜索结果会呈现在搜索结果页,搜索到的信息,可能是页,可能是图像,也可能是其它类型的文件。对于人工实时维护更新的站点,大多情况下,也就是我们所优化的站,搜索引擎会派出基于一定算法的站爬虫来抓取站点实时更新的信息。但是,在搜索引擎发展之初,并没有站爬虫的存在。

然后,让我们一起来看一下搜索引擎早期的发展。

在互联发展早期,蒂姆伯纳斯李建立了个站并托管在CERN(欧洲核子研究组织)的服务器上。后来,蒂姆在这个站中列举了其它站,其中尚存有记录的是1992年的一次具有历史意义的快照。但随着越来越多服务器上线,这份列表无法及时更新,自后再上线的新服务器,都会出现在NCSA Mosaic下一个名为Whats New的分类中。

个被用于在互联上提供搜索服务的工具时Archie,这一象征Archive的名称,并不包含其中的字母v。这一工具,是由蒙特利尔市McGill University计算机科学专业的学生Alan Emtage、Bill Heelan和ter Deutschz于1990年做成。他们下载了公共匿名FTP站点上所有文件的目录列表,创建了一个可对文件名称进行搜索的数据库。但不管怎样,受数据量的限制,Archie不能索引这些站点的内容,只能进行手动搜索。

1991年,Mark McCahill创建了Gopher系统。它的出现促使两大新搜索程序-Veronica和Jughead-诞生。类似于Archie,这两项搜索程序可搜索收录于Gopher索引系统中的文件名和标题。其中,Veronica提供了在Gopher列表的大多数目录标题中进行关键词搜索的服务,Jughead则是一个从特定Gopher服务器获取菜单信息的工具。当搜索引擎Archie的名称还未收录到Archie系列丛书中,Veronica和Jughead就已存在于这套丛书中,不过其中会索引Archie相关的内容。

1993年夏天,虽然专业目录有人工维护,但尚没有为Web而存在的搜索引擎。Geneva某大学的Oscar Nierstrasz写了一系列Perl手稿。Oscar会在这些手稿中,定期反馈页的情况,后来他又按照一种标准格式,将这些手稿了一遍。这些手稿,就是之后W3Catalog的雏形,web的个原始搜索引擎发布于1993年9月2日。

1993年6月,Matthew Gray打造了个web robot(搜索引擎爬虫机器人)-the Perl-based World Wide Web Wanderer,并将其用于生成一种叫做Wandex的索引。Wanderer存在的目的是为了衡量万维(World Wide Web)的大小,Web的第二个搜索引擎是Aliweb,它出现于1993年11月。Aliweb没有采用web robot,它是使用一种特定的格式来索引每一个站点的信息。

1993年12月,Jonathon Fletcher创建了Jump Station系统。这种系统使用一种Web Robot来发现页并为其建立索引,同时,用一种web格式来作为其搜索程序的接口。Jump Station可以说是世界上个World Wide Web的搜索引擎。它将页搜索引擎的三大基本特征-抓取、索引和搜索-集于一体。但是由于Jump Station所在平台可用资源的局限性,其索引内容仅限于web robot遇到的页标题和副标题。

1994年,WebCrawler诞生,它是允许Web Robot爬取全文内容的搜索引擎之一。与其前辈不同的是,它支持用户搜索任一页中的任一个搜索词。之后,它成为所有主流搜索引擎的标准,也是个被公众所熟知的搜索引擎。

同年,卡内基梅隆大学创建了Lycos。Lycos是搜索引擎中的元老,早提供信息搜索服务的站之一,也是重要的商业典型。1996年,Lycos以收录6000W文件位居当时的搜索引擎。

随后,互联中出现很多搜索引擎。这些搜索引擎包括Magellan际路搜索引擎、EXCITE搜索引擎、Infoseek资讯查找、因特通、Northern Light搜索引擎和AltaVista,纷纷抢占人气。Yahoo!是当时广受欢迎的搜索方式,但它的搜索功能仅能在它的页目录下运行,而不是其页的全文本副本。查询的人也可以浏览目录,而无需进行关键词搜索。

1996年,Netscape计划在其浏览器打造一款专属自己并极具特色的搜索引擎。消息发出后,对此感兴趣的互联公司很多, Netscape就改变计划,与五家主流搜索引擎达成协议,将这五个搜索引擎轮流放在Netscape的搜索引擎页。这五家公司分别是 Yahoo!,Magellan,Lycos,Infoseek和Exicite。

1998年,Google从引入了PPC的概念,简单的说就是,买卖搜索词, 这对于之后搜索引擎商业化具有重大意义,使互联变现成为可能。

在20世纪90年代末期,搜索引擎,也以互联投资风暴中的明星产品而着称。有些公司高调进入互联市场,在首次公开募股中均获得了创纪录的收益。有些公司则砍掉了其公共搜索引擎,转型为专门的营销公司,比如Northern Light。很多搜索引擎公司都遭遇了投机泡沫()期间的互联泡沫,鼎盛于1999年,结束于2001年。

2000年前后,Google搜索引擎声名鹊起。正如谷歌后来的创始人Sergey Brin和Larry Page所写的Anatomy of a Search Engine一文中所解释的,PageRank技术的提出采用谷歌搜索可以得到较好的搜索结果。这一为页排名的迭代算法,是通过互联浩瀚的超链接关系来确定页面的等级。Google把从A页到B页的链接解释为A页给B页的点赞,然后Google根据点赞页(甚至来源的来源,即链接到A页的页)和被点赞页的等级来决定新的等级,简单的说,一个高等级的页可使其它低等级页面的等级提升。谷歌搜索也一直为其搜索引擎维持一个简洁的页面。相反,谷歌的很多竞争对手都选择将其搜索引擎嵌入到某一门户站。树欲静而风不止,谷歌因其饱受欢迎一直在被Mystery Seeker恶搞,比如前段时间,谷歌地图中显示白宫是个黑鬼屋。

2000年,Yahoo!在Inktomi的搜索引擎中提供搜索服务。2002年,Yahoo!收购Inktomi,并于2003年收购Overture。2004年,Yahoo!兼并了Inktomi和Overture的技术,推出自己的搜索引擎,与谷歌成为竞争对手。

1998年秋天,Microsoft采用Inktomi的搜索结果推出MSN搜索。1999年上半年, MSN开始在Inktomi搜索结果中掺杂来自Looksmart搜索结果。1999年有一段时间,MSN搜索也会采用AltaVista的搜索列表。2004年,Microsoft开始专注搜索技术,打造自己的Web Robot。2009年1月1日,Microsoft将MSN更名为Bing并上线。2009年7月29日,Yahoo!与Microsoft达成合作关系,在这一合作中,Yahoo!可得到Microsoft Bing技术的支持。

,和白掌一起来了解一下搜索引擎的工作。

搜索引擎的工作通常分为三个步骤,即爬行、索引,搜索。

简单地说,搜索引擎会存储标记有html的页,这些页通常都是站爬虫(有时也称作蜘蛛)抓取来的。而站爬虫,会定期到访站,并爬行站内容的自动程序。站长可通过t文件来排除不希望被爬虫抓取的页面。

爬虫将页面内容抓取回来后,搜索引擎会对这些内容进行分析,以确定如何索引这些内容,例如,搜索引擎会从页的标题、站内容、题目或Meta标签中提取出关键词。页的数据会存储至索引库,用于之后的搜索词搜索。用户的搜索词可以是单个的词,索引会帮助用户尽可能快的找到搜索词相关的信息。

搜索词处理

用户在搜索引擎界面输入关键词,单击搜索按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。

排序

对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的页,并且根据排名算法计算出那些页应该排在前面,然后按照一定格式返回到搜索页面。

再好的搜索引擎也无法与人相比,这就是为什么站要进行搜索引擎优化。没有SEO的帮助,搜索引擎常常不能正确的返回相关、权威、有用的信息。

,让信息变得简单。

有赞微商城平台登录
微店怎么开通小程序
如何加入微信小程序