如何让百度收录你的网站大全_网络知识_资讯

如何让我的网站被百度收录？

百度会收录符合用户搜索体验的网站和网页。
为促使百度Spider更快的发现您的站点，您也可以向我们提交一下您的网站的入口网址。提交地址是：http://www.baidu.com/search/url_submit.html
百度的网页收录机制，只和网页价值有关，与竞价排名等商业因素没有任何关联。

如何让我的网页不被百度收录？

百度严格遵循搜索引擎Robots协议（详细内容，参见http://www.robotstxt.org/）。
您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法，参见：如何撰写Robots文件。
如果您的网站是在被百度收录之后再设置Robots文件，则Robots文件通常在两周内生效，被文件限制的内容，将从百度搜索结果中移除。
如果您的拒绝被收录需求非常急迫，也可以发邮件给webmaster@baidu.com请求处理。
为什么我的网站内一些不设链接的私密性网页，甚至是需要访问权限的网页，也会被百度收录？百度Spider对网页的抓取，是通过网页与网页之间的链接实现的。
网页之间的链接类型，除了站点内部的页面链接之外，还有不同网站之间的互相链接。因此，某些网页即便通过您的网站内部链接无法访问到，但是，如果别人的网站上有指向这些页面的链接，那么这些页面还是会被搜索引擎所收录。
百度Spider的访问权限，和普通用户是一样的。因此，普通用户没有权限访问的内容，Spider也没有权限访问。之所以看上去某些访问权限限制内容被百度收录，原因有两点：
A. 该内容在Spider访问时是没有权限限制的，但抓取之后，内容的权限发生了变化
B. 该内容有权限限制，但是由于网站安全漏洞问题，导致用户可以通过某些特殊路径直接访问。而一旦这样的路径被公布在互联网上，则Spider就会循着这条路径抓出受限内容
如果您不希望这些私密性内容被百度收录，一方面可以通过Robots协议加以限制；另一方面，也可以联系webmaster@baidu.com进行解决。

我的网页为什么会从百度搜索结果中消失？

百度并不允诺所有网页都可从百度搜索到。
如果您的网页长时间无法从百度搜索到，或者突然从百度的搜索结果中消失，可能的原因有：
A. 您的网站所在服务器不稳定，被百度暂时性去除；稳定之后，问题会得到解决
B. 您的网页内容有不符合国家法律和法规规定的地方
C. 您的网页不符合用户的搜索体验
D. 其他技术性问题
以下的说法是错误的和毫无根据的：
A. 参与了百度竞价排名但未续费，会从百度搜索结果中消失
B. 参与了其他搜索引擎的广告项目，会从百度搜索结果中消失
C. 与百度旗下网站产生了竞争，会从百度搜索结果中消失
D. 从百度获得的流量太大，会从百度搜索结果中消失

什么样的网页会被百度认为是没有价值而不被百度收录或者从现有搜索结果中消失？

百度只收录百度认为有价值的网页。任何网页在搜索结果中的去留变化，都是机器算法计算和调整的结果。下述类型的网页，百度明确不会欢迎：
A. 网页做了很多针对搜索引擎而非用户的处理，使得用户从搜索结果中看到的内容与页面实际内容完全不同，或者使得网页在搜索结果中获得了不恰当的排名，从而导致用户产生受欺骗感觉。
如果您的网站中有较多这种页面，那么这可能会使您的整个网站的页面收录和排序受到影响。
B. 网页是复制自互联网上的高度重复性的内容。
C. 网页中有不符合中国法律和法规的内容。

如果我的网站因为作弊行为而从百度搜索结果中消失，是否还有被重新收录可能？

凡是作出完全修正的网站，是有机会被百度重新收录的。百度会定期对被处理站点进行自动评估，并对符合条件者重新收录。
需要说明的是，百度技术和产品部门只对用户搜索体验负责。以下的说法都是错误的和毫无根据的：
A. 我成为百度的广告客户或者联盟网站，就可以重新被收录
B. 我给百度若干钞票，就可以重新被收录
C. 我认识百度的某某人，就可以重新被收录

我的网站更新了，可是百度收录的内容还没更新怎么办？

百度会定期自动更新所有网页（包括去掉死链接，更新域名变化，更新内容变化）。因此请耐心等一段时间，您的网站上的变化就会被百度察觉并修正

网页排序问题

我的网站首页被收录了，但搜索网站名称却排不到第一个，怎么办？

答：排序算法非常复杂。我们的目标，即在于通过算法改进，让用户以最小的成本，搜索到所需要的信息。这个过程中还是会有各种各样不尽如人意的地方。我们会非常欢迎您把您遇到的困惑和问题，反馈给我们。我们的工程师，对每一个问题都会有细致的跟踪和分析，以期将之最终解决。百度搜索结果页下方的搜索框右侧，有“与百度对话”链接，您可以在那里提交您的问题，以协助我们改进。
我们一直在改进搜索算法，以使得百度的搜索结果更加符合用户的搜索需求。

搜索某关键词，我的网页在百度搜索结果的排序短期内变化剧烈，这正常吗？

搜索某关键词，我的网页在百度的排序位置，和在其他搜索引擎的排序位置，差异非常大，这正常吗？

我请一些“SEO”来为我的网站或者网页做优化，会有什么后果？

答：合理的搜索引擎优化，参见百度的“给站长的建站指南”。
外界很多打着SEO旗号的公司或者个人，也许能为您的网站带来短期的排序收益，但是，这会使您将面临更大损失的风险。在您把网站资源交托给别人之后，很多SEO甚至会利用您的资源进行他们个人的运营项目，最终导致您的利益受损。
不要因为SEO们以下的说法，而冒险将自己的网站托付给他们随意处置：
A. 我和百度的人很熟，想怎么干就怎么干，没风险
B. 我是搜索引擎专家，对百度的算法一清二楚，玩玩火也不要紧
C. 我把xxx、yyy、zzz这些关键词都搞到第一了，所以我是牛人啊您也可以向百度投诉搜索中遇到的垃圾网站或者网页，帮助百度保持搜索结果的质量。商业客户相关的问题

我是百度的竞价排名客户，如果我不续费，百度是否会因此对我进行惩罚？

我的网站因为作弊而从百度消失了，是否可以通过成为百度竞价排名客户、广告客户或者联盟站点的方式重新被百度收录？

答：不可以。我们对网站的收录，唯一标准是用户搜索体验。被惩罚网站重新被百度收录的说明，见网页收录问题6中的叙述。

我的网站加入百度竞价排名、百度联盟，或者成为百度的广告客户，是否能在网页的收录和排序上获得特别的照顾？

答：不可能。给站长的建站建议
只有当搜索引擎、站长、互联网用户之间，能有一种默契的利益均衡，这个行业才会顺畅发展。竭泽而渔式的网站建设，只会使您与用户、与搜索引擎越来越远。搜索引擎与站长之间，宜和谐发展，共同拥抱美好的愿景。

以下是我们给出的一些建站建议：

站点结构宜简洁明晰

答：不要让你的用户一进你的站点就因为纷繁芜杂而不知所措。从某种意义上来说，百度的Spider也是一个相对特殊的访客而已。每一个子域名，每一个目录，都最好有明确的内容区隔，避免不同子域名或者目录对相同内容的互相串用。

创造属于您自己的独特内容

答：百度更喜欢独特的原创内容。所以，如果您的站点内容只是从各处采集复制而成，很可能不会被百度收录。

保持经常的更新

答：经常的更新，蜘蛛程序就会经常的光顾；而长期不更新的网站，蜘蛛到访会日趋减少。

谨慎设置您的友情链接

答：如果您网站上的友情链接，多是指向一些垃圾站点，那么您的站点可能会受到一些负面影响。参与各类以SEO为目的的自助链接活动，很可能“过犹不及”。

把自己的网站做成常青树

答：如果没有搜索引擎，你的网站仍然访客盈门，那么你的网站就属于“常青树”了。面向用户做网站，而不要面向搜索引擎做网站，这是成为常青树网站的真谛。

让百度重新收录的方法:

1,是收费我想这个大家都知道了.

2,将网站的域名绑定到,例如可以绑定到一级域名的博客,或网页,这样重新提交百度就可以收录了.http://www.baidu.com/search/url_submit.html
3,将网站的域名作跳转,跳转到百度,新浪,163,sohu等门户网站,重新提交后就可以了,http://www.baidu.com/search/url_submit.html
4,注册百度的联盟,加入百度的代码,在重新提交.
急不来的
通常的步骤是：
- 提交到百度，正常情况是1个月后将你的网站添加到搜索引擎的index
- 整理你的页面，让你的页面变得search engine friend，你可以到这个网站去看看http://www.53371.com/
- 到处去做你的网站的连接（提高搜索引擎访问你的网站的速度）

如何让百度收录百度给站长的建站指南

如何使您的站点被百度有效收录
给每个网页加上与正文相关的标题。如果是网站首页，则标题建议使用站点名称或者站点代表的公司/机构名称；其余内容页面，标题建议做成正文内容的提炼和概括。这可以让您的潜在用户快速的访问到您的页面。
请不要在标题中堆积与正文无关的关键词。
确保每个页面都可以通过一个文本链接到达。百度无法识别Flash中的链接，这些单元上的链接所指向的网页，百度就无法收录了。
页面间的链接，尽量使用平实的超链，而不是重定向跳转。使用自动跳转的页面，可能会被百度丢弃。
尽量少使用frame和iframe框架结构。
如果是动态网页，请控制一下参数的数量和URL的长度。百度更偏好收录静态网页。
在同一个页面上，不要有过多链接。在那些站点地图类型的页面上，请把重要的内容给出链接，而不是所有细枝末节。链接太多，也可能会导致无法被百度收录。
什么样的站点会受到百度欢迎
站点应该是面向用户的，而不是面向搜索引擎的。一个受到用户欢迎的站点，最终也会受到搜索引擎欢迎；反过来，如果您的站点做了很多针对百度的优化，但却给用户带来大量负面体验，那么，您的站点最终可能还是会受到百度的冷落。
百度更喜欢有独特内容的网页，而不是简单抄袭和重复互联网上已有内容的网页。对于已经被重复了千百遍的内容，百度可能会不予收录。请谨慎使用您的站点链接。与一些垃圾站点做友情链接，很可能会使您的网站受到负面影响。因此，当有人很热情的要求您为他的站点提供友情链接时，请审视以下两点：
一，对方的站点在他那个领域是否是高质量的？站长间所谓的流量以及排名，很多都是用欺骗手段获取的，无法保持长久。
二，对方要求的链接名称是否和对方网站地位相称？用一个涵盖范围广泛的关键词来做一个内容非常局限的网站的链接名称，很可能会使您的网站受到负面影响。
经常保持内容更新。经常有新内容产生的站点，百度是会注意到，并且大力欢迎，而且会频繁造访。

网站登录问题我的网站更新了，可是百度收录的内容还没更新怎么办？

怎样使我的网站被百度收录？

答：百度免费自动收录您的站点。如果您希望百度尽快收录，可以到网站登录提交您的网址；只需提交网站首页，内部页面百度会自动抓取。

从提交到被收录，大约需要多久？
答：通常需要1－4周时间。

我不想让百度收录我的站点，该怎么办？

答：百度尊重和遵守robots协议，您可以写一个robots文件限制您的网站全部或部分不被百度收录。详情参见禁止搜索引擎收录的办法。

我的站点为什么在百度中搜不到？

我的站点在百度搜索结果中排名下降了，该怎么办？

答：排序变动很正常。一般情况下，只要您不断提高网站内容质量，让更多的用户喜欢您的网站，成为您的忠实用户，您的网站在百度的排名一般就不会很差。

百度关于垃圾网站的处理

如果您的站点中的网页，做了很多针对搜索引擎而非用户的处理，使得：用户从搜索结果中看到的内容与页面实际内容完全不同，或者站点质量与站点在搜索结果中的排名极不相称，从而导致用户产生受欺骗感觉，那么，您的网站就有可能被百度丢弃。
如果您的站点上的网页，大量都是复制自互联网上的高度重复性的内容，那么，您的站点也有可能被百度丢弃。
所以，当您的网站从百度消失，请先审视一下自己的站点有无问题。有任何意见，也可以反馈到webmaster@baidu.com。您也可以向百度投诉搜索中遇到的垃圾网站或者网页，帮助百度保持搜索结果的质量。
让百度等搜索引擎收录您的网站

当您发现在以下搜索引擎里，无法搜索到您或者您客户的网站时，您就打开以下登录口，填好申请表提交，等这些网站的工作人员审核通过后，您的网站就可以在上面搜索到了。

怎样才能让百度及时更新网站的收录数据？

你有没有发现搜索引擎已经很久没有收录你的网站了，有没有方法能让搜索引擎及时更新你的网站收录数据，不知道那么就跟我来吧！（此处以百度搜索引擎为例）
1.在百度搜索引擎输入:site:www.zizhong.com.cn (此处就是你网站的网址)得到网站收录数据.
百度一下，找到相关网页29600篇，用时0.001秒 2.在百度最底下找到
1 [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一页每10页点下去,一直点到最后一页,当出现
提示：为了提供最相关的结果，我们省略了一些内容相似的条目，点击这里可以看到所有搜索结果。再点击提示上的连接. 3.最后再次输入:site:www.zizhong.com.cn,是不是发现比原来少了很多页数了?不要害怕,已经达到让百度更新收录数据的目的了.一天以后就会发现重新收录更多了!
注意：如果你的网站有新的内容，而又未被收录的话，经验证会有有明显效果的。什么？没有新内容？？那就增加你的网站内容吧…………

怎样避免被搜索引擎视为作弊

一个网站要想成功注册，它起码应具备两个条件，一是网站本身要有较好的内容和设计，二是网站没有作弊行为。这里所谓的“作弊”，是指采用一些特殊的、有悖常规的网页设计手法，以期提高网站排名的行为。如何设计好网站，相关的资料很多，本文就不废话了。这里主要谈谈后者，即在提高网站排名的同时，如何避免被搜索引擎视为作弊而拒绝注册。那么，在搜索引擎看来，哪些行为算作弊呢？这里罗列了一下，从中你可看到，现在有些人还视为“密技”的东西，其实已经过时了。

堆砌页面关键字：为了增加某个词汇在网页上的出现频率，而故意重复它。这是有人常用的花招，不过，现在很多搜索引擎都能识破它。它们通过统计网页单词总数，判断某个单词出现的比例是否正常。一旦超过“内定标准”，就对你的网页说“ByeBye”了。

放置隐形文本：所谓的“鬼页法”。为了增加关键字数量，网页中放一段与背景颜色相同的、包含密集关键字的文本，访客看不到，可搜索引擎却能找到，过去一度还真能提高网站排名，但现在，主要搜索引擎都能识别出来，照样玩不通了。

安插微型文本：与“鬼页法”相似，只是文本更些?更分散、更隐蔽。但是，对于敏感的搜索引擎来说，仍然是枉费心机。

网页重定向：使用META刷新标记、CGI程序、Java、Javascript或其它技术，当用户点击一个链接时，自动跳到另一个网页。有人正是用这种方法，欺骗人们进入并不想去的地方。因此，有些搜索引擎（如Infoseek），对此类网页也很反感，一般不予登记。

滥用Meta标记关键字：有人为增加关键字的出现次数，在语句中，重复关键字，或者加入与网站内容毫不相关的热门词汇。这种作弊行为，大部分搜索引擎也能识破。

滥用门户网页：门户网页（也称“桥页”），是指为了获得好的排名，而专门针对各搜索引擎排序算法设计的网页。尽管今天，多数搜索引擎并不反对这种作法。但俗话说：“物极必反。”建立太多具有相近关键字的门户网页，会招致搜索引擎的反感而无法成功注册。

连续注册：有人为加大保险系数，在一天之内，将一个网页重复提交给同一个搜索引擎，其实，这种作法适得其反。

重复注册：有人以为，将一个网页简单复制成多个网页，然后，给它们安上不同的名字，并分别予以注册，会增大访问量，结果，搜索引擎会认为你在滥用它，而拒绝登记你的网站。

偷换网页：是指一个网页成功注册并获得较好排名后，用另一个内容无关的网页（如产品广告）来替换它的行为。

张冠李戴：上面提到的门户网页，只适用于Altavista这类自动登录的搜索引擎，如果提交给Yahoo这类人工分类的目录式搜索引擎，它就会认为你在作弊。

突破页数限制：一些搜索引擎允许每个用户每天或每周提交的网页数量是有限制的。例如，Altavista每天允许10页；HotBot允许每天50页；Excite允许每周25页；Infoseek允许每天50页（但使用e-mail注册，没有页数限制）。请注意，这并不是说，搜索引擎每天或每周只能为你登录以上页数，而只是允许你提交的页数。还不明白？那就举个例吧，对于Excite而言，每周只允许你提交25页，如果你的网站有1000页，那该怎么办呢？就提交25页即可！余下的Excite会自己检查到，并将编入索引中。如果你强行突破这个限制，那么，搜索引擎就会认为你在作弊，反而不予注册。

上面这些条款似乎很明显、很容易区分，但有时我们却可能不知不觉犯上。例如，你有一个网页，背景是白色，在这个网页上，你设计了一个表格，其背景为蓝色、文字为白色，这种设计应该说也是完全正常的，但如果你到搜索引擎Infoseek去注册，它却不理你。为什么呢？它认为你在作弊！在Infoseek看来，表格中的白色文本，实际是置于白色的网页背景上，也就是说，网页文本与背景颜色相同，这就符合“鬼页法”的作弊特征。而这一点，可能你自己根本没有意识到。还有一例，有时因设计需要，或者网站已迁移到其它地方，通常我们会用到网页重定向，但对于Infoseek等搜索引擎而言，这也是不可容忍的作弊行为。另外，Infoseek等搜索引擎还要求，不要在多个网页上布置指向同一个网页的链接。例如，很多人喜欢在各个网页放上“返回主页”的链接，其实就属于这种情况。这种司空见惯的设计，居然也被看成作弊，真是太苛刻了。不过，对此Infoseek在真正执行时，似乎也并不是很严格，一些这样设计的网页，它照样登录了（你也碰碰运气？）。总体上说，这些限制都是为了对付真正的作弊者，使搜索引擎的检索结果更加准确有效，但事实上，的确也错怪了一些好人。如果万一你碰上这种情况怎么办，搜索引擎到底会怎样处罚你呢？

跟不少网主一样，笔者以前对此不甚了解，以为自己的某个网页违项，会导致整个网站被封杀。其实，事实并非如此！因为运作搜索引擎的人也知道，有时他们搜索引擎判定的“作弊”，实际是一种正常合法的设计，只是因为搜索引擎自身还不够“聪明”，无法准确判断是故意作弊，还是偶然巧合。所以，他们通常不会因为某网页象在作弊，就拒绝登记整个网站，而只是对有违规嫌疑的网页进行处罚——降低排名或不予登记，而其它的合法网页不会受到影响。此时，你只需将这个网页修改，并重新注册即可。除非你有意作弊，肆无忌惮违反上述多项规则，或者由于你提交的大量垃圾网页，对搜索结果造成明显不良影响，那么，你的整个网站将被永远踢出门外。当然，也有个别搜索引擎（如HotBot）政策更加宽松，甚至对故意作弊者，也没有永远拒绝登记的规定。只要它认为你没有攻击或侵害到它，一般不会删掉你整个网站的索引，不过，这个尺度掌握在人家手里，劝你还是别去试它的耐性。

作为一名网主，明白了哪些行为是作弊，你就应该在允许范围内，去探索如何获得较高排名，以增大网站访问量，让尽可能多的人知道你的产品、服务或了解你本人，只有这样，成功注册才有实际意义。

使百度有效收录

百度喜欢结构简单的网页，具有复杂结构的网页可能无法顺利登录百度。您在进行网页设计时应尽量：

1. 给每个网页加上标题

网站首页的标题，建议您使用您的网站名称或公司名称，其它网页的标题建议与每个网页内容相关，内容不同的网页不用相同的标题。

2. 不要把整个网页做成一个Flash或是一张图片

百度是通过识别网页源代码中的汉字来认识每一个网页的。如果您的整个网页是一个Flash或一张图片，百度在网页中找不到汉字，就有可能不收录您的网页。

3. 不对网页做重定向

重定向的网页可能不容易登录百度。

4.不在网页中使用Frame（框架结构）

5.不在网页中使用过分复杂的JavaScript

某些Java Script的内容对于搜索引擎是不可见的，所以不能被识别和登录。

5.静态网页能更顺利登录百度，动态生成的网页不容易登录百度

·如果您的网页url中含有如asp、？等动态特征，网页就可能被认为是动态网页。

·如果您的网站中有很多网页必须做成Frame结构或动态网页，那么建议您至少把网站首页做成简单的网页，并且对网站内的一些重要网页，在首页加上链接。

6. 不要对搜索引擎进行作弊

作弊的网站不能登录百度，即使登录后也随时可能被删除。

作弊网站定义

对搜索引擎作弊，是指为了提高在搜索引擎中展现机会和排名的目的，欺骗搜索引擎的行为。

以下行为都可能被认为是作弊：

· 在网页源代码中任何位置，故意加入与网页内容不相关的关键词；

· 在网页源代码中任何位置，故意大量重复某些关键词。即使与网页内容相关的关键词，故意重复也被视为作弊行为；

· 在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法，都属于作弊行为；

· 故意制造大量链接指向某一网址的行为；

· 对同一个网址，让搜索引擎与用户访问到不同内容的网页（包括利用重定向等行为）；

· 作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊，该网站也被认为是有作弊行为；

· 有链接指向作弊网站的网站，负连带责任，也会被认为是作弊（但是，作弊网站上链接指向的网站，不算作弊）。

作弊网站害处

根据网页的作弊情况，会受到不同程度的惩罚：

· 较轻微的惩罚，是系统在给网页排名时略为降低该网页的排名；

· 较常见的惩罚，是作弊网站的某些关键词（或所有关键词）的排名降到其它任何网站之后；

· 较严厉的惩罚，对于作弊行为和后果特别恶劣的网站，将从百度中消失；

· 特别补充，含恶意代码或恶意插件等用户极端反感内容的网页，虽然不是作弊，但只要用户投诉，一经确认也会被百度拒绝收录；

Google官方确认AdSense有助于网页收录
Google官方确认AdSense有助于网页收录

Google的网页收录的其中一种途径是通过Googlebot的爬行来实现的，也就是说，Google派出它自己的网络蜘蛛，主动去抓取有价值的网页内容。类似地，Google的AdSense也有自己的bot，它的名字为MediaBot。它会自动去到放置了AdSense广告代码的网页，然后对网页内容进行分析，以投放与网页内容相关的广告。但一直以来都有一个争论，那就是到底AdSense的MediaBot与Googlebot有什么区别？MediaBot在判断广告相关网页的时候，会不会也对这个网站在Google收录及排名等方面有一定的好处呢？也就是说，投放了AdSense广告，会不会有助于改善自己的网站的Google收录及排名呢？

根据SEJ的消息，Google的一名高级工程师及主管Matt Cutts已经正式确认，AdSense派出来的MediaBot在抓取网页内容后，会把部分结果提交至BigDaddy的数据库里。Matt解释说，这是因为两种bot都在不断地抓取网页，因此为了节省资源，MediaBot会帮Googlebot完成部分网页抓取工作。但Matt同时也给出警告，如果你的网站提供给MediaBot的内容与提供给Googlebot的内容完全不同，那么你就会“有麻烦”。因为Google会认为你在作弊。

我认为从Matt给出的讯息里可以证明，在网站上投放了AdSense的广告，的确是有助于你的网站被Google收录。比如，收录得更快更多。但并不一定会提高你的网站排名。有这方面经验的朋友应该会想到其它办法，从Matt的话出发。

搜索引擎原理－网络蜘蛛和ROBOTS

一、网络蜘蛛基本原理

网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈，无法遍历所有的网页，有许多网页无法从其它网页的链接中找到；另一个原因是存储技术和处理技术的问题，如果按照每个页面的平均大小为20K计算（包含图片），100亿网页的容量是100×2000G字节，即使能够存储，下载也存在问题（按照一台机器每秒下载20K计算，需要 340台机器不停的下载一年时间，才能把所有网页下载完毕）。同时，由于数据量太大，在提供搜索时也会有效率方面的影响。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别，下图的说明会更加明确。

由于不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置了访问的层数。例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1层，G、H属于第2层， I属于第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让网络蜘蛛不去抓取（下小节会介绍），但对于一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全**的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。

网站与网络蜘蛛

网络蜘蛛需要抓取网页，不同于一般的访问，如果控制不好，则会引起网站服务器负担过重。今年4月，淘宝http://www.taobao.com）就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢？其实不然，有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿，做了些什么，另一方面也告诉网络蜘蛛哪些网页不应该抓取，哪些网页应该更新。/

每个网络蜘蛛都有自己的名字，在抓取网页的时候，都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求，这个请求中就有一个字段为User－ agent，用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot，Baidu网络蜘蛛的标识为BaiDuSpider， Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录，网站管理员就能知道，哪些搜索引擎的网络蜘蛛过来过，什么时候过来的，以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题，就通过其标识来和其所有者联系。下面是博客中http://www.blogchina.com）2004年5月15日的搜索引擎访问日志：/

网络蜘蛛进入一个网站，一般会访问一个特殊的文本文件Robots.txt，这个文件一般放在网站服务器的根目录下，http://www.w3.org/robots.txt。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问，或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到，那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单，例如如果对目录没有任何限制，可以用以下两行来描述：

User-agent: *
Disallow:

当然，Robots.txt只是一个协议，如果网络蜘蛛的设计者不遵循这个协议，网站管理员也无法阻止网络蜘蛛对于某些页面的访问，但一般的网络蜘蛛都会遵循这些协议，而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。

网络蜘蛛在下载网页的时候，会去识别网页的HTML代码，在其代码的部分，会有META标识。通过这些标识，可以告诉网络蜘蛛本网页是否需要被抓取，还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如：表示本网页不需要被抓取，但是网页内的链接需要被跟踪。

关于Robots.txt的语法和META Tag语法，有兴趣的读者查看文献[4]

现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页，因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到，网站管理员可以建立一个网站地图，即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口，网站管理员可以把网站内部所有网页的链接放在这个文件里面，那么网络蜘蛛可以很方便的把整个网站抓取下来，避免遗漏某些网页，也会减小对网站服务器的负担

内容提取

搜索引擎建立网页索引，处理的对象是文本文件。对于网络蜘蛛来说，抓取下来网页包括各种格式，包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后，需要把这些文件中的文本信息提取出来。准确提取这些文档的信息，一方面对搜索引擎的搜索准确性有重要作用，另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。

对于doc、pdf等文档，这种由专业厂商提供的软件生成的文档，厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口，就可以轻松的提取文档中的文本信息和文件其它相关的信息。

HTML等文档不一样，HTML有一套自己的语法，通过不同的命令标识符来表示不同的字体、颜色、位置等版式，如：、、等，提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事，因为这些标识符都有一定的规则，只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候，需要同步记录许多版式信息，例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等，这些信息有助于计算单词在网页中的重要程度。同时，对于HTML网页来说，除了标题和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道，因为导航条在网站内每个网页都有，若不过滤导航条链接，在搜索“产品介绍”的时候，则网站内每个网页都会搜索到，无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律，抽取一些共性，统一过滤；对于一些重要而结果特殊的网站，还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。

对于多媒体、图片等文件，一般是通过链接的锚文本（即，链接文本）和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”，其链接指向一张bmp格式的图片，那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样，在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外，许多多媒体文件中有文件属性，考虑这些属性也可以更好的了解文件的内容。

动态网页一直是网络蜘蛛面临的难题。所谓动态网页，是相对于静态网页而言，是由程序自动生成的页面，这样的好处是可以快速统一更改网页风格，也可以减少网页所占服务器的空间，但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多，动态网页的类型也越来越多，如：asp、jsp、php等。这些类型的网页对于网络蜘蛛来说，可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言（如VBScript和javascript）生成的网页，如果要完善的处理好这些网页，网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站，需要通过本网站的数据库搜索才能获得信息，这些给网络蜘蛛的抓取带来很大的困难。对于这类网站，如果网站设计者希望这些数据能被搜索引擎搜索，则需要提供一种可以遍历整个数据库内容的方法。

对于网页内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式，通过一个插件管理服务程序，遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好，以后每发现一种新的类型，就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

更新周期

由于网站的内容经常在变化，因此网络蜘蛛也需不断的更新其抓取网页的内容，这就需要网络蜘蛛按照一定的周期去扫描网站，查看哪些页面是需要更新的页面，哪些页面是新增页面，哪些页面是已经过期的死链接。

搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长，则总会有一部分新生成的网页搜索不到；周期过短，技术实现会有一定难度，而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新，对于一些重要的更新量大的网站，更新的周期短，如有些新闻网站，几个小时就更新一次；相反对于一些不重要的网站，更新的周期就长，可能一两个月才更新一次。

一般来说，网络蜘蛛在更新网站内容的时候，不用把网站网页重新抓取一遍，对于大部分的网页，只需要判断网页的属性（主要是日期），把得到的属性和上次抓取的属性相比较，如果一样则不用更新。

二、Robots

其中的属性说明如下：

设定为all：文件将被检索，且页面上的链接可以被查询；

设定为none：文件将不被检索，且页面上的链接不可以被查询；

设定为index：文件将被检索；

设定为follow：页面上的链接可以被查询；
设定为noindex：文件将不被检索，但页面上的链接可以被查询；

设定为nofollow：文件将不被检索，页面上的链接可以被查询。

-----------------------------------
我们知道，搜索引擎都有自己的“搜索机器人”（ROBOTS），并通过这些ROBOTS在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建立自己的数据库。

对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被ROBOTS抓取而公开。为了解决这个问题，ROBOTS开发界提供了两个办法：一个是robots.txt，另一个是The Robots META标签。

一、robots.txt

1、什么是robots.txt？

robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

网站 URL
相应的 robots.txt的 URL

http://www.w3.org/
http://www.w3.org/ robots.txt

http://www.w3.org:80/
http://www.w3.org:80/ robots.txt

http://www.w3.org:1234/
http://www.w3.org:1234/ robots.txt

http://w3.org/
http://w3.org/ robots.txt

2、 robots.txt的语法

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：

User-agent:

该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中， "User-agent：*"这样的记录只能有一条。

Disallow :

该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.htm和/help/index.html都不允许搜索引擎访问，而"Disallow: /help/"则允许robot访问/help.html，而不能访问/help/index.html。

任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

下面是一些robots.txt基本的用法：

禁止所有搜索引擎访问网站的任何部分：

User-agent: *
Disallow: /

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的几个部分（下例中的cgi-bin、tmp、private目录）

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

禁止某个搜索引擎的访问（下例中的BadBot）

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问（下例中的WebCrawler）

User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

3、常见搜索引擎机器人Robots名字

名称搜索引擎

Baiduspider http://www.baidu.com

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

MSNBOT http://search.msn.com

4、 robots.txt举例

下面是一些著名站点的robots.txt：

http://www.cnn.com/robots.txt

http://www.google.com /robots.txt

http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt

http://www.eachnet.com/robots.txt

5、常见robots.txt错误

颠倒了顺序：
错误写成

User-agent: *
Disallow: GoogleBot

正确的应该是：

User-agent: GoogleBot
Disallow: *

把多个禁止命令放在一行中：
例如，错误地写成

Disallow: /css/ /cgi-bin/ /images/

正确的应该是

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

行前有大量空格
例如写成

Disallow: /cgi-bin/

尽管在标准没有谈到这个，但是这种方式很容易出问题。

404重定向到另外一个页面：
当Robot 访问很多没有设置robots.txt文件的站点时，会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题，但是最好能放一个空白的robots.txt文件在站点根目录下。

采用大写。例如

USER-AGENT: EXCITE
DISALLOW:

虽然标准是没有大小写的，但是目录和文件名应该小写：

user-agent:GoogleBot
disallow:

语法中只有Disallow，没有Allow！
错误的写法是：

User-agent: Baiduspider
Disallow: /john/
allow: /jane/

忘记了斜杠/
错误的写做：

User-agent: Baiduspider
Disallow: css

正确的应该是

User-agent: Baiduspider
Disallow: /css/

下面一个小工具专门检查robots.txt文件的有效性：

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

二、 Robots META标签

1、什么是Robots META标签

>Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而Robots META标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots META标签也是放在页面的<head></head>中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似（见黑体部分）：

<html>

<head>

<title>时代营销--网络营销专业门户</title>

</head>

<body>

…

</body>

</html>

2、Robots META标签的写法：

Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面；

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。

这样，一共有四种组合：

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成

<META NAME="ROBOTS" CONTENT="ALL">；

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成

需要注意的是：上述的robots.txt和Robots META标签限制搜索引擎机器人（ROBOTS）抓取站点内容的办法只是一种规则，需要搜饕?婊?魅说呐浜喜判校?⒉皇敲扛鯮OBOTS都遵守的。

目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：

表示抓取该站点中页面并沿着页面中链接抓取，但是不在GOOLGE上保留该页面的网页快照.

答：可能的原因如下：
您可能还没向百度提交您的网站；
您已经登录了网站，但由于时间短，百度还未收录；
如果百度检测到您的网站无法访问，您的站点就有可能被百度暂时删除；
如果您的网站内容有不符合中国法律的地方，则无法被百度收录；
如果您的站点页面结构复杂，则可能无法被百度收录（详见如何使您的站点被百度有效收录）；
如果您的网站被百度判别为垃圾站点，则可能被百度拒绝收录或者随时删除（详见百度关于垃圾网站的处理）。
如果您的网站的首页在百度搜索不到，则可能是由于您的网站不稳定使首页被判别为死链接导致丢失。您的网站稳定后，首页会重新在百度中被搜索到。百度并不允诺能收录所有站点。如果有上述回答无法说明的问题，也可以发信到webmaster@baidu.com询问。答：百度会定期自动更新所有网页（包括去掉死链接，更新域名变化，更新内容变化）。因此请耐心等一段时间，您的网站上的变化就会被百度察觉并修正。答：这是绝对不可能的。
百度的网页搜索策略的唯一标准，在于用户的搜索体验。竞价排名和网页搜索自然排名，是完全独立的两个技术服务系统。一个网站是否是百度竞价排名客户，对于网页搜索自然排序无任何影响。
如果您收到任何类似威胁的说辞，请您直接发邮件至ask@baidu.com举报。答：通常情况下，这是正常的现象。因为不同搜索引擎的算法，都是不同的。答：通常情况下，这是正常的变化。一般来说，有三类原因导致排序发生变化：
A. 特定关键词所涉及的您的网页发生了变化
B. 特定关键词所涉及的其他网页发生了变化
C. 百度的排序算法发生了变化

• 传送网助力网络IP化	• 301重定向
• 让百度快速收录的多种方法	• 巧妙让U盘禁止拷贝
• 使用U盘的一些技巧	• 使用U盘时遇到双击打不开的情况
• 谷歌Google PR值等级怎样提高	• SEO新时代互联网中的一门艺术和技术-即搜索引擎
• SEO的基本原理	• 网站优化与搜索引擎排名SEO的区别

会员商务中心

免费发布信息

如何让百度收录你的网站大全

会员商务中心

免费发布信息

如何让百度收录你的网站 大全

如何让百度收录你的网站大全