百度确实不支持noindex元标签,及精确匹配的问题

google应用及研究, 百度搜索引擎研究 2 Comments »

为了首佳管理软件论坛做得更规范一点,前两天在调整网站导航的事情,调整的内容请看这篇:Discuz!论坛静态化网址的网站地图sitemap解决方案

打算用论坛的帖子存档目录来做网站导航,便于收录和用户浏览。存档页面加了noindex和follow的元标签,今天查了一下网上的文章,很多人在怀疑百度是不是不支持noindex元标签,经过我这个站的收录情况来看,百度收了很多按日期的存档,和目录页面,这两种页面都用 All in One SEO插件加上了noindex标签的,结果还是收录了,这说明百度确实不支持noindex元标签。

看来对首佳汽修汽配管理软件论坛的帖子存档目录的索引问题还需要在robots.txt文件对每一个下级目录进行拦截了。还只能针对百度先生来设置robots。

另外还看到文章说,用 All in One SEO插件对百度来说还有负面作用,在存档和目录,及标签页面加上了noindex标签后,收录状况很差。从汽车修理厂管理这个站来看,百度目前收录数是397,翻到最只到23页,说明这个数字还有水份;整体来说效果不算好也不差吧。刚巧,之前的设置是针对标签页没有加noindex标签。现在三个都不加noindex标签,看看收录效果如何?也看看百度对新文章的收录速度有没有改善。

说到百度对新文章的收录问题,一直以来都是很慢,一般会延后半个月以上。直接搜索文章的标题,只会出现在首页的结果。根据百度的说明:关于双引号的使用,请看这里http://www.baidu.com/search/page_feature.html#0904。百度说它是支持双引号的精确匹配的,结果我搜索上月25号发表的文章的标题“google搜索显示多个来自论坛的搜索结果”,显示没有找到相关网页,这篇文章刚好没有收录,但是去掉双引号显示主页有这一句话。这不是给百度自己打了一句耳光吗?注意:这个测试只能在近期内有效,过段时间百度收录了这篇文章后,双引号肯定是能查到的。

为什么我们的网站排名会降低?该如何处理?

google应用及研究, 百度搜索引擎研究 1 Comment »

近期发现很多在谷歌排名前列的关键字没有我的网站(http://www.whsjsoft.com)。比如汽修软件,这原本坐稳了第一名的关键字,只剩下两个博客。再比如:首佳汽修软件,这个关键字几乎是没有竞争对手的,因为只有我们提供这样的内容。这个关键字有很多个友情链接指向主页,排第一无可厚非的,但是现在也不见了排名?只有一个解释-网站被降权了!

Google黑板报文章:我的谷歌排名哪里去了?,文中重要摘要及我们的处理办法如下:

1、谷歌对某一网站惩罚的最常见的原因就是网站的网络作弊。在谷歌网站管理员指南 中,谷歌指出了如何设计网站,网站的内容应包含哪些,网站管理员必须了解哪些技术,并给出了网站的质量指南。任何违反网站质量指南的网站都被称为作弊网 站,并可能受到惩罚。在质量指南中,下列行为被认为是作弊:隐藏文本或隐藏链接;隐藏真实内容或欺骗性重定向;向谷歌发送自动查询;使用无关用语加载网 页;创建包含大量重复内容的多个网页、子域或域;针对搜索引擎制作的”桥页”,联属计划;制作会安装病毒、特洛伊木马或其他有害软件的网页。这些行为的共 性是,他们都是为搜索引擎而作,而不是为访问网站的用户而作。

被降权首先想到的是网站有没有作弊?是否符合谷歌网站管理员指南 中指导的建站要求?最近我们站都没有作过改动,主动作弊这种情况完全可以排除。因为在谷歌中排名一直很好,没有再作弊的必要。另外,关于重复内容,因为百度对我站(http://www.whsjsoft.com)的新闻内容页一直不收录,新闻页面是由带有两个参数的ASP页面生成的内容;后来为增加百度的收录特地加入网站导航页面,并将新闻内容转成静态的页面;但是谷歌等搜索引擎是可以收录的,所以等于是重复了一次内容。我们可以做的是:可针对谷歌设置robots.txt内容如下:

User-agent: googlebot
Disallow: /sitemap/index/
Disallow: /sitemap/index5/
Disallow: /sitemap/index4/
Disallow: /sitemap/index2/
Disallow: /sitemap/index1/

关于重复内容,还有一点也是很可疑的影响网站质量及可读性的;就是网站版权部分区域原先是每一个页面都是相同的,都从一个foot脚本中导入的。相同的版权说明的内容,在一定程度上也会造成网站内容的重复。现在将它改成栏目的导航功能,这一点重复就无关紧要了。

PR的传递和页面的重要程度的处理,也会影响网站排名,几乎每一个页都有相同的友情链接的内容,等于把页面本身的PR分散的传递到其它网站上,这似乎没有必要。

2、网络作弊的另一种行为是无效链接的利用。一些网站通过买卖链接,或利用其他网站的自助链接功能得到链接,或者干脆使用垃圾链接软件来得到完全无效的链接。这些短视行为影响了谷歌排名算法的正常运行。谷歌不得不调整算法对这些作弊的网站降权。在要求重新收录或找回排名前,用户必须移去违反网络管理员指南的内容,或检查自己的网站安全性能以保证没有被黑。对违反当地法律的内容也必须移去。被降权的网站必须撤掉不合理的链接。

昨日我作全站的死链接检查工作,发现好几个无效的对外链接,几百个可能是垃圾网站的引用通告,及几十个可通链接垃圾网站的留言。这些可能是我的网站排名会降低,并被降权的罪魁祸首!禁止接收引用通告,禁示游客发表留言,是治根又治本的办法。所以我们必须做的是把这些垃圾链接全部清除到一干二净,还必须做的是:汽车维修管理博客将禁止引用通告及游客留言功能

3、检测网站死链接,提高网站质量,另一种更精确的方法是利用谷歌的网站管理员工具注册并查询你的网站的信息。在谷歌网站管理员工具中会定期报告谷歌蜘蛛人在我们网站上抓取过程中发现的无效链接。有些死链接可以分析原网页代码找到错误把它修复。虽然有些死链接可能无法解释,无法修复;但是我们可以在robots.txt中增加禁止索引的规则。比如:

Disallow: /blog/commentedit.asp
Disallow: /blog/go.asp
Disallow: /Bs_UserReg.asp
Disallow: /javascript:VoteForm.submit()

这些不知来源的死链接,我们还是可以控制不抓取的。

4、网站的安全性。这不光是网站自身的安全性,还有对你的客户的安全性,我们的网站对访客是不是负责任的?

看此文:本网站被值入病毒代码,现已经恢复正常

前些天网站被恶意的值入病毒代码、指向恶意网站。这都是很严重的安全性问题。还好花费了一个小时就把恶意代码清除了,但是如果这个时候谷歌的蜘蛛人正好在抓取,那后果就是惩罚、降权处理。

5、其它建议如谷歌网站管理员中文博客:给网站管理员的建议:创建可利用的、可抓取的网站

做好了这些工作,希望谷歌能解除惩罚,并恢复我的排名。

汽车修理厂管理与汽车维修管理软件博客PR升级

WordPress及维护日志, google应用及研究, 首佳新闻 4 Comments »

前两天打开博客,发现汽车修理厂管理与汽车维修管理软件博客的PR升级了,由0升级到2。这是一个正常的表现,有持续的更新、有原创文章、一定数量的外部链接;有这三个条件的作为基础,谷歌不给我这个博客升级PR都难了。

PR值又是什么?Page Rank的中文为页面等级,缩写为PR 。Page Rank是Google推出的网页等级,通常被称为PR值,从0到10一共11个级别,级别越高则证明该网页越重要,一般情况下PR高的网页会有更大的机会排在Google搜索的前列。有兴趣可以看PR的其它解释

前段时间谷歌的网站管理员工具统计显示,这个博客的外部链接莫名其妙的消失的一个不剩了 。昨天去谷歌网站管理员工具查看时, 也恢复了,现在增加到869个。这869个外部链接当中,除了正常的链接,还包括一些博客设置了nofollow标签的评论留下的链接,还包括百度空间用SCRIPT生成的友情链接(在浏览器客户端生成的链接)。如此看来,大量的留下带自己博客地址的评论,不管是不是垃圾评论,都会被计算为外部链接,不过质量和作用肯定不能与正常链接相比了。

另外,YO2升级后带来的一系列问题大部分都得到解决。例如:1、sitemap.xml的格化不再被谷歌认为不可识别的。2、根目录下的robots.txt文件经常返回200的成功状态,不再是robots.txt无法访问。3、网站已顺利的得到谷歌网站管理员工具的验证,也不再是告诉你因为访问超时而无法验证。4、提交的sitemap文件,很不错的结果哦,收录比例很高。结果如下:

Sitemap 中的总网址数 92
Sitemap 中已编入索引的网址 91

近期的访问速度也不错了,希望YO2的服务器能一如既往的稳定、好用。

相关文章:

谷歌:外部链接清零?PR降为0?

百度不支持Robots Meta标签

百度搜索引擎研究 2 Comments »

Yo2博客的标签相关的页面,打开你可以看到有这么一段代码:

<meta name=”robots” content=”noindex,follow” />

这个标签的意思是:不列入索引,但页面上的链接可以被查询。

简单点就是有这个标签的页面将不会被收录。在做收录查询时谷歌确实没有收录本博客标签相关的页面,但是百度不支持这个标签,所以百度收录了一些相关页面。

有关如何使用怎样使用Robots Meta标签?请看:

 http://www.dunsh.org/2007/03/07/robots-meta

google应用:如何写sitemap.xml文件?

google应用及研究 7 Comments »

看到一些网友搜索”如何写sitemap文件”进入本站,有些奇怪,本之前并未写过这样的文章,竟然在百度和谷歌中排名第一,搜索结果是这篇文章:sitemap和robots的关系,robots如何写?

为了不负众望吧,本文解释一些与sitemap相关的知识与大家分享。

什么是 Sitemap 文件?为什么网站需要它?

通过Sitemap 文件,您可以告诉谷歌关于您网站上的所有网页;另外,还可以选择是否告诉谷歌关于这些网页的信息,如哪些网页最重要以及更改频率。Sitemap 有助于加速网页的查找,这也是抓取网页和编制索引重要的第一步,但还有其他很多因素会影响抓取/编制索引过程。Sitemap 可让您告诉google关于您网页的信息(您认为哪些网页最重要,这些网页的更改频率如何)。

Sitemap是对原来robots.txt的扩展,它使用XML格式来记录整个网站的信息并供Google读取,使搜索引擎能更快更全面的收录网站的内容。Sitemap的作用就好像为网站提供了整站的RSS,而Google就是这些RSS的订阅者,只要网站有更新就会自动通知Google。这样一来,搜索引擎的收录由被动的Pull变成了主动的Push。

更多sitemap的帮助信息请参考:http://www.google.com/support/webmasters/bin/topic.py?topic=8476

另外谷歌希望网站所有者只创建一个 Sitemaps 文件供所有搜索引擎使用。这与很多有关Sitemaps 文件最好只包含100个以内的网址的说法并不相符,所以我们尽可相信谷歌官方的说法:您可以提供多个 Sitemap 文件,但每个 Sitemap 文件包含的网址不得超过 50,000 个,并且未压缩时不能大于 10MB。Sitemap 索引文件最多可以列出 1,000 个 Sitemap。

sitemap文件可以通过第三方程序自动生成,地图生成工具页面: http://www.sitemapspal.com/

1、在这个网站可以自动生成sitemap文件,进入这个网站后找到如下图中的黄色选框,输入要添加Google Sitemap的网站地址,例如: www.whsjsoft.com(前面“http://”默认显示,不要删掉。),然后回车。

2、回车后,第一屏页面下方的文本框中,会生成一段代码。用鼠标全部选中文本框中的代码,打开记事本等工具,复制上去。然后,把这个文件保存为:Sitemap.xml.

3、把保存的Sitemap.xml文件上传到你的站点的根目录下。

4、在谷歌网站管理员工具中提交sitemap文件。

当然,除了用工具生成sitemap.xml文件,也可以自己动手写,以弥补工具可能产生的错误。范例:本博客的sitemap为http://www.xiuli123.com/sitemap.xml
手动写sitemap文件需要尊守如下规则:

Sitemaps 协议格式由 XML 标记组成。Sitemaps 的所有数据数值应为实体转义过的。文件本身应为 UTF-8 编码的。

以下是只包含一个网址并使用所有可选标记的 Sitemaps 示例。可选标记为斜体。简单范例:

<?xml version="1.0" encoding="UTF-8"?>
  < urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
   < url>
    < loc>http://www.example.com/</loc>
    < lastmod>2005-01-01</lastmod>
    < changefreq>monthly</changefreq>
    < priority>0.8</priority>
   </url>
  </urlset>

Sitemaps 应:

  • <urlset> 开始标记开始,以 </urlset> 结束标记结束。
  • 每个网址包含一个作为父标记的 <url> 条目。
  • 每一个 <url> 父标记包括一个 <loc> 子标记条目。

请参考相关信息:XML 标记定义Sitemaps 索引 XML 标记定义

要验证手工写的sitemap.xml文件是否正确,可以用个简单的方法,用IE打开它,如果不报错,基本上正确了,然后才可以上传到网站根目录下并提交给谷歌。注意:sitemap.xml文件中一定不能包含纯汉字,否则一定会报错。

相关文章:Google网站管理员工具为什么要重复验证?

来自:首佳管理软件博客,转载请注明!

Yo2博客关于robots.txt问题的最新进展

google应用及研究 3 Comments »

大部分YO2博客都反映在谷哥网站管理员工具中存在robots.txt文件问题,错误都是一样的:

网络无法访问: robots.txt 无法访问
我们访问您的 Sitemap 时遇到错误。请确保您的 Sitemap 符合我们的指南要求,并能够通过您所提供的位置访问,然后重新提交。

按 照robots相关的帮助里说,robots并不是必须的,我可以不上传这个文件。而且相关的帮助也说明了如果robots不存在的话,将再次访问并抓 取,为什么谷歌来了两次还是只找这个robots文件呢?这不符合谷歌的帮助说明嘛。并且也不合理。不能因为网站没有robots文件,谷歌就不给收录。

谷歌中文网站管理员回应说:http://www.googlechinawebmaster.com/2007/09/blog-post_6441.html

你的错误一定与有没有robots.txt无关.请检查你的sitemap文件是否有问题.

有了这个提示,今天重新看了一下sitemap文件,里面包含中文页面的网址。 我记得以前用另外的网站提交过sitemap时,里面包含了中文的网址结果提交后报告返回错误,去掉这部分网页后正常。
这个问题表面上看起来是“robots.txt 无法访问”结果这一句话误导了所有人,Yo2的博客们肯定也想不通怎么会是这样的问题。因为robots.txt确实是正常的,每次手工访问都存在。现在终于找到问题了,希望YO2可以找到解决问题的办法。

我们发表文章时,当然是中文的标题了,如果没有指定文章缩略名肯定是中文了,然后sitemap是自动生成的,这个错误就在所难免了。

sitemap和robots的关系,robots如何写?

google应用及研究 6 Comments »
robots.txt 网址 http://www.xiuli123.com/robots.txt
最新下载 2007年9月25日 上午02时24分03秒
状态 200 (成功)

这是google网站管理员工具提供的最新报告。 robots.txt文件内容可当一个robots的参考范例:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

几乎所有搜索引擎都尊从robots协议,并按网站根目录下的robots.txt文件进行网站的抓取。 这个例子的意思是:允许所有搜索引擎抓取,并且/wp-admin/、/wp-content/、 /wp-includes/这三个目录不可以抓取。有关 robots.txt 语法的更多信息,请参阅 robotstxt.org。谷歌对有关robots.txt的设置信息请参考:http://www.google.com/support/webmasters/bin/answer.py?answer=40364&topic=8846&hl=zh_CN

在robots.txt文件无法访问或按要求验证时,提交的sitemap都会提示有相关错误,比如:robots.txt文件无法访问等。我提交了两次都失败了,可能是不存在robots.txt文件的问题,后来一查这个文件是存在的,又提交了一次终于成功了。不知道这个robots.txt文件是不是YO2后来生成的,这个问题无法考证了。

按谷歌帮助文档的说法,robots.txt文件是可以不存在的,但在提交sitemap时又必须先检查robots.txt文件,如果返回404错误,则会在以后重新访问网站并开始抓取。后来我要检查时robots.txt又存在了,sitemap才通过。如果这个文件真的不存,那谷歌是不是按照帮助文档的说法呢?不得而知了。

相关文章:google应用:如何写sitemap.xml文件?

首佳汽车修理厂管理软件广泛应用于全国各地的汽修厂,汽车4S店,维修站,汽车美容连锁店等企业.
论坛文章RSS 评论RSS 登录