企业库qiyeku.com这种垃圾站,什么时候停止你的采集?

写博客的站长最怕使用自动采集程序的垃圾站长,也怕全站拷贝的这种无耻站长。更怕识别原创能力很差的垃圾搜索引擎,比如百度。

一个叫企业库的网站,网址www.qiyeku.com,其内容绝大多数是从别人的博客和网站文章采集过来。经多次联系这个站长要求停止采集,无回应。

采集文章是怎么回事呢?
有一种工具软件可以自动的从别人的博客和网站上自动收集文章内容,发布到自己的网站上,正式的名称叫网站内容管理系统CMS。正是这种CMS的存在,造就了中国互联网垃圾网站的大量存在。很多站长都是靠这种工具,大量的采集,重复的建站,从百度引来流量访问网站,以网站广告养活自己。此类站长只能称之为寄生虫!

这个博客在百度的收录一直都不是很理想,最近更严重,收录数据越来越少。随机抽查一些文章的收录,发现文章是被收录了,但是收录的却是一些垃圾站的页面,而不是我们站的,比如叫企业库的网站多数我站没有被收录的,就被那个站收录了。这很气人,个人博客是原创文章的发源地,辛辛苦苦写出来的文章,别人不费吹灰之力就抄袭走了,通过搜索引擎搜索相关内容别人的站排得比你高,你得不到任何好处,请问如此以往还有谁愿意去写原创文章啊?

为此事也向百度投诉过,但是采集的继续,原创的仍然没有收录。看这个垃圾站的收录,site:www.qiyeku.com,百度返回167万的结果,google只返回6930个结果。这两个搜索引擎还是有区别的。

在防止网络垃圾信息这件事情上,搜索引擎这个裁判长,起着相当重要的作用。百度懂事长李彦宏,在外界批评百度竞介排名带来的恶果时,就曾经为此事承诺过,表示搜索引擎界当前重任是防止网络垃圾信息,以此为借口来混淆视听。但是这两三年来,百度在防止网络垃圾信息这件事情上有多少进展呢?百度的技术有提高吗?垃圾站有减少吗?当然,都没有。

采集站为什么能得到收录,原因无非就两点,一是有权重,二是更新快。因为不停的在采集,当然是不停的在更新。如果对方的网站比我们的站有更高的权重,则会优先抓取到文章内容,百度SB就会认为这是原创的。百度识别原创文章的技术早在几年前就开始鄙视它了,比如这篇写的:百度如何判断原创与收录的问题——愚蠢的算法!

相关日志

此条目发表在百度搜索引擎研究分类目录,贴了, , , , , 标签。将固定链接加入收藏夹。

企业库qiyeku.com这种垃圾站,什么时候停止你的采集?》有 1 条评论

  1. 首佳软件说:

    采集的途径包括RSS等.我在考虑是不是不要对RSS全文输出.

发表评论