现在百度提倡用户体验,更加强调网站内容的原创度,但是百度蜘蛛是怎样分辨一篇文章是不是原创呢?同一篇文章发在不同平台上被收录后百度是如何辨别哪篇是原创哪篇不是原创呢?
1、文章对比
搜索引擎来到这个网站并且抓取到了这篇文章,放到数据库,并且在收录数据库中没有发现类似内容,那么就会被认为是原创,也有站长朋友认为是用公式计算出的,即:TF IDF ,TF是TermFrequency的缩写,译成中文是词频,指的是某一个词在文章中出现的次数;IDF是InverseDocumentFrequency的缩写,中文译成反文档频率,IDF越大,表明这个词在其它文章中出现的次数很少,说明这个词有很好的类别区分能力。