之前看到搜索引擎原创识别与站内权重继承算法解析这篇文章,写的很好,但对于普通水平的同学来说很难理解,同时也有一部分算法未提及。
对于原创的识别上,原文提到的提取关键词,然后运用md5或者频率对比的方式是可以的,但实际运用起来可能效果不是很好。在搜索引擎对原创内容识别上,按照关键词词频(TF)的比较闲的有些低级,应为内容太多,很容易出现误判的情况。所以,还需要另一个指标来判断。这种方法就是切片比较,按照固定步长对内容进行切片,比较其相似度,会更接近于真实结果。切片比较可以很好的识别段落打乱的伪原创手法。