simhash_demo a demo of simhash tool 实例化的时候可以通过mode参数选择k-shingle分词,这样就不需要依赖结巴分词了 simhash是一种通过哈希值判断文章相似程度的办法,生成的哈希值属于局部敏感哈希,两篇文章的哈希值相似程度近似于两篇文章本身的相似程度