失眠网 > 【算法】海量数据相似度计算之simhash和海明距离

【算法】海量数据相似度计算之simhash和海明距离

时间：2021-03-06 10:10:44

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。看起来很简单，我们来做个测试，就拿最简单的两个数据使用Apache提供的 Levenshtein for 循环100w次计算这两个数据的相似度。代码结果如下：

String s1 = “你妈妈喊你回家吃饭哦，回家罗回家罗” ;

String s2 = “你妈妈叫你回家吃饭啦，回家罗回家罗” ;

long t1 \= [System](/search?hl=en&q=allinurl%3Asystem+&btnI=I%27m%20Fee

如果觉得《【算法】海量数据相似度计算之simhash和海明距离》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。