【关键词】 查重; bloom filter; 内容块; rabin fingerprint; 净化; 【英文关键词】 replica detect; bloom filter; CDC; rabin fingerprint; purification; 【中文摘要】 搜索引擎已经成为人们获取信息最主要的途径。与传统的获取信息方式相比,搜索引擎返回的信息更快速、更便捷、更全面。搜索引擎已经成为电子时代不可缺少的一部分。但是由于电子信息的特殊性,网络上有很多重复的信息,即在不同的网页地址上内容却是相同的,或者大体一致的。为了提高搜索引擎和用户检索的效率,网页查重的研究是非常必要的。 网页查重主要包括两部分,一是对原始网页的处理,主要是对网页噪音净化以及对网页主题信息的提取;二是对网页内容进行查重处理。目前许多研究机构都在进行网页相似度的研究,也提出了一些相似度检测的方法,主要有三种类型:url分析、链接分析和内容分析。 本文首先介绍了已有网页净化方法,并详细介绍了课题研究采用的Jtidy净化方法。其原理是JTidy被parseDOM方法调用,得到一个xml文档的InputStream类,并且形成一个DOM树,再利用标准的DOM API方法,使用简单的语句对DOM进行遍历,提取文档特定标签之间的内容以便建立索引;然后介绍了网页相似度检测方法,对现有的方法进行了讨论分析,并提出了使用bloom filter基于内容的检测相似性的方法。其具体过程是对净化后... 【英文摘要】 Search engines have become the main means of access to information for computer users, compared with the traditional means of access to information. Search engine get information more quickly, more convenient and more comprehensive. Search engines have become an indispensable part of the electronic age. However, because of the special nature of the electronic information network, there are a lot of duplication of information in the web site, that content is the same, or roughly the same in different U...
|