文本相似度算法研究研究背景与意义
在网络化时代算法改变人们的工作和生活,其中文本相似度算法在网络日益渗透到人们生活方方面面的时代越来越重要,应用范围越来越普遍、所所不及,只要有知识或信息的环境就有可能用到这个算法,当前最典型的应用是智能翻译、分答系统、知识检索、文档分类等领域,在每一个领域的应用都是最基础的应用,没有文本相似度算法就没有更多的其它应用,其它各类应用都是建立在这个算法的基础上,这个算法能够在不同信息之间实现匹配,找到人们希望得到的信息,这就解决了海量知识与精准需求之间的矛盾,解决了快速检索需求与计算效率之间的矛盾[1],解决了人工操作费时费力与机器自动计算快捷高效之间的矛盾。
当然随着网络规模越来越大,结构越来越复杂,联系越来越频繁,存储的内容越来越海量,对文本相似度算法的计算准确性和计算速度也提出了更高的要求,要求这些算法能够几乎在瞬间就可以精准找到检索的结果,在几乎实时就能够得到人们关注的结果,这样的话人们利用现代信息技术工作和生活的效率更高,更加人性化。这样看来,在前人的基础上深入研究文本相似度算法具有十分重要的意义。
1.1 研究现状
在国内外对这个算法的研究多年来一直都是热点,有研究基本理论的,也有研究算法应用的,还有创新算法结构的。从国外典型的有代表性的研究来看,发表比较早的研究成果是1969年Salton和McGill的研究成果[2],这二位作者提出了“向量空间模型”算法框架,在这一个算法框架中,第一步是对要分析的文本对象采取多种其它算法预处理,第二步通过预处理来获得表示文本对象的特征向量,这个特征向量就表示文本对象,第三步利用算法计算文本特征向量的相似程度,这样的一个算法应用算法领域比较广泛,主要包
括文本分类、信息检索和文档查重等方面。这属于通过文本特征向量计算文本相似度的方法,具有典型的代表性。在此基础上,逐渐发展出一种语义检索和判定文本相似度的方法,这种方法是国外的Chris H·Q·Ding研究后提出的,其理论基础是矩阵的奇异值分解理论,通过得到文本对于的矩阵,并计算矩阵对应的奇异值阵,再对奇异值阵计算相似度[3],这种方法适用于大型、复杂信息文本相似度计算,效率比较高、准确度比较高,经过算法的发展后,目前用在大型数据库检索和搜索引擎中。此外,在国外的研究方面还有从事文本包含度、相似度公式计算的[4],主要运用在信息检索领域。从国内有代表性的典型研究来看,随着国内网络理论和信息理论发展,国内学者也十分重视文本相似度算法研究,有跟踪国外研究前沿的,有独创派系的,也有国内国外结合的,比如2009年曹恬、周朋、国煊等人共同研究,经过实验论证,提出了一种新的基于词出现的文本相似度算法[5];2010年万小军、彭宇新等人,通过系统分析国内外典型算法的基础上,提出了通过文档结构计算文本相似度的方法[6];王晓东、郭雷等人提出基于EMD方法计算文相似度的方法[7],金博等人在研究词语相似度的基础上,发现知网中义原分类树可以进行层次判断,可以计算文本中词与词之间的近义性和相关性,这种方法也可以计算出文本的词语相似度和文本相似度[8]。总的看,国内在文本相似度研究方面有超越国外研究的趋势,经过多年的发展取得了丰硕的成果,在智能计算、语义分析、机器学习、网络翻译、知识检索[9]等方面有了成熟的应用。
1.2 研究框架
本文研究主要内容的重点放在余弦相似性算法、简单共有词相似度算法、欧几里得距离相似度算法,在分析这三种算法基本原理和运用的基础上,结合当前热点应用对算法进行改进,改进的算法将具有一定的实用价值。围绕这样的重点研究内容,本文主要研究提纲包括五个方面:一是文本相似度算法概述,二是文本相似度算法基本原理,三是文本相似度算法分析,四是文本相似度算法改进,五是全文总结。本论文将按照这样一个论文结
构和上述三个方面的研究重点展开研究。
因篇幅问题不能全部显示,请点此查看更多更全内容