句子相似度算法,基于谷歌距离的语义相似度为多少时可确定两者为同义词
答案:1 悬赏:80 手机版
解决时间 2021-04-05 13:48
- 提问者网友:川水往事
- 2021-04-04 18:12
句子相似度算法,基于谷歌距离的语义相似度为多少时可确定两者为同义词
最佳答案
- 五星知识达人网友:梦中风几里
- 2021-04-04 19:49
词语的语义相似度计算主要有两种方法 :
一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;
另一类主要是通过词语上下文的信息,运用统计的方法进行求解。
1. 语义相似度
Dekang Lin认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences),然后从信息论的角度给出了定义公式:
其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。
其中,Sl,S2表示两个义原,S表示离它们最近的共同祖先,p(s)是该结点的子结点个数(包括自己)与树中的所有结点个数的比值。
刘群、李素建以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。
对于两个词语W1,W2,如果记其相似度为Sim(W1,W2) ,其词语距离为Dis(W1,W2),根据刘群、李素建的公式:
其中a是一个可调节的参数。n的含义是:当相似度为0.5时的词语距离值。
词语距离和词语相似度是一对词语的相同关系特征的不同表现形式,如果两个概念之间的语义距离越近,就认为它们越相似,因此二者之问可以给出一个简单对应关系:
其中,Dis(Wl,W2)为树中W1,W2所代表的结点在树中的距离,k为比例系数。
一般地说,相似度一般被定义为一个0到1之间的实数。特别地,当两个词语完全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0
2. 语义相似度的计算方法
词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology)或分类体系(Taxonomy)来计算,一种利用大规模的语料库进行统计。
2.1 根据分类体系计算词语语义距离的方法
该方法又称基于树的语义相似度研究方法,基于树的语义相似度计算的算法大体上分为两种:一是基于距离的语义相似性测度;二是基于信息内容的语义相似性测度。一般是利用一部语义词典(如Wordnet,Hownet),语义词典都是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相似度起着决定作用。
2.1.1 基于树状层次计算语义相似度的基本思想
例如,在图1(取自Wordnet本体中的一小部分)中,boy和girl之间的最短路径是boy—male—person—female—girl,最小路径长度为4。而teacher和boy之间的最小路径长度为6。因此,girl比teacher在语义上更接近于boy。该测度算法在基于Wordnet的语义网中获得了较好的计算结果。
2.1.2 基于《知网Hownet》的语义相似度计算
由于《知网Hownet》中词语不是组织在一个树状的层次体系中,而是一种网状结构;同时借助义原和符号对概念进行描述。对于两个汉语词语Wl和W2,如果W1有个n义项(概念):Sll,S12,…,S1n,W2有个m义项(概念):S21,S22,…,S2m,刘群、李素建认为W1和W2的相似度是各个概念的相似度之最大值,也就是说:
为了更加精确地计算出词语的语义相似度,在《知网》中对一个实词的描述可以表示为一个特征结构,该特征结构含有以下四个特征:
*第一基本义原描述:......余下全文>>
一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;
另一类主要是通过词语上下文的信息,运用统计的方法进行求解。
1. 语义相似度
Dekang Lin认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences),然后从信息论的角度给出了定义公式:
其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。
其中,Sl,S2表示两个义原,S表示离它们最近的共同祖先,p(s)是该结点的子结点个数(包括自己)与树中的所有结点个数的比值。
刘群、李素建以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。
对于两个词语W1,W2,如果记其相似度为Sim(W1,W2) ,其词语距离为Dis(W1,W2),根据刘群、李素建的公式:
其中a是一个可调节的参数。n的含义是:当相似度为0.5时的词语距离值。
词语距离和词语相似度是一对词语的相同关系特征的不同表现形式,如果两个概念之间的语义距离越近,就认为它们越相似,因此二者之问可以给出一个简单对应关系:
其中,Dis(Wl,W2)为树中W1,W2所代表的结点在树中的距离,k为比例系数。
一般地说,相似度一般被定义为一个0到1之间的实数。特别地,当两个词语完全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0
2. 语义相似度的计算方法
词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology)或分类体系(Taxonomy)来计算,一种利用大规模的语料库进行统计。
2.1 根据分类体系计算词语语义距离的方法
该方法又称基于树的语义相似度研究方法,基于树的语义相似度计算的算法大体上分为两种:一是基于距离的语义相似性测度;二是基于信息内容的语义相似性测度。一般是利用一部语义词典(如Wordnet,Hownet),语义词典都是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相似度起着决定作用。
2.1.1 基于树状层次计算语义相似度的基本思想
例如,在图1(取自Wordnet本体中的一小部分)中,boy和girl之间的最短路径是boy—male—person—female—girl,最小路径长度为4。而teacher和boy之间的最小路径长度为6。因此,girl比teacher在语义上更接近于boy。该测度算法在基于Wordnet的语义网中获得了较好的计算结果。
2.1.2 基于《知网Hownet》的语义相似度计算
由于《知网Hownet》中词语不是组织在一个树状的层次体系中,而是一种网状结构;同时借助义原和符号对概念进行描述。对于两个汉语词语Wl和W2,如果W1有个n义项(概念):Sll,S12,…,S1n,W2有个m义项(概念):S21,S22,…,S2m,刘群、李素建认为W1和W2的相似度是各个概念的相似度之最大值,也就是说:
为了更加精确地计算出词语的语义相似度,在《知网》中对一个实词的描述可以表示为一个特征结构,该特征结构含有以下四个特征:
*第一基本义原描述:......余下全文>>
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息
大家都在看
推荐资讯