词素匹配:问题的探讨

简介 对于词素匹配问题可以抽象出几种方法来进行匹配然后得到近似的结果:

对于词素匹配问题可以抽象出几种方法来进行匹配然后得到近似的结果:

 


image001.jpgimage003.jpg

转化为面积匹配                    转化为高度匹配

image004.jpg

转化为方余弦值


这里用到的是长度匹配(得加上统计规律)

比如:我是一个不善于交际的男孩 1

           我是一个男孩 2

           我是男孩 3

这几句是近似的

匹配规则:

            1为匹配的目标 2 3输入

1.      选定短句为匹配目标(短句优先原则)

2.      以每一个句子的每一个字对于另一个句子的每一个字进行匹配得到的结果进行加权

3.      2的方法匹配所有的输入

现在讨论的是有限长度的匹配,例如匹配长度先限制在100等。

对于长句不同词素以大量的统计为准

image006.jpg

完全匹配

image005.jpg

文章评论

Top