余弦定理是什么?余弦定理为什么能在新闻分类中有所应用呢?是什么样的原理呢?对于中学生来说,余弦定理也是非常的熟悉了,余弦定理到底是怎么样的呢?我们可以回顾一下余弦定理的相内容,然后看下余弦定理在新闻分类中的应用!
余弦定理和正弦定理是我们在高中时期学习三角函数时学到的两个定理。其中余弦定理说的是如果我们知道三角形的两条边和这两条边的夹角,那么我们便可以通过以下公式来求出第三条边。
图1. 余弦定理示意图
我们利用余弦定理可以求出两条边的夹角,即下面这个公式:
cosA=(b2+c2-a2)/(2bc)
当我们在坐标系里研究余弦定理时,其实就是在求两个向量之间的夹角,这个公式我们也是很熟悉的,
cosθ=a·b/|a|·|b|
在新闻分类中做的事就是将每一篇新闻都总结成一个向量,而两篇新闻之间的相似度就可以用两个向量的夹角大小来表示,夹角的大小就在某种程度是反映了两篇新闻之间距离的远近。
所以问题就是我们应该如何将一篇好多个字的新闻总结成一个向量。这看起来是不可思议的,但是现代的自然语言处理的理论发展出来了这样的方法。
想象我们有一个词汇的数据库,这个数据库中包含了十万个词,这十万个词基本可以将新闻中出现的各种词所覆盖,那么我们可以计算出每篇新闻对这个数据库中的每个词语的单词文本频率/逆文本频率值。这个值是什么意义呢?在一篇文章中,重要的词的文本频率值就高。所以进行这样的处理之后,对于每一篇新闻我们都可以得到一个十万维的向量,然后根据上面的公式就可以计算向量的夹角,从而得出新闻之间相似度了。
值得一提的是,2002年,谷歌推出了自己的新闻服务,这个服务通过计算机对各个网站的新闻内容进行了整理和分类,核心技术就是我们这里提到的新闻自动分类。
本文内容来源于网络,由秦学团队整理编辑发布,如有侵权请联系客服删除!
原创推荐2019-05-30 14:35:12
原创推荐2019-05-30 14:32:41
小学资讯2019-05-30 14:01:46
原创推荐2019-05-30 11:29:31
高考资讯2019-05-30 11:02:13
原创推荐2019-05-29 17:01:16