数学之美-矩阵预算及文本处理中分类问题

发布日期： 2017-02-13 01:49:20 UTC

访问量： 138 次浏览

在数学中，矩阵是一个按照长方阵列排列的复数或实数集合，最早来自于方程组的系数及常数所构成的方阵。这一概念由19世纪英国数学家凯利首先提出。我发现数学家们提出那些矩阵的概念和算法，是有实际使用的含义的。

在自然语言处理中，最常见的两类的分类疑问分别是，将文本按主题归类和将词汇表中的字词按意思归类。这两种分类疑问都可用经过矩阵运算来圆满地、一起解决。为了阐明如何用矩阵这个工具类解决这两个疑问的，让咱们先来来回忆一下咱们在余弦定理和新闻分类中介绍的方法。

分类的关键是核算相关性。我们首先对两个文本核算出它们的内容词，或者说实词的向量，然后求这两个向量的夹角。当这两个向量夹角为零时，新闻就有关；当它们垂直或者说正交时，新闻则无关。当然，夹角的余弦等同于向量的内积。从理论上讲，这种算法十分好。可是核算时间格外长。通常，我们要处理的文章的数目都很大，至少在百万篇以上，二次回标有十分长，比方说有五十万个词，这五十万词中包括人名地名等等。假如想通过对一百万篇文章两篇两篇地成对对比，来找出全部共同主题的文章，就要对比五千亿对文章。现在的核算机一秒钟最多可以对比一千对文章，完结这一百万篇文章有关性对比就需要十五年时刻。注意，要真正完结文章的分类还要重复重复上述核算。

在文本分类中，另一种办法是使用矩阵运算中的奇异值分解。现在让咱们来看看奇异值分解是怎么回事。首先，咱们可以用一个大矩阵A来描绘这一百万篇文章和五十万词的关联性。这个矩阵中，每一行对应一篇文章，每一列对应一个词。

在上面的图中，M=1,000,000，N=500,000。第 i 行，第 j 列的元素，是字典中第 j 个词在第 i 篇文章中呈现的加权词频，大家也许现已留意到了，这个矩阵非常大，有一百万乘以五十万，即五千亿个元素。

奇异值分解即是把上面这么一个大矩阵，分解成三个小矩阵相乘，如下图所示。比方把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X，一个一百乘以一百的矩阵B，和一个一百乘以五十万的矩阵Y。这三个矩阵的元素总数加起来也不过1.5亿，仅仅是原来的三千分之一。相应的存储量和核算量都会小三个数量级以上。

三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关的一类词，其中的每个非零元素表示这类词中每个词的重要性，数值越大越相关。最后一个矩阵Y中的每一列表示同一主题一类文章，其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章之间的相关性。因此，我们只要对关联矩阵A进行一次奇异值分解，我们就可以同时完成了近义词分类和文章的分类。

本文链接 :数学之美-矩阵预算及文本处理中分类问题