摘要: 在数学中,矩阵是一个按照长方阵列排列的复数或实数集合,最早来自于方程组的系数及常数所构成的方阵。这一概念由19世纪英国数学家凯利首先提出。我发现数学家们提出那些矩阵的概念和算法,是有实际使用的含义的。 在自然语言处理中,最常见的两类的分类疑问分别是,将文本按主...
在数学中,矩阵是一个按照长方阵列排列的复数或实数集合,最早来自于方程组的系数及常数所构成的方阵。这一概念由19世纪英国数学家凯利首先提出。我发现数学家们提出那些矩阵的概念和算法,是有实际使用的含义的。
在自然语言处理中,最常见的两类的分类疑问分别是,将文本按主题归类和将词汇表中的字词按意思归类。这两种分类疑问都可用经过矩阵运算来圆满地、一起解决。为了阐明如何用矩阵这个工具类解决这两个疑问的,让咱们先来来回忆一下咱们在余弦定理和新闻分类中介绍的方法。
分类的关键是核算相关性。我们首先对两个文本核算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。当这两个向量夹角为零时,新闻就有关;当它们垂直或者说正交时,新闻则无关。当然,夹角的余弦等同于向量的内积。从理论上讲,这种算法十分好。可是核算时间格外长。通常,我们要处理的文章的数目都很大,至少在百万篇以上,二次回标有十分长,比方说有五十万个词,这五十万词中包括人名地名等等。假如想通过对一百万篇文章两篇两篇地成对对比,来找出全部共同主题的文章,就要对比五千亿对文章。现在的核算机一秒钟最多可以对比一千对文章,完结这一百万篇文章有关性对比就需要十五年时刻。注意,要真正完结文章的分类还要重复重复上述核算。
在文本分类中,另一种办法是使用矩阵运算中的奇异值分解。现在让咱们来看看奇异值分解是怎么回事。首先,咱们可以用一个大矩阵A来描绘这一百万篇文章和五十万词的关联性。这个矩阵中,每一行对应一篇文章,每一列对应一个词。
在上面的图中,M=1,000,000,N=500,000。第 i 行,第 j 列的元素,是字典中第 j 个词在第 i 篇文章中呈现的加权词频,大家也许现已留意到了,这个矩阵非常大,有一百万乘以五十万,即五千亿个元素。
奇异值分解即是把上面这么一个大矩阵,分解成三个小矩阵相乘,如下图所示。比方把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X,一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵的元素总数加起来也不过1.5亿,仅仅是原来的三千分之一。相应的存储量和核算量都会小三个数量级以上。
三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关的一类词,其中的每个非零元素表示这类词中每个词的重要性,数值越大越相关。最后一个矩阵Y中的每一列表示同一主题一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章之间的相关性。因此,我们只要对关联矩阵A进行一次奇异值分解,我们就可以同时完成了近义词分类和文章的分类。