关于 那儿有喷雾型春药卖【V信;799.196.362】丫 的搜索结果,共914
l****m 2018-07-10
词向量(一)
词向量模可以是概率模、共生矩阵(co-occurrence matrix)模或神经元网络模。在用神经网络求词向量之前,传统做法是统计一个词语的共生矩阵XX。XX是一个|V|×|V||V|×|V| 大小的矩阵,XijXij表示在所语料中,词汇表VV(vocabulary)中第i个词和第j个词同时出现的词数,|V||V|为词汇表的大小。对XX做矩阵分解(如奇异值分解,Singular Value Decomposition [5]),得到的UU即视为所词的词向量: X=USVTX=USVT 但这样的传统做法很多问题: 由于很多词没出现,导致矩阵极其稀疏,因此需要对词频做额外处理来达到好的矩阵分解效果; 矩阵非常大,维度太高(通常达到106×106106×106的数量级); 需要手动去掉停用词(如although, a,...),不然这些频繁出现的词也会影响矩阵分解的效果。 基于神经网络的模不需要计算和存储一个在全语料上统计产生的大表,而是通过学习语义息得到词向量,因此能很好地解决以上问题。
TOP