关于 代做灰色词寄生虫排名网站q扣7354130 永康市天涯博客天涯 的搜索结果,共1206
l****m 2018-07-10
向量(一)
在这个映射到的实数向量表示中,希望两个语义(或用法)上相似的对应的向量“更像”,这样如“母亲节”和“乃馨”的对应向量的余弦相似度就不再为零了。 向量模型可以是概率模型、共矩阵(co-occurrence matrix)模型或神经元络模型。在用神经络求向量之前,传统法是统计一个语的共矩阵XX。XX是一个|V|×|V||V|×|V| 大小的矩阵,XijXij表示在所有语料中,汇表VV(vocabulary)中第i个和第j个同时出现的数,|V||V|为汇表的大小。对XX矩阵分解(如奇异值分解,Singular Value Decomposition [5]),得到的UU即视为所有向量: X=USVTX=USVT 但这样的传统法有很多问题: 由于很多没有出现,导致矩阵极其稀疏,因此需要对额外处理来达到好的矩阵分解效果; 矩阵非常大,维度太高(通常达到106×106106×106的数量级); 需要手动去掉停用(如although, a,...),不然这些频繁出现的也会影响矩阵分解的效果。
TOP