关于 鹤岗向阳美女过夜〖10669708薇信〗 的搜索结果,共704
l****m 2018-07-10
量(一)
虽然按照常理,我们知道这两个词之间是有联系的——母亲节通常应该送给母亲一束康乃馨;但是这两个词对应的one-hot vectors之间的距离度量,无论是欧氏距离还是余弦相似度(cosine similarity),由于其量正交,都认为这两个词毫无相关性。 得出这种与我们相悖的结论的根本原因是:每个词本身的息量都太小。所以,仅仅给定两个词,不足以让我们准确判别它们是否相关。要想精确计算相关性,我们还需要更多的息——从大量数据里通机器学习方法归纳出来的知识。 在机器学习领域里,各种“知识”被各种模型表示,词量模型(word embedding model)就是其中的一类。通量模型可将一个 one-hot vector映射到一个维度更低的实数量(embedding vector),如embedding(母亲节)=[0.3,4.2,−1.5,...],embedding(康乃馨)=[0.2,5.6,−2.3,...]embedding(母亲节)=[0.3,4.2,−1.5,...],embedding(康乃馨)=[0.2,5.6,−2.3,...]。
用****在 2018-07-10
量(二)
每个输入词wt−n+1,...wt−1wt−n+1,...wt−1首先通映射矩阵映射到词量C(wt−n+1),...C(wt−1)C(wt−n+1),...C(wt−1)。 然后所有词语的词量拼接成一个大量,并经一个非线性映射得到历史词语的隐层表示: g=Utanh(θTx+b1)+Wx+b2g=Utanh(θTx+b1)+Wx+b2 其中,xx为所有词语的词量拼接成的大量,表示文本历史特征;θθ、UU、b1b1、b2b2和WW分别为词量层到隐层连接的参数。gg表示未经归一化的所有输出单词概率,gigi表示未经归一化的字典中第ii个单词的输出概率。 根据softmax的定义,通归一化gigi, 生成目标词wtwt的概率为: P(wt|w1,...,wt−n+1)=egwt∑|V|iegiP(wt|w1,...
双****4 2018-07-10
量(三)
整个程序的入口很简单: def main(use_cuda, is_sparse): if use_cuda and not fluid.core.is_compiled_with_cuda(): return params_dirname = "word2vec.inference.model" train( if_use_cuda=use_cuda, params_dirname=params_dirname, is_sparse=is_sparse) infer(use_cuda=use_cuda, params_dirname=params_dirname) main(use_cuda=use_cuda, is_sparse=True) 总结 本章中,我们介绍了词量、语言模型和词量的关系、以及如何通训练神经网络模型获得词量。在息检索中,我们可以根据量间的余弦夹角,来判断query和文档关键词这二者间的相关性。在句法分析和语义分析中,训练好的词量可以用来初始化模型,以得到更好的效果。
TOP