关于 seo关键词软件找选火星下拉29择σσ 的搜索结果,共758
双****4 2018-07-10
向量(三)
整个程序的入口很简单: def main(use_cuda, is_sparse): if use_cuda and not fluid.core.is_compiled_with_cuda(): return params_dirname = "word2vec.inference.model" train( if_use_cuda=use_cuda, params_dirname=params_dirname, is_sparse=is_sparse) infer(use_cuda=use_cuda, params_dirname=params_dirname) main(use_cuda=use_cuda, is_sparse=True) 总结 本章中,我们介绍了向量、语言模型和向量的系、以及如何通过训练神经网络模型获得向量。在信息检索中,我们可以根据向量间的余弦夹角,来判断query和文档这二者间的相性。在句法分析和语义分析中,训练好的向量可以用来初始化模型,以得到更好的效果。
l****m 2018-07-10
向量(一)
基于神经网络的模型不需要计算和存储一个在全语料上统计产生的大表,而是通过学习语义信息得到向量,因此能很好地解决以上问题。在本章里,我们将展示基于神经网络训练向量的细节,以及如何用PaddlePaddle训练一个向量模型。 效果展示 本章中,当向量训练好后,我们可以用数据可视化算法t-SNE[4]画出语特征在二维上的投影(如图所示)。从图中可以看出,语义相语(如a, the, these; big, huge)在投影上距离很近,语意无(如say, business; decision, japan)在投影上的距离很远。 图1. 向量的二维投影 另一方面,我们知道两个向量的余弦值在[−1,1][−1,1]的区间内:两个完全相同的向量余弦值为1, 两个相互垂直的向量之间余弦值为0,两个方向完全相反的向量余弦值为-1,即相性和余弦值大小成正比。
2018-07-10
解密开源这门生意——商业角度看开源
本文抛开虚浮的情怀和热情,我们从商业和管理的角度看一看开源。 1. 本质是对抗认知垄断 远古期的计算机没有版权概念,每一份代码都是一份全人类都可以学习借鉴的教学数据。 随着商业的兴起,商业公司倾向于将代码当做秘方保护,引入了版权的概念。闭源实操过程中有如缺点: IT技术无法跨跨公司进行交流,行业人才培养的很慢; 一个只能在很小可控范围内迭代,的进步速度偏慢; 公司的商业策略以盈利优先,可能会掐灭技术革新; 一个黑盒化的交付物,交付质量只能靠商业信誉保障; 商业总是试图建立垄断,黑客们警惕着垄断的恶行。 在版权限制感到压抑的IT精英,自发推动开放源代码的交付方式,其中最出名的是GNU计划。GNU计划的重点是对抗IT技术认知垄断,更自由的传播IT知识;GNU等开源计划既不是为了开源公司的商业利益,也没要给参与者发高级技工证书,更不会因为开源而强行免费。 在上个世纪程序员人数很少但都是精英黑客,参与开源的目的是以码会友,不会发表太烂的代码,顺着开源社区容易到技术大师,几个IT高手也容易蹭出商业花。 2.
用****在 2018-07-10
向量(二)
我们在上文中已经讲到用条概率建模语言模型,即一句话中第tt个的概率和该句话的前t−1t−1个。可实际上越远的语其实对该的影响越小,那么如果考虑一个n-gram, 每个都只受其前面n-1个的影响,则有: P(w1,...,wT)=∏t=nTP(wt|wt−1,wt−2,...,wt−n+1)P(w1,...,wT)=∏t=nTP(wt|wt−1,wt−2,...,wt−n+1) 给定一些真实语料,这些语料中都是有意义的句子,N-gram模型的优化目标则是最大化目标函数: 1T∑tf(wt,wt−1,...,wt−n+1;θ)+R(θ)1T∑tf(wt,wt−1,...,wt−n+1;θ)+R(θ) 其中f(wt,wt−1,...,wt−n+1)f(wt,wt−1,...,wt−n+1)表示根据历史n-1个得到当前wtwt的条概率,R(θ)R(θ)表示参数正则项。 图2.
TOP