关于 小妹SPA会所_v信78792796北京汤河口一夜一夜庞 的搜索结果,共1293
l****m 2018-07-10
词向量(
XX是个|V|×|V||V|×|V| 大的矩阵,XijXij表示在有语料中,词汇表VV(vocabulary)中第i个词和第j个词同时出现的词数,|V||V|为词汇表的大。对XX做矩阵分解(如奇异值分解,Singular Value Decomposition [5]),得到的UU即视为有词的词向量: X=USVTX=USVT 但这样的传统做法有很多问题: 由于很多词没有出现,导致矩阵极其稀疏,因此需要对词频做额外处理来达到好的矩阵分解效果; 矩阵非常大,维度太高(通常达到106×106106×106的数量级); 需要手动去掉停用词(如although, a,...),不然这些频繁出现的词也影响矩阵分解的效果。 基于神经网络的模型不需要计算和存储个在全语料上统计产生的大表,而是通过学习语义息得到词向量,因此能很好地解决以上问题。在本章里,我们将展示基于神经网络训练词向量的细节,以及如何用PaddlePaddle训练个词向量模型。 效果展示 本章中,当词向量训练好后,我们可以用数据可视化算法t-SNE[4]画出词语特征在二维上的投影(如下图示)。
c****2 2018-07-10
个性化推荐(
系统结构如图1示: 图1. YouTube 个性化推荐系统结构 候选生成网络(Candidate Generation Network) 候选生成网络将推荐问题建模为个类别数极大的多类分类问题:对于个Youtube用户,使用其观看历史(视频ID)、搜索词记录(search tokens)、人息(如地理位置、用户登录设备)、二值特征(如性别,是否登录)和连续特征(如用户年龄)等,对视频库中有视频进行多分类,得到每类别的分类结果(即每个视频的推荐概率),最终输出概率较高的几百个视频。 首先,将观看历史及搜索词记录这类历史息,映射为向量后取平均值得到定长表示;同时,输入人学特征以优化新用户的推荐效果,并将二值特征和连续特征归化处理到[0, 1]范围。接下来,将有特征表示拼接为个向量,并输入给非线形多层感知器(MLP,详见识别数字教程)处理。最后,训练时将MLP的输出给softmax做分类,预测时计算用户的综合特征(MLP的输出)与有视频的相似度,取得分最高的kk个作为候选生成网络的筛选结果。图2显示了候选生成网络结构。 图2.
布****五 2018-07-10
如何执行条命令
如何解决 为了解决这个简单的难题,我们设计了如图3示的百度集群控制系统(Cluster Control System,简称CCS系统),通过分离控制息与执行息建立了两级数据模型,结合命令执行及机房部署特点建立了四级传输模型,通过三级守护方式建立了稳定的执行代理,在大规模服务器集群上解决了“命令三要素”问题。 图3百度集群控制系统架构 截至目前,CCS系统已经部署在全百度的有机房中,用户可以方便的在任意台机器上进行秒级命令下发和结果收集,日均承载数亿次来自各产品的接调用。关于数据模型、传输模型、执行代理这“分布式命令三要素”的设计及应用,我们将在下篇文章中详细介绍。
TOP