关于 找大神代做灰色词首页排名〖qq:1716160940〗 上海佘 的搜索结果,共1124
l****m 2018-07-10
向量(一)
在这个映射到的实数向量表示中,希望两个语义(或用法)相似的对应的向量“更像”,这样如“母亲节”和“康乃馨”的对应向量的余弦相似度就不再为零了。 向量模型可以是概率模型、共生矩阵(co-occurrence matrix)模型或经元网络模型。在用经网络求向量之前,传统法是统计一个语的共生矩阵XX。XX是一个|V|×|V||V|×|V| 小的矩阵,XijXij表示在所有语料中,汇表VV(vocabulary)中第i个和第j个同时出现的数,|V||V|为汇表的小。对XX矩阵分解(如奇异值分解,Singular Value Decomposition [5]),得到的UU即视为所有向量: X=USVTX=USVT 但这样的传统法有很多问题: 由于很多没有出现,导致矩阵极其稀疏,因此需要对额外处理来达到好的矩阵分解效果; 矩阵非常,维度太高(通常达到106×106106×106的数量级); 需要手动去掉停用(如although, a,...),不然这些频繁出现的也会影响矩阵分解的效果。
用****在 2018-07-10
向量(二)
基于具体的应用场景,每一项可以是一个字母、单或者音节。 n-gram模型也是统计语言模型中的一种重要方法,用n-gram训练语言模型时,一般用每个n-gram的历史n-1个语组成的内容来预测第n个。 Yoshua Bengio等科学家就于2003年在著论文 Neural Probabilistic Language Models [1] 中介绍如何学习一个经元网络表示的向量模型。文中的经概率语言模型(Neural Network Language Model,NNLM)通过一个线性映射和一个非线性隐层连接,同时学习了语言模型和向量,即通过学习量语料得到语的向量表达,通过这些向量得到整个句子的概率。因所有的语都用一个低维向量来表示,用这种方法学习语言模型可以克服维度灾难(curse of dimensionality)。注意:由于“经概率语言模型”说法较为泛泛,我们在这里不用其NNLM的本,考虑到其具体法,本文中称该模型为N-gram neural model。
h****l 2018-07-09
数据时下的隐私保护(二)
例如苹果 在2016 年6 月份的WWDC 就提出了一项为Differential Privacy 的差分隐私技术。苹果声称他 能通过数据计算出用户群体的行为模式,但是却无法获得每个用户个体的数据。那么差 分隐私技术又是怎么的呢? 在数据时,如何才能保证我们的隐私呢?要回答这个问题,我们先要知道什么是隐私。 什么是隐私? 我们经常谈论到隐私泄漏、隐私保护,那么什么是隐私呢?举个例子,居住在淀区五 道口的小明经常在网购买电子产品,那小明的姓、购买偏好和居住地址算不算是隐 私呢?如果某购物网站统计了用户的购物偏好并公开部分数据,公开的数据中显示北京 淀区五道口的用户更爱买电子产品,那么小明的隐私是否被泄漏了呢?要弄清楚隐私 保护,我们先要讨论一下究竟什么是隐私。 对于隐私这个,科学研究普遍接受的定义是“单个用户的某一些属性”,只要符合 这一定义都可以被看是隐私。我们在提“隐私”的时候,更加强调的是“单个用户”。 那么,一群用户的某一些属性,可以认为不是隐私。我们拿刚才的例子来看,针对小明 这个单个用户,“购买偏好”和“居住地址”就是隐私。
c****2 2018-07-10
个性化推荐(一)
YouTube的深度经网络个性化推荐系统 YouTube是世界的视频传、分享和发现网站,YouTube个性化推荐系统为超过10亿用户从不断增长的视频库中推荐个性化的内容。整个系统由两个经网络组成:候选生成网络和序网络。候选生成网络从百万量级的视频库中生成百个候选,序网络对候选进行打分序,输出最高的数十个结果。系统结构如图1所示: 图1. YouTube 个性化推荐系统结构 候选生成网络(Candidate Generation Network) 候选生成网络将推荐问题建模为一个类别数极的多类分类问题:对于一个Youtube用户,使用其观看历史(视频ID)、搜索记录(search tokens)、人口学信息(如地理位置、用户登录设备)、二值特征(如性别,是否登录)和连续特征(如用户年龄)等,对视频库中所有视频进行多分类,得到每一类别的分类结果(即每一个视频的推荐概率),最终输出概率较高的几百个视频。
TOP