关于 上海欧博私网一比一 155=2452=3842在niaz平 的搜索结果,共1657
l****m 2018-07-10
词向量(
文章结构: 词向量 背景介绍 效果展示 模型概览 数据准备 编程实现 模型应用 总结 参考文献 本教程源代码目录book/word2vec,初次使用请您参考Book文档使用说明。 背景介绍 本章我们介绍词的向量表征,也称为word embedding。词向量是自然语言处理中常见的个操作,是搜索引擎、广告系统、推荐系统等互联服务背后常见的基础技术。 这些互联服务里,我们经常要较两个词或者两段文本之间的相关性。为了做这样的较,我们往往先要把词表示成计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。 这种方式里,每个词被表示成个实数向量(one-hot vector),其长度为字典大小,每个维度对应个字典里的每个词,除了这个词对应维度的值是1,其他元素都是0。 One-hot vector虽然自然,但是用处有限。如,互联广告系统里,如果用户输入的query是“母亲节”,而有个广告的关键词是“康乃馨”。
c****2 2018-07-10
个性化推荐(
YouTube的深度神经络个性化推荐系统 YouTube是世界最大的视频传、分享和发现站,YouTube个性化推荐系统为超过10亿用户从不断增长的视频库中推荐个性化的内容。整个系统由两个神经络组成:候选生成络和排序络。候选生成络从百万量级的视频库中生成百个候选,排序络对候选进行打分排序,输出排名最高的数十个结果。系统结构如图1所示: 图1. YouTube 个性化推荐系统结构 候选生成络(Candidate Generation Network) 候选生成络将推荐问题建模为个类别数极大的多类分类问题:对于个Youtube用户,使用其观看历史(视频ID)、搜索词记录(search tokens)、人口学信息(如地理位置、用户登录设备)、二值特征(如性别,是否登录)和连续特征(如用户年龄)等,对视频库中所有视频进行多分类,得到每类别的分类结果(即每个视频的推荐概率),最终输出概率较高的几百个视频。
布****五 2018-07-10
如何执行条命令
面临的困难 命令行的三要素,也是如何执行条命令行面对的三个问题,如前文所述,对于单机环境来说,这三个问题前人的努力下已经被很好的解决。可是如果要几十万台机器每天执行几十亿条命令,同时保证时效性,保证执行成功率,保证结果正确收集,保证7*24小时稳定运行,就不是件简单的事情了。所谓远行无轻担,量大易也难,构建这样的执行系统的过程中要面临诸多困难,此处举几个突出的例子如下: 信息存储问题:为了支持水扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令信息持久化。日均几十亿的热数据,年均万亿的冷数据,需要仔细选择存储方案。 任务调度问题:为了达到任意多台服务器执行命令的要求,需要确定何时分发命令、何时回收结果以及怎么样的并发度批量下发。 消息传输问题:为了保证命令高效正确送达目标服务器,需要构建个可靠的命令传输络,使命令信息准确送达的前提下保障传输的可靠与高效,毕竟百度的几十万台服务器分布世界各地。 代理执行问题:为了更好的处理权限、单机并发等单机执行问题,需要目标机构建执行代理,以应对单机的复杂执行环境。
疏****月 2018-07-09
线Archer | 百度持续部署的瑞士军刀
干货概览 业务部署(熟称线)是运维领域最常见的业务类型,主要涉及线代码变更、配置文件变更(数据变更由于其高频、大量的特点,我们已数据传输文章《嗖的下,让数据自动生效》中专门讨论过)。般的业务线具有不定时操作、业务部署情况复杂、单机启停策略复杂等特点。手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由线变更触发,如何减少变更过程中人为误操作,提供个灵活、稳定的部署系统是运维台研发人员所亟需解决的问题。 基本介绍 运维自动化的大潮下,百度运维管理台Noah发布了线部署系统——Archer。Archer致力于提供套产品线全过程的可迁移发布解决方案,实现键完成机器初始化、服务部署、添加模块监控、添加CT任务、动态数据文件的分发等全过程的自动操作。操作方面,Archer提供了命令行工具作为发起线的操作入口,这种设计模式也决定了其易于集成的特点。DevOps流水线作业中,Archer可以作为个环节结合进整条测试发布流水线中。
h****l 2018-07-09
大数据时代下的隐保护(二)
例如苹果 2016 年6 月份的WWDC 大会就提出了项名为Differential Privacy 的差分隐技术。苹果声称他 能通过数据计算出用户群体的行为模式,但是却无法获得每个用户个体的数据。那么差 分隐技术又是怎么做的呢? 大数据时代,如何才能保证我们的隐呢?要回答这个问题,我们首先要知道什么是隐。 什么是隐? 我们经常谈论到隐泄漏、隐保护,那么什么是隐呢?举个例子,居住淀区五 道口的小明经常购买电子产品,那小明的姓名、购买偏好和居住地址算不算是隐 呢?如果某购物站统计了用户的购物偏好并公开部分数据,公开的数据中显示北京 淀区五道口的用户更爱买电子产品,那么小明的隐是否被泄漏了呢?要弄清楚隐 保护,我们先要讨论下究竟什么是隐。 对于隐这个词,科学研究普遍接受的定义是“单个用户的某些属性”,只要符合 这定义都可以被看做是隐。我们提“隐”的时候,更加强调的是“单个用户”。 那么,群用户的某些属性,可以认为不是隐。我们拿刚才的例子来看,针对小明 这个单个用户,“购买偏好”和“居住地址”就是隐
TOP