关于 欧博私网一比一 155>2452>3842在nia 的搜索结果,共1275
l****m 2018-07-10
词向量(
词向量是自然语言处理中常见的个操作,是搜索引擎、广告系统、推荐系统等互联服务背后常见的基础技术。 在这些互联服务里,我们经常要较两个词或者两段文本之间的相关性。为了做这样的较,我们往往先要把词表示成计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。 在这种方式里,每个词被表示成个实数向量(one-hot vector),其长度为字典大小,每个维度对应个字典里的每个词,除了这个词对应维度上的值是1,其他元素都是0。 One-hot vector虽然自然,但是用处有限。如,在互联广告系统里,如果用户输入的query是“母亲节”,而有个广告的关键词是“康乃馨”。虽然按照常理,我们知道这两个词之间是有联系的——母亲节通常应该送给母亲束康乃馨;但是这两个词对应的one-hot vectors之间的距离度量,无论是氏距离还是余弦相似度(cosine similarity),由于其向量正交,都认为这两个词毫无相关性。 得出这种与我们相悖的结论的根本原因是:每个词本身的信息量都太小。
c****2 2018-07-10
个性化推荐(
候选生成络从百万量级的视频库中生成上百个候选,排序络对候选进行打分排序,输出排名最高的数十个结果。系统结构如图1所示: 图1. YouTube 个性化推荐系统结构 候选生成络(Candidate Generation Network) 候选生成络将推荐问题建模为个类别数极大的多类分类问题:对于个Youtube用户,使用其观看历史(视频ID)、搜索词记录(search tokens)、人口学信息(如地理位置、用户登录设备)、二值特征(如性别,是否登录)和连续特征(如用户年龄)等,对视频库中所有视频进行多分类,得到每类别的分类结果(即每个视频的推荐概率),最终输出概率较高的几百个视频。 首先,将观看历史及搜索词记录这类历史信息,映射为向量后取平均值得到定长表示;同时,输入人口学特征以优化新用户的推荐效果,并将二值特征和连续特征归化处理到[0, 1]范围。接下来,将所有特征表示拼接为个向量,并输入给非线形多层感知器(MLP,详见识别数字教程)处理。
布****五 2018-07-10
如何执行条命令
命令传递(发) 命令传递有两种方式,种是文件形式,将bat/shell脚本上传到服务器然后执行。另外种就是交互式,通过telnet/ssh等方式远程连接服务器后,直接在命令行界面执行。虽然从形式上我们将命令传递分为了两种方式,但从本质上来说,服务器上的命令传递,都没有逃脱络传输这个过程。 命令执行(使) 对于操作系统来说,命令的执行,其实就是启动个进程并传递相应的参数,运行完成后得到相应的结果。这里我们并不关心进程如何创建,PBC的结构如何等细节,我们只关心命令进程的启动方式以及结果的获取方式。 为什么要执行命令 在分布式产品的开发维护过程中,有三个主题是无法绕过的,分别是配置管理、部署升级和监控采集。 配置管理 配置管理的目标是为了标识变更、控制变更、确保变更正确实现并向其他有关人员报告变更。从某种角度讲,配置管理是种标识、组织和控制修改的技术。通常情况下,配置管理都会统部署配置服务器来同步所有节点的配置。但是在开发测试过程中,总会出现临时修改某个或某批节点的配置的情况,这时通过人工逐个登录来完成修改显然是不太可能的。
Z****E 2018-07-09
产品迭代的最后公里
变更面临的问题 其实我们对变更的需求并不复杂,作为迭代的最后公里,我们只关注两点: 操作过程足够快捷(效率) 变更结果符合预期(安全) 但是,在具有定规模企业的生产环境中,用户往往要面对单台机器手工上线更加复杂的状况,在这些状况下上述两点要求通常难以满足: 大批量机器的操作步骤繁琐,较依赖人的经验,变更操作效率低下; 由于缺少可靠的检查机制,变更效果无法保证,甚至引发线上较大异常。 我们在百度各核心产品的大规模变更实践中积累了丰富的经验,发现通过自动化部署可以有效提升变更效率,在变更过程中严格执行分级发布流程可以确保检查机制得到执行,并且能够有效限制异常影响范围,加速异常恢复。在两者基础之上,融入AIOps智能变更策略,可以进步降低管理成本,提升检查效果。下面将从三个方面详细介绍我们的解决方案。 我们的解决方案 1自动化部署 自动化部署包含变更策略和批量机器执行能力两部分。具体来说,用户通过UI/API配置整个变更过程的执行策略,例如先执行A地域机器的变更,再执行B地域机器的变更;执行失败的机器超过10台就自动中止等。
疏****月 2018-07-09
键上线Archer | 百度持续部署的瑞士军刀
通用场景 在百度内部,通用的部署系统需要适用于以下场景: 各业务线拥有各自的包规范,语言、框架不统,部署策略不致; 支持分级发布,及时拦截部署引入的线上故障; 业务的多地域部署; 多种络环境及大包部署; 提高自动化效率,能够集成测试发布自动化流水线。 后面,我们将结合上面场景,向大家介绍百度持续部署是如何实现的。 服务架构 整个系统由命令行工具、web服务、中转服务及单机agent+部署插件几部分组成(如图2所示)。用户通过命令行工具触发次变更,在web端进行参数解析及任务分发,对应执行机器agent通过心跳获取任务后,调用部署插件执行实际任务。涉及大包及不同络环境的部署会进行中转下载。 解决方案 各业务线拥有各自的包规范,语言、框架不统,部署策略不致 为避免杂乱无章又不规范的服务代码及配置文件的目录结构,Archer规定了套既灵活又完整的包规范。
h****l 2018-07-09
大数据时代下的隐保护(二)
通过上面几条数据,纽约时报发现Lilburn 只 有14 个人姓Arnold,最后经过直接联系这14 个人确认ID 4417749 是位62 岁名 字叫Thelma Arnold 的老奶奶。最后AOL 紧急撤下数据,发表声明致歉,但是已经 太晚了。因为隐泄露事件,AOL 遭到了起诉,最终赔偿受影响用户总额高达五百万 美元。 同样是2006 年,美国最大的影视公司之Netflix,举办了个预测算法的赛(Netflix Prize),赛要求在公开数据上推测用户的电影评分 。Netflix把数据中唯 识别用户的信息抹去,认为这样就能保证用户的隐。但是在2007 年来自The University of Texas at Austin 的两位研究人员表示通过关联Netflix 公开的数据 和IMDb(互联电影数据库)站上公开的纪录就能够识别出匿名后用户的身份。三 年后,在2010 年,Netflix 最后因为隐原因宣布停止这项赛,并因此受到高额罚 款,赔偿金额总计九百万美元。 近几年各大公司均持续关注用户的隐安全。
TOP