关于 一喷一闻就睡的药【V信;799.196.362】地 的搜索结果,共1779
l****m 2018-07-10
词向量(
在用神经网络求词向量之前,传统做法是统计个词语共生矩阵XX。XX是个|V|×|V||V|×|V| 大小矩阵,XijXij表示在所有语料中,词汇表VV(vocabulary)中第i个词和第j个词同时出现词数,|V||V|为词汇表大小。对XX做矩阵分解(如奇异值分解,Singular Value Decomposition [5]),得到UU即视为所有词词向量: X=USVTX=USVT 但这样传统做法有很多问题: 由于很多词没有出现,导致矩阵极其稀疏,因此需要对词频做额外处理来达到好矩阵分解效果; 矩阵非常大,维度太高(通常达到106×106106×106数量级); 需要手动去掉停用词(如although, a,...),不然这些频繁出现词也会影响矩阵分解效果。 基于神经网络模型不需要计算和存储个在全语料上统计产生大表,而是通过学习语义息得到词向量,因此能很好地解决以上问题。在本章里,我们将展示基于神经网络训练词向量细节,以及如何用PaddlePaddle训练个词向量模型。
Z****E 2018-07-09
产品迭代最后公里
变更面临问题 其实我们对变更需求并不复杂,作为迭代最后公里,我们只关注两点: 操作过程足够快捷(效率) 变更结果符合预期(安全) 但是,在具有定规模企业生产环境中,用户往往要面对比单台机器手工上线更加复杂状况,在这些状况下上述两点要求通常难以满足: 大批量机器操作步骤繁琐,较依赖人经验,变更操作效率低下; 由于缺少可靠检查机制,变更效果无法保证,甚至引发线上较大异常。 我们在百度各核心产品大规模变更实践中积累了丰富经验,发现通过自动化部署可以有效提升变更效率,在变更过程中严格执行分级发布流程可以确保检查机制得到执行,并且能够有效限制异常影响范围,加速异常恢复。在两者基础之上,融入AIOps智能变更策略,可以进步降低管理成本,提升检查效果。下面将从三个方面详细介绍我们解决方案。 我们解决方案 1自动化部署 自动化部署包含变更策略和批量机器执行能力两部分。具体来说,用户通过UI/API配置整个变更过程执行策略,例如先执行A地域机器变更,再执行B地域机器变更;执行失败机器超过10台自动中止等。
c****2 2018-07-10
个性化推荐(
背景介绍 在网络技术不断发展和电子商务规模不断扩大背景下,商品数量和种类快速增长,用户需要花费大量时间才能找到自己想买商品,这息超载问题。为了解决这个难题,个性化推荐系统(Recommender System)应运而生。 个性化推荐系统是息过滤系统(Information Filtering System)子集,它可以用在很多领域,如电影、音乐、电商和 Feed 流推荐等。个性化推荐系统通过分析、挖掘用户行为,发现用户个性化需求与兴趣特点,将用户可能感兴趣息或商品推荐给用户。与搜索引擎不同,个性化推荐系统不需要用户准确地描述出自己需求,而是根据用户历史行为进行建模,主动提供满足用户兴趣和需求息。 1994年明尼苏达大学推出GroupLens系统[1]般被认为是个性化推荐系统成为个相对独立研究方向标志。该系统首次提出了基于协同过滤来完成推荐任务思想,此后,基于该模型协同过滤推荐引领了个性化推荐系统十几年发展方向。
布****五 2018-07-10
如何执行条命令
面临困难 命令行三要素,也是如何执行条命令行面对三个问题,如前文所述,对于单机环境来说,这三个问题在前人努力下已经被很好解决。可是如果要在几十万台机器上每天执行几十亿条命令,同时保证时效性,保证执行成功率,保证结果正确收集,保证7*24小时稳定运行,不是件简单事情了。所谓远行无轻担,量大易也难,在构建这样执行系统过程中要面临诸多困难,此处举几个突出例子如下: 息存储问题:为了支持水平扩展,需要高效内存数据库作为缓存。为了做到执行命令可追溯、可统计,需要对执行过命令息持久化。日均几十亿热数据,年均上万亿冷数据,需要仔细选择存储方案。 任务调度问题:为了达到在任意多台服务器上执行命令要求,需要确定何时分发命令、何时回收结果以及怎么样并发度批量下发。 消息传输问题:为了保证命令高效正确送达目标服务器,需要构建个可靠命令传输网络,使命令息在准确送达前提下保障传输可靠与高效,毕竟百度几十万台服务器分布在世界各地。 代理执行问题:为了更好处理权限、单机并发等单机执行问题,需要在目标机构建执行代理,以应对单机复杂执行环境。
疏****月 2018-07-09
键上线Archer | 百度持续部署瑞士军刀
后面任务下发至具体机器,具体机器再从中转机拉取需要被部署文件;中转机服务也为跨网络环境部署提供了可能,隔离网段中机器无法访问内网机器,通过中转服务“搭桥”完成了跨网段数据传输; 提高自动化效率,能够集成测试发布自动化流水线 自动化效率方面,Archer提供了命令行工具,可接入各种脚本、平台。另外,Archer也可定制化单机流程:针对不同业务场景,Archer提供了名为“operation_list” 配置文件,采用YAML语法。单机执行流程步骤被定制化成固定几个种类。用户通过简单配置,即可实现“启停监控”、“启停服务”、“数据传输”、“执行某些命令或脚本”、“启停定时任务”等上线过程中常见操作自由组织及编排。这种形式大大扩展了Archer适用范围。在了解Archer使用方法情况下,OP几分钟内即可配置出适用于数十条不同产品上线方案。 其他设计点 每次部署流程通过web总控端参数解析后,被作为任务下发到每台被部署目标机器。当部署任务从总控端发到被部署机器上时,任务具体执行依赖agent及系列脚本。
x****7 2018-07-10
从外行进阶专业 传统企业AI转型差可能只是个百度EasyDL
所谓平台化,即AI技术以最低门槛向外输出,合作伙伴基于场景进行开发,用于解决实际问题;而生态化核心,是核心技术平台不争利,放利给生态伙伴,进而产生巨大辐射效应。 百度EasyDL展示百度AI开放生态种策略:用平台化思路,将AI规模化落地,实实在在解决真问题。 近期,大量个人也正加入到EasyDL开发者行列中来。比如有位“天文迷”孙睿康同学,基于EasyDL设计了个超新星自动搜寻系统,希望通过对星云图片AI技术分析,发现可能存在宇宙中超新星,这脑洞大型研究成果,已被哈尔滨工业大学《智能计算机与应用》刊发。而孙睿康只是名高中生,这清楚不过地表明了EasyDL在推动AI普惠上可能性。 AI所带来惊喜,才刚刚开始。 欢迎点击【EasyDL定制化训练及服务平台】,了解更多产品内容。 如需合作咨询可点击屏幕右下角标志,提交具体咨询息;或可进入AI开发者社区,进行沟通交流。
x****3 2018-07-10
零基础认识深度学习——猿人次直立行走
前言 人工智能是当今热议行业,深度学习是热门中热门,浪尖上浪潮,但对传统IT从业人员来说,人工智能技术到处都是模型、算法、矢量向量,太晦涩难懂了。所以我写了这篇入门级科普文章,目标是让IT从业者能看清读懂深度学习技术特点,以及我们如何从中受益,找到自己工作。 、人工智能天时地利人和 行业成熟要靠从业者奋斗(人和),也要考虑大环境和历史进程(天时和地利)。人工智能技术并不是单纯技术进步,而是软件、硬件、数据三方面共同努力水到渠成结果,深度学习是AI技术最热分支,也是受这三方面条件限制。 AI软件所依赖算法已经存在很多年了,神经网络是50年前提出技术,CNN/RNN等算法比大部分读者年龄都要大。AI技术直被束之高阁,是因为缺乏硬件算力和海量数据。随着CPU、GPU、FPGA硬件更新,几十年时间硬件算力扩充了万倍,硬件算力被逐渐解放。随着硬盘和带宽降价提速,20年前全人类都没几张高清照片,现在单个公司数据量能达到EB级。大数据技术只能读写结构化日志,要读视频和图片必须用AI,人类已经盯不过来这么多摄像头了。
TOP