关于 关键词排名优化费用q扣2810853647贾汪夏桥今日头条jb 的搜索结果,共750
l****m 2018-07-10
向量(一)
文章结构: 向量 背景介绍 效果展示 模型概览 数据准备 编程实现 模型应 总结 参考文献 本教程源代码目录在book/word2vec,初次使请您参考Book文档使说明。 背景介绍 本章我们介绍的向量表征,也称为word embedding。向量是自然语言处理中常见的一个操作,是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。 在这些互联网服务里,我们经常要比较两个或者两段文本之间的相性。为了做这样的比较,我们往往先要把表示成计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。 在这种方式里,每个被表示成一个实数向量(one-hot vector),其长度为字典大小,每个维度对应一个字典里的每个,除了这个对应维度上的值是1,其他元素都是0。 One-hot vector虽然自然,但是处有限。比如,在互联网广告系统里,如果户输入的query是“母亲节”,而有一个广告的是“康乃馨”。
c****2 2018-07-10
个性推荐(一)
Input movie_id: 1962 Input user_id: 1 Prediction Score is 4.25 模型概览 本章中,我们首先介绍YouTube的视频个性推荐系统[7],然后介绍我们实现的融合推荐模型。 YouTube的深度神经网络个性推荐系统 YouTube是世界上最大的视频上传、分享和发现网站,YouTube个性推荐系统为超过10亿户从不断增长的视频库中推荐个性的内容。整个系统由两个神经网络组成:候选生成网络和序网络。候选生成网络从百万量级的视频库中生成上百个候选,序网络对候选进行打分序,输出最高的数十个结果。系统结构如图1所示: 图1.
用****在 2018-07-10
向量(二)
我们在上文中已经讲到件概率建模语言模型,即一句话中第tt个的概率和该句话的前t−1t−1个。可实际上越远的语其实对该的影响越小,那么如果考虑一个n-gram, 每个都只受其前面n-1个的影响,则有: P(w1,...,wT)=∏t=nTP(wt|wt−1,wt−2,...,wt−n+1)P(w1,...,wT)=∏t=nTP(wt|wt−1,wt−2,...,wt−n+1) 给定一些真实语料,这些语料中都是有意义的句子,N-gram模型的目标则是最大目标函数: 1T∑tf(wt,wt−1,...,wt−n+1;θ)+R(θ)1T∑tf(wt,wt−1,...,wt−n+1;θ)+R(θ) 其中f(wt,wt−1,...,wt−n+1)f(wt,wt−1,...,wt−n+1)表示根据历史n-1个得到当前wtwt的件概率,R(θ)R(θ)表示参数正则项。 图2.
双****4 2018-07-11
【杂谈】猎场没那么精彩--还原真实的猎
第一部分.前言 无论是百科还是热播影视剧,猎高端大气上档次的形象都深入人心。我能理解新人初见猎的兴奋,但实际上猎场没那么精彩,面对这种过高的期望,猎朋友们是很尴尬的,就好像每个IT工程师的都能下载Q币一样尴尬。 本文的定调并不是批判猎行业,对水货猎的调侃才能让敬业猎生意更好,让应聘者更少花精力在无效应付上,让招聘方知道资深猎贵在哪里。 第二部分.真实的低端猎市场 大部分猎公司的公开介绍就是几句无法查证的套话,其老板一般都是资深猎跳槽单干,和老客户保持着半面之交的系。猎公司找客户并不难,因为大都是无保底合同,半面之交的系也够了。 大部分新手猎顾问,不管他们入职时的理想有多远大,打了半年电话以后梦想都会变成跳槽去甲方那里做普通人事职员。他们即不了解面试者也不了解人单位,为一个候选人花时间不超过半小时,他们也习惯了面试成功率是百分之一。他们并不在意应聘者和面试官的时间是否被浪,挺高大上的猎工作,被这帮庸人做成了炸鱼游戏。高端猎拿到简历就开始调查研究了,而这类猎等二面以后才能记住面试者的字。
c****i 2018-07-11
拨云见--云咨询可行性分析
长期稳定外包的低端码农,最终户一般是掏月薪1.5-3倍的管理,报给客户的单人成本从1000-4000不止;短期外包的高级专家,单人报价低于一万二,每人月管理低于二十万,客户会觉得你找了个假专家。 云咨询人力支出,按照一个专家百万年薪来算,他支撑三五个项目就收支平衡了;这种业务开展起来,实际开销的大在营销宣传。因为我们IT圈隔行如隔山,又有文人相轻的习惯,只有细分领域的人,好多还是只能做技能科普的水货,根本没有全IT行业和在行业外影响力的领袖。做云咨询要比做云计算更疯狂的搞品牌和专家的宣传,以我对市场宣传体系的了解,这一块成本是最难预估和简单消下去的。 此外还有销售等方面的暗成本,就不展开谈了。 5.和云售前的区别 云厂商肯定乐意将云售前和云咨询混淆,目的就是为了把自己包装的高大上,好继续贩售云梦想。但前文我就说过两者的区别,现在再回顾一下。 云咨询师的工作是IT决策选型,决策结果可能是不上云甚至放弃该项目,提出技术标准是考核所有云厂商;云售前的工作是卖出自家云产品。 云咨询师的业绩考量是专业完成咨询项目;云售前的业绩考量和云资源联较大。
双****4 2018-07-10
向量(三)
整个程序的入口很简单: def main(use_cuda, is_sparse): if use_cuda and not fluid.core.is_compiled_with_cuda(): return params_dirname = "word2vec.inference.model" train( if_use_cuda=use_cuda, params_dirname=params_dirname, is_sparse=is_sparse) infer(use_cuda=use_cuda, params_dirname=params_dirname) main(use_cuda=use_cuda, is_sparse=True) 总结 本章中,我们介绍了向量、语言模型和向量的系、以及如何通过训练神经网络模型获得向量。在信息检索中,我们可以根据向量间的余弦夹角,来判断query和文档这二者间的相性。在句法分析和语义分析中,训练好的向量可以来初始模型,以得到更好的效果。
金****洲 2018-07-10
混乱的集群遇见TA 从此岁月静好
要为基础设施提供虚拟容器隔离,应部署,应拓扑搭建和集群控制的功能。为应的整个生命周期保驾护航,提供一龙服务。” 总之就是四个字,“轻”、“稳”、“专”、“全”,对于这一切,工程师们很满意。 于是百度云的工程师们结合百度历年来云计算的经验与技术沉淀,潜心打磨,匠心打造,最终强势推出新一代私有云云基础设施管理引擎HALO。 Q:HALO是什么? AHALO全称Hybrid-cloud Application Layout and Operation system,顾思义,它是私有云或混合云环境中的基础设施部署和集群控制系统,是混乱集群中的第一束光,让无序的集群世界变得有序可控,是云最底层的基石,肩负着裸机环境配置,root域权限控制和智能托管基础设施的重任。如果没有HALO,集群机器将处于失控的状态。它屏蔽了云服务底层繁杂的管控逻辑,提供简接口给上层系统NoahEE调,使上层系统更好更快地释放价值。 Q这么秀的系统到底是如何实现的呢? AHALO系统采主从架构,分为Master端和Agent端。
嘟****y 2018-07-11
大型企业适的云平台账户体系
前文是说注册阶段的法务承诺,到使过程中云平台又会有各种奇怪的“资格认证”“功能审核”等问题。云平台要规避自注册客户的政策法规问题和恶意欠问题,但这和大客户有什么系?供应商“认证”“审核”这类跟甲方说话就是态度不端正,这又是一句“客户你好,你要服从管理,爱审不审,不审就滚”。这类甲方的身份资料是公开的,也不会恶意赖账,这时应该由乙方主动记录合规信息,后台透明完成功能开通,设置消和透支上限。 假设客户是成长型公司,以前CEO创建的账户让员工继续使。某天CEO被老婆打了一顿,因为他的网购记录有给“丽丽”订花和开房;或者网警约谈该倒霉蛋,警告他不要网盘传播非法视频;也可能CEO打开聊天工具,发现自己很多幼稚鸡汤文给投资商。不要误会是有人要整这个CEO,SSO单点登录多项服务,同事混了账户也正常。 如果客户放弃使某云之后,原账户不注销滚动欠几千万怎么办?云巨们都是横向一体经营,搞不好会和客户有竞争,霸王注册款下的法务风险确实存在。 一个企业服务的账户不应该由客户注册,而是供应商主动提供,像IDC和CDN就会主动给客户提供查带宽的账户。
x****7 2018-07-10
从外行进阶专业 传统企业AI转型差的可能只是一个百度EasyDL
许多企业主都迫切希望能将人脸、语音、图像等AI技术快速应起来,扩大竞争势,但往往却苦于无从下手。 传统企业落地AI,普遍存在三大痛点: 1)通的AI无法满足企业的个性需求。与企业业务深度结合的AI应需求,往往需要结合所在领域很强的专业知识,通AI技术无法满足,例如,目前业界推出的通物体和场景识别的API无法满足大量个性的需求:家装企业想识别装修图库中的细分家居风格、房间布局分类等,物业公司想通过摄像识别小区垃圾桶是否已满,施工单位想通过图像识别工地上的工人有没有穿工服、戴安全帽等,这些场景需求是常见的业务场景,但是企业很难找到现成可的AI技术,往往需要自己做定制的研发。 2)AI技术自研及运维成本高昂。自己研发AI技术会面临多道难,首先是AI人才,国内AI人才池有限,据人民报的报道,我国人工智能的人才缺口超过500万,供求比例仅为1:10。AI人才的年薪动辄数十万,除非有庞大的业务场景,否则,一般体量的企业难以组建独立的AI团队。其次是基础设施,AI运维需要的服务器、GPU,在财务上也是不可承受之重。 3)开发周期过于漫长。
小****园 2018-07-10
让PB级云存储不再神秘
户要读取单Metadata数据的时候也只有文件一个筛选件,没有任何复杂的序对比操作,这代表数据可以轻易分库分表,25000个读请求分到4个实例还有压力吗? 任何数据库都讨厌list操作,但存储计户需求都会扫表。结合对象存储的list需求,我们可以做几个只读的从库就可以查询99.9%的准实时数据,如果你怕从库数据同步慢还可以单独做个最热数据表,在最热表上合并一下0.1%的新数据。当我们贴合场景去想,平台计list操作不要求实时高精确数据啊,我给1000个文件晚计1分钟很重要吗?一个客户要下载自己2000万fileinfo信息,按5信息1k算,这2000万 fileinfo信息有4GB大,就算云存储能精确的0.1秒查完,客户有能力0.1秒下载完这些信息吗? 如果你觉得元数据服务压力还是大,那还可以让计系统、读写代理都对查询结果做缓存,或者将数据库挂在成熟的Proxy背后做分库和调度。 我们的数据库能低压力运行,就是设计时充分理解适应了对象存储元数据这一简单需求。 3、灵活的读写代理 读写代理是整个群集保持松耦合高性能的点,这也离不开对场景的深度理解。
h****0 2018-07-09
【 开发指南 】智能家居技能
支持户\开发者通过开发者\厂商的app来自定义场景模式的称和功能; 开发配置: 通过SCENE_TRIGGER来触发场景模式控制;SCENE_TRIGGER 描述特定设备的组合场景 设备之间没有相互联,无特定操作顺序。例如“打开睡眠模式”包括灯和锁上房门,但是灯和锁上房门之间没有必然联系,可以先灯然后锁上房门,也可以先锁上房门后灯。 使 friendlyName字段,来传递场景模式的称; 控制灯光颜色,使的是什么色彩模式? DuerOS采的是HSB其中H代表色相;S代表饱和度;B代表亮度。; 设备称出现ASR识别错误,要如何修正? DuerOS会通过数据训练和算法升级不断ASR识别情况,也欢迎各位开发者为我们提供建议和需求一同技能体验。 如有识别率较低的句,欢迎将此类例子及常见表达方式或误识别结果反馈给我们,定向的做泛。 五、智能家居文档 树状提纲
若****客 2018-07-10
IT架构的本质--我的五点感悟
得个休歇处,依前见山只是山,见水只是水。 参禅的三重境界在IT技术圈同样适,初学者感叹每个产品都如此精妙绝伦,追逐着最强的IDE;老司机喜欢自比管乐指点江山,嘲讽着最好的语言;当一切回归平淡,搞IT就是一份思想延伸和语言翻译工作;其中技术架构师就是一份古朴甚至无趣的工作。 我将架构师的工作总结出五核心道理,这五经验简单直白又深奥通透,算是对我十二年IT工作的一个总结。 1. 需求最重要 少查少写少依赖,Less is more 一个IT系统是多角色多模块分层分级的,像OSI模型上层应简单依赖下层支撑,SOA设计中同级角色也只看对方的接口。 各角色分工明确方便快速实现业务,但是给架构也埋下大坑,底层的盲目支撑是巨大资源浪,平级调度协作也没任何弹性。前端一个小逻辑需求会导致后端大规模联动,不同服务也没权限理解对方的内存数据,各个角色的工程师都只看自己的工作范围,这是正常又无奈的现状。 我们要搞架构设计最重要的就是砍需求,将上层应的需求删减,让同级的业务能容错。
m****t 2018-07-11
设计中立公有云云管平台
反DDOS攻击服务只能由云厂商提供,因为开销偏大计不灵活,但又没有常管理需求,客户到云管平台到厂商沟通时直接邮件、工单和合同即可,如果没有频繁攻击和检测需求,可以不留展示界面只邮件通知。至于渗透测试和漏洞扫描,其实和云服务没直接系,没必要纳入云管平台。WAF可以参照负载均衡服务进行设计处理。 物理机和自控超卖比虚拟机,这是部分云厂商才提供的功能,这类资源开销偏大和计不灵活,客户要给云管平台发邮件才能申请到资源,客户常有类似于虚拟机的管理和监控需求。 云监控是一个基本免的服务,对该服务的设计包含安全评估、数据展示和通知机制。安全评估就是要不要装各厂商以Root权限运行的Agent,数据展示就是各种监控统计表和折线图展示给客户,各厂商是直接通知到最终户还是通知到云管平台后中转传递信息。 其他,诸如域、ICP备案、虚拟空间等服务。 第五核心业务系统 已知云管平台要管理上述资源,且不同资源的先级不同、同一个资源也不需要部署所有功能,那云管平台自身该如何设计和展示?
s****5 2018-07-10
个性推荐(二)
paddle.dataset.movielens.train 每次会在乱序后提供一个大小为BATCH_SIZE的数据,乱序的大小为缓存大小buf_size。 train_reader = paddle.batch( paddle.reader.shuffle( paddle.dataset.movielens.train(), buf_size=8192), batch_size=BATCH_SIZE) test_reader = paddle.batch( paddle.dataset.movielens.test(), batch_size=BATCH_SIZE) 构造训练过程(trainer) 我们这里构造了一个训练过程,包括训练函数。 提供数据 feed_order来定义每产生的数据和paddle.layer.data之间的映射系。比如,movielens.train产生的第一列的数据对应的是user_id这个特征。
j****2 2018-07-10
百度大脑开放来袭 24种全新AI能力呈现
只需对着你的户口本拍一张照片,系统就能字段进行结构识别,然后反馈出信息页的出生地、出生期、姓、民族、与户主系、性别、身份证号码。而票据OCR和汽车场景OCR也分别新增了行程单、保单、通机打发票、定额发票、车辆VIN码、机动车销售发票、车辆合格证等识别能力。目前,百度大脑OCR产品全系列可以识别类型多达34款,实现卡证、票据、文档、汽车全场景覆盖。 人脸人体识别方向:百度大脑此次发布了新能力——人脸情绪识别,同时升级了人脸点检测和手势识别,人脸检测点由72个增至150个,常见手势能识别种数也达到了24种。图像识别方向,百度大脑更新了红酒和地标识别两个新能力。无论是卢浮宫还是82年的拉菲,只要上传1张照片,就能获得文字解析。车辆分析方面上线了车辆检测和车流统计。喻友平透露,不久后,百度大脑还会陆续上线车辆属性识别、车辆外观损伤识别、人脸融合、手部点识别、更高精度的人像分割以及钱币识别等有趣有的应场景。
TOP