关于 慢性毒药一次的用量【V信;799.196.362】朴 的搜索结果,共1704
l****m 2018-07-10
词向
文章结构: 词向 背景介绍 效果展示 模型概览 数据准备 编程实现 模型应 总结 参考文献 本教程源代码目录在book/word2vec,初使请您参考Book文档使说明。 背景介绍 本章我们介绍词表征,也称为word embedding。词向是自然语言处理中常见个操作,是搜索引擎、广告系统、推荐系统等互联网服务背后常见基础技术。 在这些互联网服务里,我们经常要比较两个词或者两段文本之间相关。为了做这样比较,我们往往先要把词表示成计算机适合处理方式。最自然方式恐怕莫过于向空间模型(vector space model)。 在这种方式里,每个词被表示成个实数向(one-hot vector),其长度为字典大小,每个维度对应个字典里每个词,除了这个词对应维度上值是1,其他元素都是0。 One-hot vector虽然自然,但是处有限。比如,在互联网广告系统里,如果户输入query是“母亲节”,而有个广告关键词是“康乃馨”。
c****2 2018-07-10
化推荐(
文章结构: 背景介绍——效果展示——模型概览——数据准备——训练模型——应模型——总结——参考文献 本教程源代码目录在book/recommender_system,初使请您参考Book文档使说明。 背景介绍 在网络技术不断发展和电子商务规模不断扩大背景下,商品数和种类快速增长,户需要花费大时间才能找到自己想买商品,这就是息超载问题。为了解决这个难题,个化推荐系统(Recommender System)应运而生。 个化推荐系统是息过滤系统(Information Filtering System)子集,它可以在很多领域,如电影、音乐、电商和 Feed 流推荐等。个化推荐系统通过分析、挖掘户行为,发现化需求与兴趣特点,将户可能感兴趣息或商品推荐给户。与搜索引擎不同,个化推荐系统不需要户准确地描述出自己需求,而是根据历史行为进行建模,主动提供满足户兴趣和需求息。 1994年明尼苏达大学推出GroupLens系统[1]般被认为是个化推荐系统成为个相对独立研究方向标志。
x****3 2018-07-10
零基础认识深度学习——猿人直立行走
我又手写了个数字2,还特地选黑底白字28*28,结果这几个模型没个识别准确,全部识别失败。 --下图是 22.新图识别失败 -- 四、实战才能出模型 本实验拿到正确率是94.81%模型是意外惊喜,那个模型测其他图片失败倒是意料之中。因为这实验初始样本才几千张,如果样本数够多,过拟合(即噪音特征被纳入模型)可能就越小;我全部是默认调试选项,添加其他特征项调试模型可能会减少欠拟合(主特征没提取到)几率;我并未明确定义该模型使场景,即没有明确训练数据、测试文件和生产文件是否相同。 我们看到完全相同配置模型,只因为点击生成模型时间不同,对同个图片识别结果确千差万别,再强调这不是因果判断而是相关计算。实验结论和我上文主张相同,模型需要拿实战数据进行实际训练,且我们只能预估但不能预测模型生成结果。我做这个实验就是给大家解释,AI模型训练不是软件外包,不是谈拢了价格就能规划人日预估效果个AI技术供应商简单点就是卖现成模型,比如说人脸识别模型、OCR识别模型等等。
y****i 2018-07-11
做容器云最佳
前言 我直瞧不上容器厂商企宣话述,连带着看轻了容器技术;但容器技术是有价值,容器编排技术更是片大好发展方向。 我很讨厌这些电线杆小广告宣传方式:可以实现弹伸缩、自动化运维、持续交付、微服务、秒级部署、高强度容灾、多版本控制等功能,从而改善和解决复杂IT应场景。事实上是使者自己设计维护可以弹伸缩、自动运维、容灾冗余程序,无论是物理机、虚拟机还是容器(进程),本来能弹服务还是能弹,没容灾服务还是在赌命。 合格架构和运维都瞧不上这些废话,因为十年前我们裸机就能实现这些功能了。但世上没有那么多合格架构师,云计算要解决就是缺人问题。最早云主机也是类似夸张无赖宣传,我第眼看云主机也觉得是个噱头,这些遗至今还在误导客户。本文是为说清容器能力特,我们该如何好容器编排系统。 容器基础特 容器和虚拟机都属于IaaS云范畴,按申请资源付费,不关注客户业务逻辑和访问频率。容器只是隔离出个进程,而虚拟机是模拟了整套操作系统,这是双方本质区别。
小****园 2018-07-10
让PB级云存储不再神秘
对象存储群集刚建成只有几十个机柜几千兆带宽,后续群集容能都要动态扩容。存储系统扩容后不要做无意义数据重新分布,因为数据重新分布可以理解成磁盘修复,太容易出能类故障了。我们不做数据再平衡,但磁盘写入时要有优先级,否则群集内各存储节点会受力不均而出现新瓶颈,比如当前有四组存储,第90%,第二组50%,第三组10%,第四组刚新增0%。我们在读写代理那层可以做策略控制,第组存储不再写入数据,第二组存储低优先级写入数据,第三第四组存储主力写入数据。 如何提升读写能。 对象存储场景里很少出现个链接读写100G文件情况,而常见是几万个链接去竞争带宽资源,大家都读写。只要有100个并发连接,群集访问压力会分布均匀。个PB级存储系统,存储机怎么也有20台以上,每台主机提供1000Mb带宽于对外服务,这就是20Gb总出口带宽了,群集默认能就不会太差。数据都是顺序写入硬盘,SATA盘也能达到极高写入能。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
时间不稳会威胁到程序健壮和业务安全,甚至部分程序崩溃稀里糊涂。 ntpdate只是个命令不是服务,它对远端时钟源是盲目任;假设个根NTP服务不稳定,所有服务器获得了错误时间,虽然现在业务层可以包容异常,不会出现算出负利息或倒扣费情况,但业务混乱是免不了。我们就说联机调试分布式日志,几个节点时间有错可能日志就看不懂了。 NTPD服务做时间调整会有效减少这类情形,它不是简单龟速调整时间,而是有柔时间调整策略,让时间线跃变和调整尽少影响业务(详情见附录实验);也不会盲目任远端时钟源,甚至固执拒绝同步时间。NTPD服务相本机时刻有可能不对,但不会忽快忽甚至停滞,NTPD通过多收发包选择权威稳定时间源,算出双方间网络延迟,然后才会采时刻进行时钟同步。 五、误解根源和影响 因为NTPD不盲从其他时间源,让老辈IT人会留下NTPD不好、不靠谱误会。2005年个人测试虚拟机时间经常走,到2010年虚拟机还要防范时间停滞Bug。即使你物理机投入生产,网络延迟仍然不确定,且要观测NTPD同步效果需要时间。
h****e 2018-07-10
程序:我从哪里来?
通过部署在机器上客户端感知到实例状态变化(比如实例状态由0变成-1,即正常变成非正常),并将数据同步到系统中分布式缓存,上游模块可以通过查询redis.noah.all实例状态结果,主动过滤非正常实例,也可以在BNS系统中发起屏蔽故障实例操作,在查询过程中会自动过滤该故障实例。 在下节中将具体介绍BNS系统整体架构。 基本架构 BNS系统主要包含几个部分:流接入层,Web Server,存储层,代理客户端。 作为个底层基础服务,BNS系统每天访问近千亿,这对系统提出了很高要求,因而系统需要在各个层面有完善容灾能力和流管控能力。 1流接入层 系统通过HTTP接口对外提供变更服务,户通过Web页面或者接口进行服务或实例息注册。为了保证平台稳定和安全运行,需要对非法和异常请求进行拒绝,在流接入层(Proxy)端提供了以下两个功能: 流鉴权:每个服务组、服务单元、实例注册都需要进行权限验证,户只有申请了合法Token才能允许访问,另外系统还提供了白名单等其他鉴权方式。
1****2 2018-07-09
百度安全:AI 是系统工程 需要真正开放安全护航
而现在普遍应TLS/SSL 方案 是基于非内存安全语言编写,容易被黑客利内存安全漏洞攻击,而且未来也面临着被 子计算机破解威胁。 而百度安全基于内存安全技术代可配置嵌入式安全通协议栈MesaLink, 在语言层面提供内存安全保障,算法层面提供后子密码对抗能力。这就使得网络传输 可以避免OpenSSL“心脏流血”等高危漏洞隐患,并且能对抗子密码学攻击,进 步增强网络传输层安全。在MesaLink 保驾护航下,AI 系统有了内存安全 和抗子破解双重保障,黑客很难再通过内存安全漏洞和子计算机技术通过网络通 层攻击进入AI 系统。 云端安全 云安全都快成了老生常谈话题。不过现在云端防护引擎存在着定缺陷,比如 它们大多依赖请求特征。方面,要适应千差万别后端应,以及它们对协议处理 方式,本身就很困难。另方面,面临些新型攻击,防御引擎需要及时增添规则,较 为被动。最后,防护引擎只要看到符合特征请求,就会产生报警,并不知道黑客是否 真攻击成功了,所以误报率比较高。 自从Gartner 提出自适应安全架构之后,得到了业界致认可。
p****d 2018-07-11
单机房故障自愈--运维春天
【解决方案】 基于容水位动态均衡 在流调度时,对于容不准确存在风险,我们划分两条容警戒线。 安全水位线:流处于在安全线以下则风险较小,可以步进行切换。 水位上限:该水位线表明服务最大承载能力,旦流超过故障水位线,很大概率会导致容过载。 如果安全水位线提供不足以满足止损,那我们期望使上两条中间buffer,同时流调度过程中进行分步试探,避免调度压垮服务。 基于快速熔断过载保护 在流调度时,建立快速熔断机制作为防止服务过载最后屏障。旦出现过载风险,则快速停止流调度,降低生故障发生概率。 基于降级功能过载保护 在流调度前,如果已经出现对应机房过载情况,则动态联动对应机房降级功能,实现故障恢复。 2业务线止损策略需求差异大 【问题描述】 我们实现了基础单机房故障流调度止损算法,但在部分业务线中仍存在较大需求差异,比如: 分步动态调度需求:业务存在充Cache情况,过程中服务能力降低,需要控制切换速度。
用****在 2018-07-10
词向(二)
,wt−1) N-gram neural model 在计算语言学中,n-gram是种重要文本表示方法,表示个文本中连续n个项。基于具体场景,每项可以是个字母、单词或者音节。 n-gram模型也是统计语言模型中种重要方法,n-gram训练语言模型时,每个n-gram历史n-1个词语组成内容来预测第n个词。 Yoshua Bengio等科学家就于2003年在著名论文 Neural Probabilistic Language Models [1] 中介绍如何学习个神经元网络表示词向模型。文中神经概率语言模型(Neural Network Language Model,NNLM)通过个线映射和个非线隐层连接,同时学习了语言模型和词向,即通过学习大语料得到词语表达,通过这些向得到整个句子概率。因所有词语都个低维向来表示,这种方法学习语言模型可以克服维度灾难(curse of dimensionality)。
h****l 2018-07-09
大数据时代下隐私保护(二)
我们先看下下面这个表格: 我们把要表格中公开属分为以下三类:- Key attributes: 般是个体标示,比如说姓名、地址、电话等等,这些内容需要在公开数据时候删掉。- Quasi-identifier: 类似邮编、年龄、生日、别等不是唯,但是能帮助研究人员关联相关数据标示。- Sensitive attributes: 敏感数据,比如说购买偏好、薪水等等,这些数据是研究人员最关心,所以般都直接公开。 简单来说,k-anonymity 是保证公开数据中包含个人息至少k-1 条不能 通过其他个人息确定出来。也就是公开数据中任意quasi-identifier 息,相同 组合都需要出现至少k 。 举个例子,假设个公开数据进行了2-anonymity 保护。如果攻击者想确认个人 (小明)敏感息(购买偏好),通过查询他年龄、邮编和别,攻击者会发现数 据里至少有两个人是有相同年龄、邮编和别。这样攻击者就没办法区分这两条数据 到底哪个是小明了,从而也就保证了小明隐私不会被泄露。
双****4 2018-07-10
词向(三)
文章结构: 词向 背景介绍 效果展示 模型概览 数据准备 编程实现 模型应 总结 参考文献 模型应 在模型训练后,我们可以它做些预测。预测下个词:我们可以我们训练过模型,在得知之前 N-gram 后,预测下个词。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
干货概览 在大型互联网公司中,单机房故障因为其故障时间长、影响范围大,直是互联网公司运维人员心头之痛。在传统运维方式中,由于故障感知判断、流调度决策复杂,通常需要人工止损,但人工处理时效会影响服务恢复速度,同时人不可靠也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流调度单机房故障自愈能力。结合外网运营商链路监测、内网链路质监测与业务指标监控构建了全方位故障发现能力,基于百度统前端(BFE)与百度名字服务(BNS)实现了智能流调度与自动止损能力。同时,基于实时容与实时流调度自动止损策略与管控风险,实现了任意单机房故障时业务均可快速自愈效果。当前此解决方案已覆盖搜索、广告、息流、贴吧、地图等众多核心产品单机房故障自愈场景。 单机房故障频发影响业务可 回顾近2年来各大互联网公司被披露故障事件,单机房故障层出不穷。
M****点 2018-07-10
中国云计算现状——产品篇
最常见PaaS服务是数据库,最重要PaaS服务是对象存储,最成熟PaaS服务是CDN,最有魅力PaaS服务是Serverless,我们重点看这四个服务。 个经典PaaS服务应该只是个进程,进程是无法长期存储数据,小结构化数据依赖数据库存储,海数据依赖对象存储。 云数据库(如RDS)很重要但想象空间有限,因为企业里已经有数据库和DBA了,DBA并不任云端未知架构数据库能、稳定和数据安全,而且企业仍然需要DBA承担设计维护工作。 对象存储服务是新兴需求,企业里本来就没大规模对象存储搭建能力,而且对象存储对应程序友好上手简单,客户对它是积极拥抱甚至业务依赖。户在对象存储平台堆积了上TB数据,大数据和AI分析应自然就部署上来了。广域网传输稳定不够成本又过高,只能是计算组件跟着存储就近部署,PaaS云创业公司从对象存储入手才更有客户粘和横向扩展空间。 大数据类PaaS类似于云数据库,户要自带海数据过来,Mapreduce过程和结果又都要户负责,最终客户觉得云平台什么都没做,大数据PaaS服务都成IaaS定制模板虚拟机了。
M****H 2018-07-11
故障定位场景下数据可视化实践
干货概览 百度拥有上百条产品线,数十万服务,每个服务时时刻刻都在产生着海监控数据,形成监控项规模总数已达数十亿。面对如此海数据,在日常运维(如故障诊断、成本分析、能优化等场景)过程中,传统统计图表难以有效直观地展示如此庞大数据。因此,优秀监控数据可视化产品就呼之欲出,他既要数据准确、全面、时效高,也需要提升使体验,使其能在茫茫数据中眼就能发现想要观察数据。 那么怎么做才能适应户需求、完成精准展示,同时又能挖掘数据价值呢?下面我们从故障诊断场景出发,来看百度智能监控平台是如何充分利数据可视化武器来解决实际业务问题。 故障定位可视化思路 在标准故障处理流程中,故障定位般可分为两个阶段: 故障止损前:期望可以快速获得可于止损决策息,做出相应止损操作使得服务恢复。比如通过确定故障范围,调度流绕过故障机房或摘除故障实例等。 故障止损后:仍需要进步找到导致故障深层原因,确定故障根因,将线上环境恢复到正常状态。
****ac 2018-07-12
亿元免费算力 | 百度大脑AI Studio重磅推出算力支持计划
“提供总计1亿元免费算力,助力开发者成功”——百度大脑AI Studio 大数据、大模型、大算力是深度学习发展必备因素,算力重要不言而喻。4月23日,首届 WAVE SUMMIT 2019深度学习开发者峰会,百度站式开发平台 AI Studio 重磅推出算力支持计划:豪掷1亿元免费算力,为普通开发者破除算力桎梏。 百度大脑AI Studio 百度大脑AI Studio是集合AI教程、代码环境、算法算力、数据集和比赛站式学习、开发、交流平台。该平台旨在帮助开发者迅速掌握AI开发知识,并熟悉模型创建,训练及部署全过程。 百度大脑AI Studio中,项目有两个模式::卡(单机)和远程集群模式。 其中卡模式配置此前以CPU为主。为了解决该模式下能不足问题,百度大脑AI Studio准备了大Tesla V100训练卡和相关资源,总价值1亿人民币。 Tesla V100训练卡是当前能最好工业级训练卡之。根据英伟达说明, 该GPU能是单核CPU47倍。此举将普惠百度大脑AI Studio户,破除算力困境。
TOP