关于 代做灰色词上首页qq89651584莱州优酷视频bdntzg宗 的搜索结果,共743
l****m 2018-07-10
向量(一)
在这个映射到的实数向量表示中,希望两个语义(或用法)相似的对应的向量“更像”,这样如“母亲节”和“康乃馨”的对应向量的余弦相似度就不再为零了。 向量模型可以是概率模型、共生矩阵(co-occurrence matrix)模型或神经元网络模型。在用神经网络求向量之前,传统法是统计一个语的共生矩阵XX。XX是一个|V|×|V||V|×|V| 大小的矩阵,XijXij表示在所有语料中,汇表VV(vocabulary)中第i个和第j个同时出现的数,|V||V|为汇表的大小。对XX矩阵分解(如奇异值分解,Singular Value Decomposition [5]),得到的UU即为所有向量: X=USVTX=USVT 但这样的传统法有很多问题: 由于很多没有出现,导致矩阵极其稀疏,因此需要对额外处理来达到好的矩阵分解效果; 矩阵非常大,维度太高(通常达到106×106106×106的数量级); 需要手动去掉停用(如although, a,...),不然这些繁出现的也会影响矩阵分解的效果。
c****2 2018-07-10
个性化推荐(一)
YouTube 个性化推荐系统结构 候选生成网络(Candidate Generation Network) 候选生成网络将推荐问题建模为一个类别数极大的多类分类问题:对于一个Youtube用户,使用其观看历史(ID)、搜索记录(search tokens)、人口学信息(如地理位置、用户登录设备)、二值特征(如性别,是否登录)和连续特征(如用户年龄)等,对库中所有进行多分类,得到每一类别的分类结果(即每一个的推荐概率),最终输出概率较高的几百个先,将观看历史及搜索记录这类历史信息,映射为向量后取平均值得到定长表示;同时,输入人口学特征以化新用户的推荐效果,并将二值特征和连续特征归一化处理到[0, 1]范围。接下来,将所有特征表示拼接为一个向量,并输入给非线形多层感知器(MLP,详见识别数字教程)处理。最后,训练时将MLP的输出给softmax分类,预测时计算用户的综合特征(MLP的输出)与所有的相似度,取得分最高的kk个作为候选生成网络的筛选结果。图2显示了候选生成网络结构。 图2.
双****4 2018-07-10
向量(三)
文章结构: 向量 背景介绍 效果展示 模型概览 数据准备 编程实现 模型应用 总结 参考文献 模型应用 在模型训练后,我们可以用它一些预测。预测下一个:我们可以用我们训练过的模型,在得知之前的 N-gram 后,预测下一个
用****在 2018-07-10
向量(二)
Skip-gram模型 如图所示,Skip-gram模型的具体法是,将一个向量映射到2n2n个向量(2n2n表示当前输入的前后各nn个),然后分别通过softmax得到这2n2n个的分类损失值之和。 数据准备 数据介绍 本教程使用Penn Treebank (PTB)(经Tomas Mikolov预处理过的版本)数据集。PTB数据集较小,训练速度快,应用于Mikolov的公开语言模型训练工具[2]中。其统计情况如下: 本章训练的是5-gram模型,表示在PaddlePaddle训练时,每条数据的前4个用来预测第5个。PaddlePaddle提供了对应PTB数据集的python包paddle.dataset.imikolov,自动数据的下载与预处理,方便大家使用。 数据预处理 预处理会把数据集中的每一句话前后加开始符号 s 以及结束符号 e 。然后依据窗口大小(本教程中为5),从头到尾每次向右滑动窗口并生成一条数据。
笑****山 2018-07-10
监控专用对象存储的畅想
我不想涉密去关注具体厂商的技术底实现,但会考虑通用技术可行性,一个监控型对象存储的技术畅想。 每天都有用监控抓小偷的新闻,监控行业的价值已经得到社会认可和买单;监控是最容易实现PB级文件容量和百亿级文件数量的场景,摄像头数量越来越多、清晰度越来越高,而文件管理、存储和分析的压力也越来越大。 监控厂商自己的堆盘式存储是个临时应急性方案,而且客户要求开放式管理监控,中立又可靠的对象存储方案是最佳选择。 最近几年IT行业并没有核心技术飞跃,我们能的都是化选型,过去针对http访问场景的化选型,现在要的是贴合监控场景的化选型。 从客户访问和内部实现的角度,本文分为“访问界面”“读写理”“元数据设计”“存储实现”四部分。 访问界面 这里指的是应用程序访问界面,而不是自然人访问界面。访问界面有四个问题: 要不要存储系统直接支持RTMP?直播和存储技术跨度太大,且监控厂商已经有方案,低先级处理该功能。 要不要提供文件系统级访问接口?
5****a 2018-07-11
监控专用对象存储的畅想
我不想涉密去关注具体厂商的技术底实现,但会考虑通用技术可行性,一个监控型对象存储的技术畅想。 每天都有用监控抓小偷的新闻,监控行业的价值已经得到社会认可和买单;监控是最容易实现PB级文件容量和百亿级文件数量的场景,摄像头数量越来越多、清晰度越来越高,而文件管理、存储和分析的压力也越来越大。 监控厂商自己的堆盘式存储是个临时应急性方案,而且客户要求开放式管理监控,中立又可靠的对象存储方案是最佳选择。 最近几年IT行业并没有核心技术飞跃,我们能的都是化选型,过去针对http访问场景的化选型,现在要的是贴合监控场景的化选型。 从客户访问和内部实现的角度,本文分为“访问界面”“读写理”“元数据设计”“存储实现”四部分。 访问界面 这里指的是应用程序访问界面,而不是自然人访问界面。访问界面有四个问题: 要不要存储系统直接支持RTMP?直播和存储技术跨度太大,且监控厂商已经有方案,低先级处理该功能。 要不要提供文件系统级访问接口?
TOP