关于 舟曲美女一夜情〖10669708薇信〗 的搜索结果,共1117
1****6 2018-07-10
感分析
背景介绍 在自然语言处理中,感分析般是指判断段文本所表达的绪状态。其中,段文本可以是个句子,个段落或个文档。绪状态可以是两类,如(正面,负面),(高兴,悲伤);也可以是三类,如(积极,消极,中性)等等。感分析的应用场景十分广泛,如把用户在购物网站(亚马逊、天猫、淘宝等)、旅游网站、电影评论网站上发表的评论分成正面评论和负面评论;或为了分析用户对于某产品的整体使用感受,抓取产品的用户评论并进行感分析等等。表格1展示了对电影评论进行感分析的例子: 在自然语言处理中,感分析属于典型的文本分类问题,即把需要进行感分析的文本划分为其所属类别。文本分类涉及文本表示和分类方法两个问题。在深度学习的方法出现之前,主流的文本表示方法为词袋模型BOW(bag of words),话题模型等等;分类方法有SVM(support vector machine), LR(logistic regression)等等。 对于段文本,BOW表示会忽略其词顺序、语法和句法,将这段文本仅仅看做是个词集合,因此BOW方法并不能充分表示文本的语义息。
l****m 2018-07-10
词向量(
词向量是自然语言处理中常见的个操作,是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。 在这些互联网服务里,我们经常要比较两个词或者两段文本之间的相关性。为了做这样的比较,我们往往先要把词表示成计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。 在这种方式里,每个词被表示成个实数向量(one-hot vector),其长度为字典大小,每个维度对应个字典里的每个词,除了这个词对应维度上的值是1,其他元素都是0。 One-hot vector虽然自然,但是用处有限。比如,在互联网广告系统里,如果用户输入的query是“母亲节”,而有个广告的关键词是“康乃馨”。虽然按照常理,我们知道这两个词之间是有联系的——母亲节通常应该送给母亲束康乃馨;但是这两个词对应的one-hot vectors之间的距离度量,无论是欧氏距离还是余弦相似度(cosine similarity),由于其向量正交,都认为这两个词毫无相关性。 得出这种与我们相悖的结论的根本原因是:每个词本身的息量都太小。
TOP