关于 【媺53113375】莱西美女一晚多少钱-成都小妹子美女姐一夜 的搜索结果,共1528
l****m 2018-07-10
词向量(
词向量是自然语言处理中常见的个操作,是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。 在这些互联网服务里,我们经常要比较两个词或者两段文本之间的相关性。为了做这样的比较,我们往往先要把词表示计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。 在这种方式里,每个词被表示个实数向量(one-hot vector),其长度为字典大,每个维度对应个字典里的每个词,除了这个词对应维度上的值是1,其他元素是0。 One-hot vector虽然自然,但是用处有限。比如,在互联网广告系统里,如果用户输入的query是“母亲节”,而有个广告的关键词是“康乃馨”。虽然按照常理,我们知道这两个词之间是有联系的——母亲节通常应该送给母亲束康乃馨;但是这两个词对应的one-hot vectors之间的距离度量,无论是欧氏距离还是余弦相似度(cosine similarity),由于其向量正交,认为这两个词毫无相关性。 得出这种与我们相悖的结论的根本原因是:每个词本身的信息量
TOP