知识:

  1. word2vec:输入(doc, words),得到word embedding
  2. item2vec:输入(userid, itemids),得到item embedding

说明:

  1. 使用标题/内容的分词embedding作推荐,属于内容相似推荐
  2. 使用行为列表作embedding作推荐,属于行为相关推荐,效果比内容相似推荐更好

延伸:

  1. 把word embedding进行加和、平均,就得到了document embedding;
  2. 把item embedding进行加和、平均,就得到了user embedding;

数据整理

pyspark.ml word2vec

对于给定电影算出最相似的10个电影