推荐系统三十六式学习笔记:原理篇.近邻推荐09|协同过滤中的相似度计算方法有哪些?

发布于:2024-06-16 ⋅ 阅读:(17) ⋅ 点赞:(0)

目录

  • 相似度的本质
  • 相似度的计算方法:
    • 1、欧式距离
    • 2、余弦相似度
    • 3、皮尔逊相关度
    • 4 、杰卡德(Jaccard)相似度
  • 总结

相似度的本质

推荐系统中,推荐算法分为两个门派,一个是机器学习派,一个是相似度门派。机器学习派是后起之秀,而相似度门派则是泰山北斗。
近邻推荐,近邻并不一定只是在三维空间下的地理位置的近邻,也可以是高维空间的近邻。

近邻推荐的核心就是相似度计算方法的选择,由于近邻推荐并没有采用最优化思路,所以效果通常取决于矩阵的量化方式和相似度的选择。

相似度,与之相对应的一个概念是距离,两者都可以用来度量两个物体在高维空间中的亲疏关系。

推荐系统中的相似度门派,实际上有这么一个潜在假设:如果两个物体很相似,也就是距离很近,那么这两个物体就很容易产生一样的动作。

在近邻推荐中,最常用的相似度是余弦相似度,除了余弦相似度,还有欧式距离,皮尔逊相关度,自适应余弦相似度,局部敏感哈希等,使用场景各有不同,今天,我会分别一一介绍。

相似度的计算方法:

数据分类
相似度计算对象是向量,或者叫做高维空间下的坐标。那表示这个向量的数值就有两只能够:
1、实数值;
2、布尔值,也就是0或1;

下面介绍的不同计算方法适用于不同的数据种类。

1、欧式距离

欧氏距离,是一个欧式空间下度量距离的方法。两个物体,都在同一空间下表示为两个点,假如叫做p和q,分别都是n个坐标。那么欧式距离就是衡量这两个点之间的距离,欧式距离不适合布尔向量之间。
计算公式如下:
E ( p , q ) = ∑ i = 1 n ( p i − q i ) 2 E(p,q) = \sqrt {\sum_{i=1}^n{(p_i - q_i)^2}} E(p,q)=i=1n(piqi)2

这个公式就是:每个坐标上的值相减,求平方和,最后输出方根。
显然,欧式距离得到的值是一个非负数,通常相似度计算度量结果希望是[-1,1]或者[0,1]之间,所以欧式距离无法直接应用到这种场景下,需要转换,最常用的转换公式如下:

1 1 + E ( p , q ) \frac{1}{1+ E(p,q)} 1+E(p,q)1
距离加一后取倒数。这个公式能够把范围为0到正无穷的欧式距离转换为0到1的相似度。
欧式距离度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异,比如消费能力、贡献内容的能力等;

2、余弦相似度

余弦相似度,度量的是两个向量之间的夹角,其实就是用夹角的余弦值来度量,所以名字叫余弦相似度。当两个向量的夹角为0度时,余弦值为1,当夹角为90度时,余弦值为0,当夹角为180度时,余弦值为-1。

余弦相似度在度量文本相似度,用户相似度、物品相似度的时候都比较常用;但是需要注意的是,余弦相似度的特点:它与向量的长度无关。因此,余弦相似度计算时需要对向量长度做归一化;
c o s ( p , q ) = ∑ i = 1 n p i ∗ q i ∑ i = 1 n p i 2 ∗ ∑ i = 1 n q i 2 cos(p,q) = \frac{\sum_{i=1}^n{p_i * q_i}}{\sqrt{\sum_{i=1}^n{p_i}^2 } * \sqrt{\sum_{i=1}^n{q_i}^2 }} cos(p,q)=i=1npi2 i=1nqi2 i=1npiqi

经过向量长度归一化后的相似度量方式,背后隐藏着这样一种思想:两个向量,只要方向一致,无论程度强弱,都可以视为相似。

在协同过滤中,如果选择余弦相似度,某种程度上更加依赖两个物品的共同评价用户数,而不是用户给与的评分多少。这是由于余弦相似度被向量长度归一化后的结果。

余弦相似度对绝对绝对值大小不敏感这件事,在某些应用上仍然有些问题。

举个例子,用户A对两部电影的评分分别为1分、2分,用户B对同样两部电影的评分分别是4分、5分。用余弦相似度计算出来,两个用户的相似度达到0.98.这显然与实际不符,用户A明显不喜欢这两部电影。

用户 电影1 电影2
用户A 1 2
用户B 4 5

计算用户A和用户B的余弦相似度:
c o s ( A , B ) = 1 ∗ 4 + 2 ∗ 5 1 2 + 2 2 ∗ 4 2 + 5 2 = 14 205 ≈ 0.98 cos(A,B) =\frac{1*4+ 2*5}{ \sqrt{1^2+2^2} * \sqrt{4^2+5^2}} = \frac{14}{\sqrt{205}}≈0.98 cos(A,B)=12+22 42+52 14+25=205 140.98

针对这个问题,对余弦相似度有个改进,改进的算法叫做调整的余弦相似度(Adjusted Cosine Similarity)。调整的方法很简单,就是先计算向量每个维度上的均值,然后每个向量在各个维度上都减去均值后,再计算余弦相似度。
电影1平均分为:(1+4)/2 =2.5; 电影2平均分为:(2+5)/2 =3.5;

c o s ( A , B ) = ( 1 − 2.5 ) ∗ ( 4 − 2.5 ) + ( 2 − 3.5 ) ∗ ( 5 − 3.5 ) ( 1 − 2.5 ) 2 + ( 2 − 3.5 ) 2 ∗ ( 4 − 2.5 ) 2 + ( 5 − 3.5 ) 2 = − 4.5 4.5 = − 1 cos(A,B) =\frac{(1-2.5)*(4-2.5)+ (2-3.5)*(5-3.5)}{ \sqrt{(1-2.5)^2+(2-3.5)^2} * \sqrt{(4-2.5)^2+(5-3.5)^2}} = \frac{-4.5}{\sqrt{4.5}}=-1 cos(A,B)=(12.5)2+(23.5)2 (42.5)2+(53.5)2 (12.5)(42.5)+(23.5)(53.5)=4.5 4.5=1

用调整后的余弦相似度计算得到的相似度是-1,呈现出两个用户口味相反,和直觉相符。

3、皮尔逊相关度

皮尔逊相关度,实际上也是一种余弦相似度,不过先对向量做了中心化,向量p和向量q各自减去向量的均值后,再计算余弦相似度。
R ( p , q ) = ∑ i = 1 n ( p i − u p ) ∗ ( q i − u q ) ∑ i = 1 n ( p i − u p ) 2 ∗ ∑ i = 1 n ( q i − u q ) 2 R(p,q) = \frac{\sum_{i=1}^n{(p_i - u_p) *(q_i -u_q)}}{\sqrt{\sum_{i=1}^n{(p_i - u_p)^2}} * \sqrt{\sum_{i=1}^n{(q_i - u_q)^2}}} R(p,q)=i=1n(piup)2 i=1n(qiuq)2 i=1n(piup)(qiuq)

皮尔逊相关度计算结果范围在-1和1之间,-1表示负相关,1表示正相关。皮尔逊相关度,其实计算的是两个随机变量是不是在同增同减。
由于皮尔逊相关度度量的是两个变量的变化趋势是否一致,所以不适合用作计算布尔向量之间的相关度。
还以上面的例子举例,用户A对两部电影的评分分别为1分、2分,用户B对同样两部电影的评分分别是4分、5分,那么使用皮尔逊相关系数的公式计算两个用户之间的相关系数:
首先,我们需要计算用户A和用户B的评分均值:

用户A的评分均值: (1+2)/2 = 1.5
用户B的评分均值: (4+5)/2 = 4.5

然后,我们可以使用皮尔逊相关系数的公式计算两个用户之间的相关系数:

ρ A , B = ∑ i = 1 2 ( x i − 1.5 ) ( y i − 4.5 ) ∑ i = 1 2 ( x i − 1.5 ) 2 ∑ i = 1 2 ( y i − 4.5 ) 2 \rho_{A,B} = \frac{\sum_{i=1}^{2} (x_i - 1.5)(y_i - 4.5)}{\sqrt{\sum_{i=1}^{2} (x_i - 1.5)^2} \sqrt{\sum_{i=1}^{2} (y_i - 4.5)^2}} ρA,B=i=12(xi1.5)2 i=12(yi4.5)2 i=12(xi1.5)(yi4.5)

将用户A和用户B的评分代入公式中进行计算:

ρ A , B = 1 \rho_{A,B} = 1 ρA,B=1

因此,通过计算,用户A和用户B之间的皮尔逊相关系数为1,这表示它们之间存在完全的正相关关系。

4 、杰卡德(Jaccard)相似度

杰尔德相似度,是两个集合的交集元素个数在并集中所占的比例。由于集合非常适用于布尔向量表示,所以杰尔德相似度简直就是为布尔值向量私人定做的。对应的计算公式是:
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A ∩ B|}{|A ∪ B|} J(A,B)=ABAB

1、分子是两个布尔向量做点积计算,得到的就是交集元素个数;
2、分母是两个布尔向量做或运算,再求元素和。

余弦相似度适用于评分数据,杰尔德相似度适合用于隐式反馈数据。例如,使用用户的收藏行为,计算用户之间的相似度,杰尔德相似度就适合来承担这个任务。

总结

今天,我介绍了常用的几种相似度计算方法,以及其各自的使用场景。

这里的场景是按数据形式划分的,按照向量维度取值是否是布尔值来看,杰卡德相似度就只适合布尔值向量,余弦相似度弹性略大,适合两种向量。欧式距离度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异,比如消费能力、贡献内容的能力等;是绝对差异,余弦相似度度量的是方向差异,但是调整的余弦相似度则可以避免这个弱点。

在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到