机器学习(八)

发布于:2025-03-26 ⋅ 阅读:(30) ⋅ 点赞:(0)

一,基于协同过滤的推广算法: 

        算法原理:

                基于用户的协同过滤(计算用户相似度→找出相似用户→根据相似用户的喜好推荐物品)

                基于物品的协同过滤(计算物品相似度→找出用户喜欢的物品→推荐相似物品)

                构造矩阵进行分解(将用户-物品评分矩阵分解为两个低维矩阵,进行预测评分)

        基于二进制标签的推广算法:

                 1:表示用户看到活动并进行互动(正面例子)

                 0:表示用户看到活动没有进行互动(反面例子)

                 ?:表示该活动尚未展示给用户

        推广算法的实现:       

                From regression to binary classification

                将一个类似于线性回归的模型转变成一个类似逻辑回归的模型

                对于二进制标签,将通过构造上述函数g(Z)来预测y为1的概率。

                原因:

                线性回归一般用来预测连续值(房价,温度),且输出值的范围无限制;而回归任务一般用来预测离散标签(是否患病),输出值为概率,范围在[0,1]。

        推广算法损失函数的优化:

                从平方误差函数优化为适用于二元标签的损失函数

                        (即先前监督学习的二进制分类的损失函数)

        均值归一化优化推广算法:

                简单回顾均值归一化,将所给数据进行预处理,通过对每个特征进行平移和缩放,使得每个特征的均值为0,且数据范围缩小。(即缩小数据范围,减少运算,加快计算速度)

       

 ①将所有的数据提取出来,形成一个二维矩阵(包括问号)

 ②计算每行的平均值,将所得的平均值汇集成一个向量组μ

 ③将原来二维矩阵的每个值减去所对应的平均值,所得的新值即为Y

 ④构建模型W*X+b + μ 来预测第五列的数值

        (注:该算法的效果是让第五列数据的初始猜测等于其他列数据的平均值,即2.5,使得该算法对没有数据或者数据很少的预测更准确)

        上述也可以均值归一化处理列,但是可能归一化处理列于归一化处理行相比,预测结果可能不是很好

        TensorFlow实现协同过滤:

     

import tensorflow as tf
import numpy as np

# 定义初始参数
w = tf.Variable(3.0)  # 初始权重
x = tf.constant(1.0)  # 输入数据
y = tf.constant(1.0)  # 目标值
alpha = 0.01          # 学习率
iterations = 30       # 迭代次数

# 记录参数和损失变化
history_w = []
history_loss = []

# 自定义训练循环
for iter in range(iterations):
    with tf.GradientTape() as tape:
        fwb = w * x              # 预测值: w*x
        costJ = (fwb - y) ** 2   # 损失函数: (wx - y)^2
    
    # 计算梯度
    [dJdw] = tape.gradient(costJ, [w])
    
    # 更新参数
    w.assign_add(-alpha * dJdw)
    
    # 记录历史数据
    history_w.append(w.numpy())
    history_loss.append(costJ.numpy())
    
    # 打印训练过程
    print(f"Iter {iter:2d}: w = {w.numpy():.4f}, Loss = {costJ.numpy():.4f}")

# 输出最终结果
print("\n=== 优化结果 ===")
print(f"最优 w = {w.numpy():.4f} (理论最优值: 1.0)")'
        利用协同算法查找相关项目: 

        

        根据模型所学到的特征向量,如果想要找到其他相似的物品,可以尝试找到具有与已知特征向量X(i)相似的特征向量X(k),通过公式计算它们的相似程度(即两个特征向量的”距离”),之前的均值归一化则是为了使未知的特征更合理。

        协同过滤的局限性:

                ①在处理冷启动问题时表现不佳,预测结果可能不准确

                (冷启动问题是指在数据不足或完全缺失的情况下,系统无法有效进行个性化推荐或者预测)

                ②特征过于稀疏,且没有很强的关联性,常常忽略一些潜在特征

二,基于内容的过滤算法:

        基于内容的过滤算法会基于用户的特征和项目的特征为用户推荐项目。通常需要较大的数据量,需要每个用户的一些特征以及每个项目的一些特征,以此来匹配用户和项目。(比协同过滤算法稍优,可以有效解决冷启动问题)

        补充:特征的类型:

       

        具体实现:

                ①用户和项目特征的提取:提取用户和项目的独热特征(用户:年龄,性别,国家;项目:年份,评论等)

                ②用户画像构建:基于用户历史交互物品的特征,加权生成用户偏好向量

                ③相似度计算:比较用户画像与候选物品特征的匹配程度,推荐最相似的物品

        预测用户j对电影i的评分公式: w(j)*x(i)+b(j),在基于内容过滤的算法里,b通常不会损坏其性能。

        用Vu(j)代替w(j),Vu(j)是一个向量,是从用户特征Xu(j)中计算出的向量组,下标u代表下一个用户;同理,用Vm(i)代替x(i),Vm(i)也是一个向量组,是从电影特征Xm(i)中计算出的向量组。

        使用深度学习开发基于内容的过滤算法:

        

                构建两个神经网络,用户神经网络和电影神经网络(两个神经网络的隐藏层的神经元数目可以不同)

                用户特征向量x ----> 隐藏层 ----> 用户特征向量y

                电影特征向量a ----> 隐藏层 ----> 电影特征向量b

                最后将向量y和b进行点积运算。

        示意图及其损失函数:

        

        TensorFlow实现基于内容的过滤算法:

        

import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, Dot, Flatten
from tensorflow.keras.models import Model
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

# 生成模拟数据
num_users = 1000
num_items = 100
features = 5  # 用户和物品的特征维度

# 用户特征(例如:年龄、兴趣等)
user_features = np.random.normal(size=(num_users, features))
# 物品特征(例如:类别、标签等)
item_features = np.random.normal(size=(num_items, features))
# 生成评分(0-1之间的随机值)
ratings = np.random.rand(num_users, num_items)

# 构建模型
def build_model(feature_dim):
    # 用户分支
    user_input = Input(shape=(feature_dim,), name='user_input')
    user_dense = Dense(32, activation='relu')(user_input)
    
    # 物品分支
    item_input = Input(shape=(feature_dim,), name='item_input')
    item_dense = Dense(32, activation='relu')(item_input)
    
    # 计算点积相似度
    dot_product = Dot(axes=1)([user_dense, item_dense])
    output = Flatten()(dot_product)
    
    model = Model(inputs=[user_input, item_input], outputs=output)
    return model

model = build_model(features)
model.compile(optimizer='adam', loss='mse')

# 准备训练数据(用户-物品对)
user_ids, item_ids = np.meshgrid(np.arange(num_users), np.arange(num_items))
user_ids, item_ids = user_ids.ravel(), item_ids.ravel()
ratings = ratings.ravel()

# 划分训练测试集
train_user, test_user, train_item, test_item, train_ratings, test_ratings = \
    train_test_split(user_features[user_ids], item_features[item_ids], ratings, test_size=0.2)

# 训练模型
history = model.fit(
    [train_user, train_item],
    train_ratings,
    epochs=50,
    batch_size=256,
    validation_split=0.2
)

# 可视化训练过程
plt.figure(figsize=(12, 5))

# 损失曲线
plt.subplot(1, 2, 1)
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Training History')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()

# 推荐结果可视化
plt.subplot(1, 2, 2)
sample_users = user_features[:5]
sample_items = item_features[:10]

# 生成用户-物品组合对
user_ids, item_ids = np.meshgrid(np.arange(5), np.arange(10))
predictions = model.predict([
    sample_users[user_ids.ravel()],  # 生成 (5*10, 5) 的形状
    sample_items[item_ids.ravel()]   # 生成 (5*10, 5) 的形状
])

# 将预测结果重塑为矩阵
pred_matrix = predictions.reshape(5, 10)
plt.imshow(pred_matrix, cmap='viridis')
plt.colorbar()
plt.title('User-Item Rating Predictions')
plt.xlabel('Items')
plt.ylabel('Users')

plt.tight_layout()
plt.show()
        推荐系统的高级实现: 

                检索和排序

                检索:根据用户的特征生成项目的候选列表,后将检索到的项目合并成一个列表,同时去重和用户已经观看过or购买过的项目。

                排序:获取检索到的列表,并用训练好的模型进行排序,最后向用户展示排好序的项目列表。

                注:

                检索的项目越多,推荐系统的效果越好,但是运行速度越慢。为了优化和分析算法,需要进行离线实验。 

三,强化学习:

        定义:

                让智能体(Agent)通过与环境的交互,学习最优策略,长期积累。

                只需要告诉智能体做什么,而不是告诉它怎么做

        奖励函数:

                奖励函数是定义Agent的学习目标的核心机制,向智能体及时反馈信号(奖励or惩罚),引导其逐步学习最优策略。

        奖励函数表达式:

                R=(当前状态,行为,当前状态的奖励值,新的状态)

        评判的实现(奖励函数回报的计算):

                回报:奖励的总和

                折现因子:回报+权重,通常是一个略小于1的数字

              回报的计算:

                整个过程的状态的奖励值*折现因子的次方之和。

                折现因子次方由起始状态的位置来决定,奖励值出现的越早,回报越大。

                                (类似利率)

        强化学习中决策与策略的制定:

                通过制定策略pi函数,来将任何状态s映射到最优行动a。即策略pi函数作用于状态s,告诉Agent应该采取什么行为是最优。

                强化学习的目标是找到一个策略pi函数,实现回报的最大化

        马尔可夫决策过程[Markov Decision Process(MDP)]:

       

        

        状态动作值函数(State action value function ):

                也称为Q函数(Q-function),表示在状态s下采取动作a一次,然后一最优策略行动后所能获得的回报。

                函数形式:Q(s,a)

                使用动态规划进行MDP的求解

        智能体(Agent)可以依据Q函数在不同状态下做出的最优选择来实现回报最大化

        贝尔曼方程(Bellman equation):

                用来计算状态动作值函数

                表示当前状态s下的状态动作值函数值 = 当前状态下的奖励值 + 未来可能的最大长期奖励的折扣值

       

        随机环境:

                智能体采取的行动并不一定能确定性地到达预期的状态,而是以一定概率转移到不同状态,增加了环境的不确定性和复杂性

        

        当智能体选择向左移动时,有90%的概率成功向左移动,有10%的概率向右移动

        向右移动时同理

        连续状态空间:

                指系统状态可以在某个区间内任意取值的状态,如卡车的位置,速度,角速度等

四,强化学习实现控制月球着陆器(学习状态值函数):

        核心思想:训练一个神经网络来计算或者近似状态动作函数,输入一个状态动作,并让它尝试输出Q函数

                输入向量x,包括当前的状态s和动作a

                状态s包括多个变量,着陆器的位置,角度,速度

                动作a是一个离散的动作,使用独热编码,例如”向左移动”,”点火”等

                在状态s下,使用神经网络计算 Q(s,nothing),Q(s,left),Q(s,main),Q(s,right),从而确定最优的Q函数,最后由神经网络输出

        DQN算法(或深度Q网络):

        类似递归,Q函数的值计算依赖于下一个状态的Q值

        训练过程:

                随机初始化Q值,随机选择权重 ---> 训练智能体,收集所有的状态动作值函数 ---> 使用贝尔曼方程计算目标值 ---> 更新Q值 ---> 重复,直到Q值收敛

        

        DQN算法的优化:

                法一:

                        改进神经网络结构,让神经网络同时输出四个不同动作产生的Q函数值,可以节省时间,只运行一次就可以得到四个Q值。且在用贝尔曼方程计算时,只需选择最大值即可,不必计算。

        

        法三(小批量和软更新):

                小批量:

                适用于监督学习和无监督学习,可以加快模型学习速度

                每次迭代时,选择较少的数据集进行梯度下降,而不是每次使用所有的数据集,可以减少运算量,加快速度。

                每次迭代只查看数据集的一个子集

        小批量处理在强化学习中的应用:

                从数据集中任选一个子集,用于训练神经网络。虽然训练过程中会因为数据的随机性而产生波动,但是训练速度会大幅提升。

        软更新:
                使得强化学习算法更好收敛

                传统的硬更新:直接将每次迭代的新值和新权重,新偏置直接替换原来的值和权重,偏置

                软更新:软更新并非直接替换,而是通过加权平均的方式来更新参数,减少新参数对旧参数的影响,防止出现波动


网站公告

今日签到

点亮在社区的每一天
去签到