L3 结构化机器学习项目
1 机器学习策略
- 课程时长84min59s
1.1 什么是机器学习策略
- 分析机器学习方法
- 朝着最有希望的方向前进
1.2 正交化
Orthogonalization
例子:
对于电视,每个按钮调整一个参数
对于汽车,不同装置控制速度、方向
对于深度学习
- 首先在训练集上表现良好
- 训练更大的网络
- 切换更好的优化算法
- 测试开发集性能
- 增大训练集
- 测试测试集
- 增大开发集
- 在实际应用中
- 改变开发集或成本函数
对于提前停止方法 early stopping
- 同时影响了训练集和测试集
- 虽然能防范过拟合,但是不够正交
1.3 单实数评估指标
为机器学习问题设置一个单实数评估指标
- 准确率 Precision:分类为X中有多少实际为X
- 召回率 Recall:X类型中有多少被分类为X
- F1分数:准确率和召回率的调和平均数
1.4 满足和优化指标
结合运行时间和准确率
- 选择一个分类器,满足时间指标的同时,准确率最高
对于N个参数
- 1个优化指标
- N-1个满足指标
1.5 训练集、开发集、测试集的划分
dev集:开发集、保留交叉验证集
开发集和测试集要保证相同分布
- 瞄准相同的目标进行实验
1.6 开发集和测试集的大小
传统机器学习,小数据集训练
- 73划分
- 622划分
大数据集训练
- 98 1 1划分
1.7 什么时候改变开发集、测试集评估指标
- 举例子的猫猫分类,讲到了瑟琴图片,因为pussy吗(确信
- 使用更大的惩罚权重,保证不会出现相应结果
对于猫猫图片anti-porn的正交化步骤
- 定义指标
- 优化系统提高指标评分
如果在dev集/test集表现较好,但是实际应用中表现不佳
- 修改指标
- 修改dev集/test集
1.8 为什么是人的表现
比较机器系统和人的表现
- 算法接近人类表现
- 机器学习效率更高
贝叶斯最优错误率:理论上的最优错误率,无法超过
对于人类较为擅长的任务,ML弱于人类时:
- 人工标识数据
- 人工错误率分析
- 分析偏差和方差
1.9 可避免误差
人工表现好于ML:
- 减小偏差
- 训练更大的网络
- 更久的梯度下降
人工表现接近ML:
- 减少方差
- 正则化
可避免误差:贝叶斯最优错误率和实际错误率之间的差值,非官方用语
1.10 理解人的表现
人工错误率估算贝叶斯最优错误率
- 人工错误率使用人工最优情况
- 接近人类水平时,ML优化变得困难
- 因为不知道是否需要继续拟合训练集
优化中:
- 人工错误率与训练集错误率优化:使用偏差
- 训练集错误率与开发集错误率优化:使用方差
1.11 超越人类水平
接近人类水平时,ML优化变得困难
- 因为不知道是否需要继续拟合训练集
- 不确定优化方差还是优化偏差
一些ML做的更好的:
- 网上广告推送
- 产品推荐
- 物流预测
- 贷款偿还预测
- 从结构化的数据训练获取,不是自然感知问题
- 人类在自然感知问题中表现更好
1.12 改善你的模型表现
指导方针
- 算法对训练集表现很好
- 可避免偏差较小
- 训练集、开发集、测试集标键较好
- 可避免方差较小
减小偏差和方差
- 估算可避免偏差/方差
- 减小偏差
- 更大的模型
- 更好的优化算法
- 更好的神经网络架构/超参数
- 减小方差
- 更多的数据
- 正则化
- 不同的神经网络架构/超参数
本文含有隐藏内容,请 开通VIP 后查看