0%

深度学习模型拟合的关键问题

21027w3_摘要卡 深度学习模型拟合的关键问题

摘要

在深度学习中,我们“训练”模型,不断更新它们,使它们在看到越来越多的数据时变得越来越好。

通常情况下,变得更好意味着最小化一个 损失函数(loss function),即一个衡量“我们的模型有多糟糕”这个问题的分数。

最终,我们真正关心的是生成一个能够在我们从未见过的数据上表现良好的模型。但我们只能将模型与我们实际能看到的数据相拟合。

因此,我们可以将拟合模型的任务分解为两个关键问题:

(1)优化(optimization):用模型拟合观测数据的过程;

(2)泛化(generalization):数学原理和实践者的智慧,能够指导我们生成出有效性超出用于训练的数据集本身的模型。

启发

区别于传统的基于规则(演绎法)的解决问题方式,深度学习将问题转化为一个归纳问题(优化),不是通过规则直接计算全局最优解,而是通过数据驱动的方式去逼近一个局部最优解。

这个事能成立,我想这里隐含了几个假设:

  1. 为了覆盖更多的情况,数据要能覆盖要足够多的情况
  2. 观测数据的属性/分布要与真实世界的类似(比如不同设备采集出来的数据属性可能不一致)
  3. 实践者的智慧是不是意味着:泛化问题是一个实验试错的过程,没法完全解释为什么能work,所谓“炼丹”是也。

最终的结局,我想要根据实际要解决的问题:

  1. 问题不是很复杂:有足够的数据,通过拟合已经可以很好地解决问题,比如基于图像的分类/物体检测等。

  2. 问题很复杂:没有足够的数据,或者无法采集足够的数据,永远在优化的路上,比如L4/5自动驾驶。

有没有可能:深挖拟合/归纳(bottom-up)发现的规律,从而可以通过演绎法(top-down)来指导解决问题,或者是演绎跟归纳法的结合。

出处:李沐 《动手学深度学习》2.4.微分