Dropout作为贝叶斯近似: 表示深度学习中的模型不确定性

摘要

深度学习工具在应用机器学习领域受到了极大的关注。然而,这些用于回归和分类的工具并没有捕捉到模型的不确定性。相比之下,贝叶斯模型提供了一个基于数学的框架来推理模型的不确定性,但通常会带来令人望而却步的计算成本。本文提出了一种新的理论框架,将深度神经网络中的dropout训练作为深度高斯过程中的近似贝叶斯推理。该理论的一个直接结果是为我们提供了用dropout神经网络来模拟不确定性的工具——从现有的模型中提取信息,这些信息到目前为止已经被抛弃了。这在不牺牲计算复杂性或测试准确性的情况下减轻了深度学习中表示不确定性的问题。我们对dropout不确定性的性质进行了广泛的研究。以MNIST为例,对回归和分类任务的各种网络结构和非线性进行了评估。与现有的最先进的方法相比,我们在预测对数似然和RMSE方面取得了相当大的进步,并通过消除深度强化学习中dropout的不确定性来完成。

论文:
Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning
作者:Yarin Gal Yarin Gal
单位:University of Cambridge

摘要

用于回归和分类的标准深度学习工具不能捕捉模型的不确定性。在分类中,在网络末端获得的预测概率(softmax输出)经常被错误地解释为模型置信度。即使具有很高的softmax输出,模型的预测也可能是不确定的。1).通过softmax(实线1b)传递函数的点估计(实线1a)会导致对远离训练数据的点进行不合理的高置信度外推。例如,X 将被分类为概率为1的第1类。然而,通过softmax(阴影区域1b)传递分布(阴影区域1a)可以更好地反映远离训练数据的分类不确定性。

模型不确定性对于深度学习从业者来说也是必不可少的。有了模型置信度,我们可以明确地处理不确定输入和特殊情况。例如,在分类的情况下,模型可能返回一个具有高度不确定性的结果。在这种情况下,我们可能决定将输入传递给人工进行分类。这可能发生在邮局,根据邮政编码分拣信件,或在核电厂的系统负责关键基础设施(琳达等人,2009)。不确定性在强化学习(RL)中也很重要(Szepesvari´,2010)。有了不确定性信息,智能体可以决定何时开发和何时探索其环境。RL的最新进展是利用神经网络进行q值函数逼近。这些函数用来估计代理可以采取的不同行动的质量。贪心搜索通常用于智能体以一定概率选择其最佳行为,并以其他方式进行探索。通过对智能体q值函数的不确定性估计,可以使用诸如汤普森抽样(Thompson - son, 1933)之类的技术来更快地学习。

贝叶斯概率论为我们提供了基于数学的工具来推断模型的不确定性,但这些通常伴随着令人望而却步的计算成本。我们表明,在神经网络中使用dropout(及其变体)可以被解释为一个众所周知的概率模型的贝叶斯近似:高斯过程(GP) (Rasmussen & Williams, 2006)。深度学习中的许多模型都使用Dropout来避免过拟合(Srivastava et al., 2014),我们的解释表明Dropout近似地集成了模型的权重。我们开发了工具来表示现有的dropout神经网络的模型不确定性-提取迄今为止被丢弃的信息。这在不牺牲计算复杂性和测试精度的情况下,减轻了深度学习中表示模型不确定性的问题。

在本文中,我们给出了一个完整的理论处理高斯过程和dropout之间的联系,并开发了必要的工具来表示深度学习中的不确定性。我们对dropout神经网络和convnets在回归和分类任务上获得的不确定性的性质进行了广泛的探索性评估。我们比较了不同模型结构和非线性回归中得到的不确定性,并以MNIST为具体例子说明了模型不确定性对于分类任务是必不可少的。然后,与现有的最先进的方法相比,我们展示了预测对数似然和RMSE的相当大的改进。最后,我们在一个类似于深度强化学习的实际任务中,对强化学习环境下的模型不确定性进行了定量评估。

作为贝叶斯近似的Dropout

我们表明,具有任意深度和非线性的神经网络,在每个权重层之前应用dropout,在数学上相当于概率深度高斯过程的近似值(Damianou & Lawrence, 2013)(在其协方差函数参数上被边缘化)。我们要强调的是,在文献中没有对dropout的使用进行简化假设,并且推导出的结果适用于任何使用dropout的网络架构,正如它在实际应用中出现的那样。此外,我们的研究结果也适用于其他类型的dropout。我们表明,dropout目标实际上最小化了近似分布和深度高斯过程的后验之间的Kullback-Leibler散度(在其有限秩协方差函数参数上被边缘化)。由于篇幅限制,我们请读者参阅附录,以深入回顾dropout、高斯过程和变分推理(第2节),以及dropout及其变化的主要推导(第3节)。这里总结了结果,下一节我们将获得dropout神经网络的不确定性估计。

让y为具有L层和损失函数E(·,·)的NN模型的输出,如softmax损失或欧几里得损失(平方损失)。我们用W_i表示神经网络的权重矩阵Ki × Ki-1,通过bi得到每一层i =1的Ki维偏置向量,…, l .对于1≤i≤N个数据点,我们用yi表示观察到的输出对应于输入xi,输入和输出集为X, y .在NN优化过程中经常添加正则化项。我们经常使用由一些权重衰减λ加权的L2正则化,从而产生最小化目标(通常称为成本),
在这里插入图片描述
对于dropout,我们对每个输入点和每层(除了最后一层)的每个网络单元的二进制变量进行采样。对于第1层,每个二进制变量的取值为1,概率为pi。对于给定的输入,如果对应的二进制变量的取值为0,则丢弃一个单位(即其值设置为0)。我们在反向传递中使用相同的值将导数传播到参数。

与非概率神经网络相比,深度高斯过程是统计学中一个强大的工具,它允许我们对函数上的分布进行建模。假设我们有这样的协方差函数

在这里插入图片描述
具有一些单元非线性σ(·)和分布p(w),p(b)。

在附录的第3节和第4节中,**我们展示了具有L层和协方差函数K(x, y)的深度高斯过程可以通过在gp协方差函数的谱分解的每个分量上放置变分分布来近似。**这种光谱分解将深度GP的每一层映射到显式表示的隐藏单元层,下面将简要解释。

让每一行Wi按照上面的p(w)分布。假设每个GP层的维数为Ki的向量mi。当精度参数τ> 0时,深度GP模型(有限秩协方差函数参数ω)的预测概率可参数化为
在这里插入图片描述

方程(2)中的后验分布p(ω|X, Y)是不可处理的。我们使用q(ω),一个列随机设为零的矩阵上的分布,来近似可处理后验。我们定义q(ω)为:

在这里插入图片描述
给出一些概率pi和矩阵Mi作为变分参数。二进制变量z_i,j =0对应于第i层的单位j 变分分布q(ω)是高度多模态的,在矩阵Wi的行(对应于稀疏频谱GP近似中的频率)上引起强联合相关性。

我们最小化上面的近似后验q(ω)和全深度GP的后验p(ω|X, Y)之间的KL散度。这个KL是我们的最小化目标

在这里插入图片描述
用蒙特卡罗单样本积分法近似求和中的每一项N ~ q(ω)得到一个无偏估计。
给定模型精度τ,我们将结果按常数1/τ N缩放以获得目标
在这里插入图片描述
对于精度超参数τ和长度尺度L的适当设置,我们恢复了eq.(1)。n的结果实现了伯努利分布 z i , j n z^n_{i,j} zi,jn等价于dropout情况下的二进制变量。

获取模型不确定性

在此基础上,我们得到了模型不确定性可以从dropout神经网络模型中得到的结果。根据附录2.3节,我们的近似预测分布由式给出
在这里插入图片描述
我们将进行矩匹配,并根据经验估计预测分布的前两个矩。更具体地说,我们从伯努利分布中抽取了T组实现向量在这里插入图片描述
我们估计
在这里插入图片描述
在附录中的C项之后。我们把这个蒙特卡罗估计称为MC dropout。在实践中,这相当于在网络中执行T次随机正向传递并平均结果。

这一结果已在以前的文献中作为模型平均提出。对于这个结果,我们给出了一个新的推导,它也允许我们推导出基于数学的不确定性估计。Srivastava等人(2014,第7.5节)通过经验推导得出,MC dropout可以通过平均网络的权重来近似(在测试时将每个Wi乘以pi,称为标准dropout)。

我们用同样的方法来估计第二个原始矩:
在这里插入图片描述
为了得到模型的预测方差,我们有:
在这里插入图片描述
在这里插入图片描述
它等于T的样本方差随机正向通过神经网络加上逆模型精度。
注意y *是一个行向量,因此和是外积的和。给定权重衰减λ(和我们的先验长度尺度l),我们可以从恒等式中找到模型精度在这里插入图片描述
我们可以通过eq.(2)的蒙特卡罗积分来估计我们的预测对数似然。这是对模型拟合平均值和不确定性的程度的估计(参见附录中的4.4节)。对于回归,这是由:
在这里插入图片描述
我们的预测分布q(y∗|x∗)预计是高度多模态的,上面的近似只是对其性质的一瞥。这是因为每个权重矩阵列上的近似变分分布是双峰的,因此每层权重的联合分布是多峰的附录3.2)。

注意dropout NN模型本身没有改变。为了估计预测均值和预测不确定性,我们简单地收集随机正演通过模型的结果。因此,该信息可以用于使用dropout训练的现有NN模型。此外,前向传递可以同时进行,从而使其恒定的运行时间与标准dropout相同。

实验

接下来,我们对dropout神经网络和convnets在回归和分类任务上获得的不确定性估计的性质进行了广泛的评估。我们比较了从不同模型架构和非线性中获得的不确定性,都是在额外的任务上,并以MNIST (LeCun & Cortes, 1998)为例表明模型不确定性对分类任务很重要。然后,我们表明,与现有的最先进的方法相比,使用dropout的不确定性,我们可以在预测对数似然和RMSE方面获得相当大的改进。

在这里插入图片描述
莫纳罗亚火山不同模式二氧化碳浓度数据集的预测平均值和不确定性。红色是观察到的函数(蓝色虚线的左边);蓝色是预测平均值±两个标准差(图8)。2 d)。不同深浅的蓝色代表半个标准差。用红色虚线标记的是远离数据的点:标准dropout自信地预测了该点的一个不合理的值;其他模型也预测了不敏感的值,但附加了模型对其预测不确定的信息。

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/598045.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue3工程化配置

Vue3工程化配置 目录 Vue3工程化配置创建项目vue-clivite(推荐) 快速体验2和3的差别vue3vue2 ref和reactive 创建项目 vue-cli 具体环境配置请点这里 记得新建配置时这里选vue3 vite(推荐) 注:Vite 需要 Node.js 版本 18,20 1.选定路径后再cmd输入创建…

ScienceDirect文献如何下载

ScienceDirect是爱思唯尔公司的全文数据库平台,是全球最大的科学、技术与医学全文电子资源数据库,是我们在查找外文文献常用的数据库。但是,ScienceDirect数据库的文献是需要使用权限才可获取的。如果你没有该数据库资源要如何查询下载文献呢…

likeshop多商户单商户商城_likeshop跑腿源码_likeshop物品租赁系统开源版怎么配置小程序对接?

本人是商业用户所以能持续得到最新商业版,今天我说下likeshop里面怎么打包小程序,大家得到程序时候会发现它有admin目录 app目录 server目录 这三个目录分别是做什么呢? 1.admin目录 下面都是架构文件使用得是Node.js打包得,至于…

教你快速记录每日待办事项,并提醒自己按时完成不忘记

在忙碌的日常生活中,我们经常会面临待办事项繁杂、时间紧迫的困扰。为了更高效地管理时间和任务,我们需要一个能够快速记录并准时提醒我们完成待办事项的工具。此时,敬业签这类的待办软件就成为了很多人的首选工具。 敬业签是一款功能强大的…

信息系统项目管理师0091:项目经理的能力(6项目管理概论—6.3项目经理的角色—6.3.3项目经理的能力)

点击查看专栏目录 文章目录 6.3.3项目经理的能力1.概述2.项目管理技能3.战略和商务管理技能4.领导力技能5.领导力与管理记忆要点总结6.3.3项目经理的能力 1.概述 项目经理需要重点关注三个方面的关键技能包括项目管理、战略和商务、领导力

合肥先进光源束测步进电机控制机箱接线方式

合肥先进光源束测步进电机控制方案介绍 对上篇文里的接线方式做个修订: EtherCat电机控制机箱接线规范 驱动器 控制器 接线方式 使用鸣志 STF05-ECX-H驱动器,每个机箱配8个驱动器使用汇川的H5U-1614MTD etherCat控制器每个驱动器的电源从2分8的分配端子…

AJ-Report开源数据大屏远程命令执行漏洞

文章目录 描述漏洞原理影响版本漏洞复现修复方案 描述 AJ-Report是全开源的一个BI平台,酷炫大屏展示,能随时随地掌控业务动态,让每个决策都有数据支撑。     多数据源支持,内置mysql、elasticsearch、kudu驱动,支持…

Linux基本指令(下下)

各位大佬好 ,这里是阿川的博客 , 祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 本篇博客续我之前的Linux指令(下&a…

美国站群服务器在站群管理中的防护和数据安全保障?

美国站群服务器在站群管理中的防护和数据安全保障? 美国站群服务器的防护和数据安全保障是站群管理中的关键问题。站群服务器位于美国,通常由专业的服务器提供商管理和维护,其安全性受到多方面因素的影响。 美国站群服务器在站群管理中的防护和数据安全…

流畅的python-学习笔记_一等函数

函数对象 函数也是对象,操作可像对象一般操作 高阶函数 高阶函数指接受参数为函数,或返回函数的函数 不少高阶函数在py3已经有了替代品。map, filter可通过生成式实现,reduce(在functools里)可通过sum实…

【强训笔记】day11

NO.1 思路&#xff1a;枚举&#xff0c;设一号大礼包的数量为x&#xff0c;二号大礼包的数量为y&#xff0c;用循环枚举一号大礼包的个数得到二号大礼包的数量&#xff0c;使得某一时刻axby的值最大。 代码实现&#xff1a; #include<iostream>using namespace std;lo…

存储故障后oracle报—ORA-01122/ORA-01207故障处理---惜分飞

客户存储异常,通过硬件恢复解决存储故障之后,oracle数据库无法正常启动(存储cache丢失),尝试recover数据库报ORA-00283 ORA-01122 ORA-01110 ORA-01207错误 以前处理过比较类似的存储故障case:又一起存储故障导致ORA-00333 ORA-00312恢复存储故障,强制拉库报ORA-600 kcbzib_kcr…

代码随想录打卡第14天第18天

二叉树 1 二叉树部分的一些新知 &#xff08;1&#xff09;二叉树的定义&#xff0c;C方法一定要知道&#xff0c;相对于链表而言&#xff0c;二叉树就是多了两个指针&#xff0c;即左右子节点 struct TreeNode {int val;TreeNode *left;TreeNode *right;TreeNode(int x) : …

SSL证书中DV、OV和EV有什么区别,又该如何选择

SSL&#xff08;安全套接层&#xff09;证书作为一种加密工具&#xff0c;确保了网站与其用户之间传输的信息的安全性。而在选择SSL证书时&#xff0c;我们通常会看到三种类型&#xff1a;域名验证&#xff08;DV&#xff09;、组织验证&#xff08;OV&#xff09;和扩展验证&a…

西门子数控网络IP设定配置

总结&#xff1a;menuselect-诊断-屏幕下方右翻页找到tcp/ip&#xff0c;进去选择tcp/ip诊断&#xff0c;进去选择x130网口&#xff0c;点击更改&#xff0c; 如果没有更改&#xff0c;menuselect-调试-口令&#xff0c;输入口令 sunrise 然后重新配置tcp/ip&#xff0c;配置完…

保姆级教学 基于Hexo搭建个人网站(Github)

文章目录 搭建Hexo静态博客介绍一、注册Github账号二、 安装前置软件包三、 绑定github仓库创建SSH私钥添加私钥连接Github仓库 四、安装hexo1. 更改npm镜像源2. 创建一个文件夹 在里面打开终端3. 初始化hexo 五、切换主题1. 安装主题2. 修改默认主题查看修改主题后的网站 六、…

杭州恒生面试,社招,3年经验

你好&#xff0c;我是田哥 一位朋友节前去恒生面试&#xff0c;其实面试问题大部分都是八股文&#xff0c;但由于自己平时工作比较忙&#xff0c;完全没有时间没有精力去看八股文&#xff0c;导致面试结果不太理想&#xff0c;HR说节后通知面试结果&#xff08;估计是凉了&…

vue2编写主体页面

目录 一. 导入两张图片 二. 新建主体vue 三. 修改路由 1. 新增主体界面Main.vue的路由 2. 完整router/index.js代码如下: 在Vue 2中编写一个主体页面通常意味着创建一个包含导航栏、侧边栏、内容区域等的布局。以下是使用Vue 2和Element UI框架来构建一个简单的主体页面的…

uniapp/微信小程序实现加入购物车点击添加飞到购物车动画

1、预期效果 2、实现思路 每次点击添加按钮时&#xff0c;往该按钮上方添加一个悬浮元素&#xff0c;通过位移动画将元素移到目标位置。 1. 为每个点击元素设置不同的class&#xff0c;才能通过uni.createSelectorQuery来获取每个元素的节点信息&#xff1b; 2. 添加一个与…

Springai入门

一、概述 1.1发展历史 1.2大模型 大模型&#xff0c;是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成&#xff0c;拥有数十亿甚至数千亿个参数。其设计目的在于提高模型的表达能力和预测性能&#xff0c;以应对更加复杂的任务和数据&…
最新文章