首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

tensorflow学习率指数衰减ExponentialDecay的参数介绍与使用方法

编程知识
2024年07月17日 15:34

  本文介绍在tensorflow库中,用于动态调整神经网络的学习率的一种方法——指数衰减ExponentialDecay()策略的参数含义及其具体用法。

  在进行神经网络训练时,我们经常需要用到动态变化的学习率,其中指数衰减ExponentialDecay()策略是我们常用的一种策略。在tensorflow库中,其完整的用法是tf.keras.optimizers.schedules.ExponentialDecay(),其中的具体参数如下所示。

tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate, decay_steps, decay_rate, staircase=False, name=None
)

  首先,我们需要知道,在用了ExponentialDecay()策略后,程序将动态调整神经网络训练过程中的学习率,且这一调整是与我们当前训练的step有关的。具体关于step的解释,大家可以参考文章神经网络常见参数解释:epoch、batch、batch size、step、iteration,本文就不再赘述。

  如以下代码所示,使用ExponentialDecay()策略后,程序将依据如下的规律,基于当前训练的step,以及我们自行设定的几个参数,从而计算得到当前的学习率。其中,函数的返回值就是当前的学习率。

def decayed_learning_rate(step):
  return initial_learning_rate * decay_rate ^ (step / decay_steps)

  其中,initial_learning_rate * decay_rate ^ (step / decay_steps)就是当前学习率的计算公式。这里的initial_learning_ratedecay_rate以及decay_steps,就是我们前面提到的ExponentialDecay()函数的前3个参数。其中,initial_learning_rate是我们的初始学习率,decay_rate是学习率下降的速率,而decay_steps则是学习率下降的位置(具体含义我们稍后介绍)。此外,ExponentialDecay()策略还有两个参数,staircase表示我们在计算(step / decay_steps)时,是对结果向下取整还是取小数,默认为False,即取小数结果(具体含义我们稍后介绍);最后一个name参数,只是对当前这一学习率下降的策略加以命名,一般用不上这个参数,我们就不再介绍了。

  由此,我们可以初步知道,ExponentialDecay()函数的前4个参数都是用来计算当前的学习率的;且结合我们前面的公式initial_learning_rate * decay_rate ^ (step / decay_steps),我们可以知道,随着当前的step不断增加,decay_rate ^ (step / decay_steps)是降低的。

  接下来,我们直接带入具体的数据,来看一下这几个参数的具体作用。

  如下图所示,我们这里有一个训练数据集,其中共有193608个样本。

image

  同时,我设置了神经网络的batch size2048,那么基于前述提及的文章神经网络常见参数解释:epoch、batch、batch size、step、iteration,可知在1epoch中,我们对这193608个样本加以训练,共需要的batch数目为193608 / 2048,也就是94.54,向上取整为95,相当于需要95step。此外,我设置initial_learning_ratedecay_rate以及decay_steps分别为0.10.95以及95,且设置staircaseTrue。如下图所示。

  此时,我们就可以对每一个参数的具体含义与作用加以介绍了。首先,我们开始训练神经网络模型,即step开始从0逐步增加;但是由于我的staircaseTrue,因此只要指数(step / decay_steps)是小于1的,那么都视作0(因为当前参数设置是对结果向下取整);而由于除了0以外任何数的0次方都是1,因此此时的公式initial_learning_rate * decay_rate ^ (step / decay_steps)始终等于initial_learning_rate,也就是一直保持0.1;只有当step到达我们设置的decay_steps之后,指数(step / decay_steps)才可以成为1,使得decay_rate终于产生了效果。而在这里,由于我故意设置decay_steps95,因此按道理只要经过1epoch之后,学习率就会下降——因为前面我们计算过了,在1epoch中需要95step。那么此时,学习率就变为了0.1 * 0.95

  接下来,我们运行上述代码,训练6epoch,来验证一下学习率的变化是否如同我们的设想。

  下图为TensorBoard中,学习率随着epoch的变化。这里需要注意,我这里截图的时候开了曲线图的平滑选项,因此应该以浅色的线为准。

  上面的图因为不太全,所以或许看不出什么;我们直接将学习率变化情况导出,如下图所示。

  其中,图中的step实际上表示的是epoch,大家这里理解即可。可以看到,在epoch0时(也就是进行第一个epoch时),学习率一直为0.1;而进行到第二个epoch时——此时我们训练过程的step就应该是从95开始,但还不到190,因此(step / decay_steps)始终为1,学习率就是0.1 * 0.95 = 0.095了(因为数据格式问题,精度稍有差距);随后,进行到第三个epoch时——此时我们训练过程的step就应该是从190开始,但还不到285,因此(step / decay_steps)始终为2,学习率就已经是0.1 * 0.95 * 0.95 = 0.09025了。

  由此可知,假如我将decay_steps扩大10倍,使得其为950,那么在前10epoch时,学习率都不会发生改变,而从第11epoch开始,学习率才会开始衰减。

  这里我的参数staircase设置为True,因此会出现上述结果;相反的,如果设置为False,那么计算(step / decay_steps)时,是对结果取小数,换句话说只要step发生变化,那么当前对应的学习率也会发生变化,只不过变化的幅度会稍小一些。

  由此看到,上述学习率的变化,是符合我们的预期的。当然,上图中最后两个epoch对应的学习率没有发生变化,这个具体原因我暂时也没搞清楚;不过学习率下降作为一种策略,我们通过上述代码,还是达到了动态调整学习率的需求的。

  至此,大功告成。

From:https://www.cnblogs.com/fkxxgis/p/18307747
本文地址: http://www.shuzixingkong.net/article/102
0评论
提交 加载更多评论
其他文章 Docker通信全视角:原理、实践与技术洞察
本文全面深入地探讨了Docker容器通信技术,从基础概念、网络模型、核心组件到实战应用。详细介绍了不同网络模式及其实现,提供了容器通信的技术细节和实用案例,旨在为专业从业者提供深入的技术洞见和实际操作指南。 关注【TechLeadCloud】,分享互联网架构、云服务技术的全维度知识。作者拥有10+年
openStack核心组件的工作流程
目录openStack核心组件的工作流程1. Keystone1.1 User1.2 Credentials1.3 Authentication1.4 Token1.5 Project1.6 Service1.7 Endpoint1.8 Role1.9 keystone综述2. glance2.1
痞子衡嵌入式:瑞萨RA8系列高性能MCU开发初体验
大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是瑞萨RA8系列高性能MCU开发上手体验。 我们知道瑞萨电子的通用 MCU 产品线主要包含基于自有内核 8/16bit RL78 系列以及 32bit RX 系列,还有这两年明显增加研发投入的基于 Arm Cortex-M 内核的 RA、
痞子衡嵌入式:瑞萨RA8系列高性能MCU开发初体验 痞子衡嵌入式:瑞萨RA8系列高性能MCU开发初体验 痞子衡嵌入式:瑞萨RA8系列高性能MCU开发初体验
36岁,大龄剩男,2024上半年总结......
不知道我在等什么,也不知道这样等了多久,相信看到这句话的你,可能也是一头雾水吧! 还是以往的风格写到哪算哪,写东西真的是看感觉和心情都具备,写出来的东西才更有灵性,或者说更容易引起共鸣吧! 我在逃避? 可以这么说,但也不完全是,在一部分事情开始收尾的时候,情绪脑就占据了主导地位,就是想摆烂,什么也不
PixiJS源码分析系列:第二章 渲染在哪里开始?
第二章 渲染在哪里开始? 牢记,按第一章介绍的 npm start 启动本地调式环境才可进行调式 如果是 example 文件夹内的例子还需要 serve . 开启本地静态服务器 上一章介绍了 PixiJS 源码调式环境的安装,以及基本的调试方法。本章要研究一下它是如何渲染的 渲染大致步骤: 注册渲
PixiJS源码分析系列:第二章 渲染在哪里开始? PixiJS源码分析系列:第二章 渲染在哪里开始? PixiJS源码分析系列:第二章 渲染在哪里开始?
iOS开发基础109-网络安全
在iOS开发中,保障应用的网络安全是一个非常重要的环节。以下是一些常见的网络安全措施及对应的示例代码: Swift版 1. 使用HTTPS 确保所有的网络请求使用HTTPS协议,以加密数据传输,防止中间人攻击。 示例代码: 在Info.plist中配置App Transport Security (
利用FastAPI和OpenAI-Whisper打造高效的语音转录服务
最近好久没有写博客了,浅浅记录下如何将OpenAI-Whisper做成Web服务吧🤣 介绍 在这篇指导性博客中,我们将探讨如何在Python中结合使用FastAPI和OpenAI-Whisper。OpenAI-Whisper是一个前沿的语音识别模型,而FastAPI是一个高性能的现代
利用FastAPI和OpenAI-Whisper打造高效的语音转录服务 利用FastAPI和OpenAI-Whisper打造高效的语音转录服务 利用FastAPI和OpenAI-Whisper打造高效的语音转录服务
manim边学边做--Matrix
在代数问题中,矩阵是必不可少的工具,manim中提供了一套展示矩阵(Matrix)的模块,专门用于在动画中显示矩阵格式的数据。关于矩阵的类主要有4个: Matrix:通用的矩阵 IntegerMatrix:元素是整数的矩阵 DecimalMatrix:元素包含小数的矩阵 MobjectMatrix:
manim边学边做--Matrix manim边学边做--Matrix manim边学边做--Matrix