首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

机器学习:详解什么是端到端的深度学习?(What is end-to-end deep learning?)

编程知识
2024年07月25日 08:50

什么是端到端的深度学习?

深度学习中最令人振奋的最新动态之一就是端到端深度学习的兴起,那么端到端学习到底是什么呢?简而言之,以前有一些数据处理系统或者学习系统,它们需要多个阶段的处理。那么端到端深度学习就是忽略所有这些不同的阶段,用单个神经网络代替它。

来看一些例子,以语音识别为例,目标是输入\(x\),比如说一段音频,然后把它映射到一个输出\(y\),就是这段音频的听写文本。所以传统上,语音识别需要很多阶段的处理。首先会提取一些特征,一些手工设计的音频特征,也许听过MFCC,这种算法是用来从音频中提取一组特定的人工设计的特征。在提取出一些低层次特征之后,可以应用机器学习算法在音频片段中找到音位,所以音位是声音的基本单位,比如说“Cat”这个词是三个音节构成的,Cu-Ah-Tu-,算法就把这三个音位提取出来,然后将音位串在一起构成独立的词,然后将词串起来构成音频片段的听写文本。

所以和这种有很多阶段的流水线相比,端到端深度学习做的是,训练一个巨大的神经网络,输入就是一段音频,输出直接是听写文本。AI的其中一个有趣的社会学效应是,随着端到端深度学习系统表现开始更好,有一些花了大量时间或者整个事业生涯设计出流水线各个步骤的研究员,还有其他领域的研究员,不只是语言识别领域的,也许是计算机视觉,还有其他领域,他们花了大量的时间,写了很多论文,有些甚至整个职业生涯的一大部分都投入到开发这个流水线的功能或者其他构件上去了。而端到端深度学习就只需要把训练集拿过来,直接学到了\(x\)\(y\)之间的函数映射,直接绕过了其中很多步骤。对一些学科里的人来说,这点相当难以接受,他们无法接受这样构建AI系统,因为有些情况,端到端方法完全取代了旧系统,某些投入了多年研究的中间组件也许已经过时了。

事实证明,端到端深度学习的挑战之一是,可能需要大量数据才能让系统表现良好,比如,只有3000小时数据去训练语音识别系统,那么传统的流水线效果真的很好。但当拥有非常大的数据集时,比如10,000小时数据或者100,000小时数据,这样端到端方法突然开始很厉害了。所以当数据集较小的时候,传统流水线方法其实效果也不错,通常做得更好。需要大数据集才能让端到端方法真正发出耀眼光芒。如果数据量适中,那么也可以用中间件方法,可能输入还是音频,然后绕过特征提取,直接尝试从神经网络输出音位,然后也可以在其他阶段用,所以这是往端到端学习迈出的一小步,但还没有到那里。

这张图上是一个研究员做的人脸识别门禁,是百度的林元庆研究员做的。这是一个相机,它会拍下接近门禁的人,如果它认出了那个人,门禁系统就自动打开,让他通过,所以不需要刷一个RFID工卡就能进入这个设施。系统部署在越来越多的办公室,可以接近门禁,如果它认出脸,它就直接让通过,不需要带RFID工卡。

那么,怎么搭建这样的系统呢?可以做的第一件事是,看看相机拍到的照片,对吧?想画的不太好,但也许这是相机照片,知道,有人接近门禁了,所以这可能是相机拍到的图像\(x\)。有件事可以做,就是尝试直接学习图像\(x\)到人物\(y\)身份的函数映射,事实证明这不是最好的方法。其中一个问题是,人可以从很多不同的角度接近门禁,他们可能在绿色位置,可能在蓝色位置。有时他们更靠近相机,所以他们看起来更大,有时候他们非常接近相机,那照片中脸就很大了。在实际研制这些门禁系统时,他不是直接将原始照片喂到一个神经网络,试图找出一个人的身份。

相反,迄今为止最好的方法似乎是一个多步方法,首先,运行一个软件来检测人脸,所以第一个检测器找的是人脸位置,检测到人脸,然后放大图像的那部分,并裁剪图像,使人脸居中显示,然后就是这里红线框起来的照片,再喂到神经网络里,让网络去学习,或估计那人的身份。

研究人员发现,比起一步到位,一步学习,把这个问题分解成两个更简单的步骤。首先,是弄清楚脸在哪里。第二步是看着脸,弄清楚这是谁。这第二种方法让学习算法,或者说两个学习算法分别解决两个更简单的任务,并在整体上得到更好的表现。

顺便说一句,如果想知道第二步实际是怎么工作的,这里其实省略了很多。训练第二步的方式,训练网络的方式就是输入两张图片,然后网络做的就是将输入的两张图比较一下,判断是否是同一个人。比如记录了10,000个员工ID,可以把红色框起来的图像快速比较……也许是全部10,000个员工记录在案的ID,看看这张红线内的照片,是不是那10000个员工之一,来判断是否应该允许其进入这个设施或者进入这个办公楼。这是一个门禁系统,允许员工进入工作场所的门禁。

为什么两步法更好呢?实际上有两个原因。一是,解决的两个问题,每个问题实际上要简单得多。但第二,两个子任务的训练数据都很多。具体来说,有很多数据可以用于人脸识别训练,对于这里的任务1来说,任务就是观察一张图,找出人脸所在的位置,把人脸图像框出来,所以有很多数据,有很多标签数据\((x,y)\),其中\(x\)是图片,\(y\)是表示人脸的位置,可以建立一个神经网络,可以很好地处理任务1。然后任务2,也有很多数据可用,今天,业界领先的公司拥有,比如说数百万张人脸照片,所以输入一张裁剪得很紧凑的照片,比如这张红色照片,下面这个,今天业界领先的人脸识别团队有至少数亿的图像,他们可以用来观察两张图片,并试图判断照片里人的身份,确定是否同一个人,所以任务2还有很多数据。相比之下,如果想一步到位,这样\((x,y)\)的数据对就少得多,其中\(x\)是门禁系统拍摄的图像,\(y\)是那人的身份,因为没有足够多的数据去解决这个端到端学习问题,但却有足够多的数据来解决子问题1和子问题2。

实际上,把这个分成两个子问题,比纯粹的端到端深度学习方法,达到更好的表现。不过如果有足够多的数据来做端到端学习,也许端到端方法效果更好。但在今天的实践中,并不是最好的方法。

再来看几个例子,比如机器翻译。传统上,机器翻译系统也有一个很复杂的流水线,比如英语机翻得到文本,然后做文本分析,基本上要从文本中提取一些特征之类的,经过很多步骤,最后会将英文文本翻译成法文。因为对于机器翻译来说的确有很多(英文,法文)的数据对,端到端深度学习在机器翻译领域非常好用,那是因为在今天可以收集\(x-y\)对的大数据集,就是英文句子和对应的法语翻译。所以在这个例子中,端到端深度学习效果很好。

最后一个例子,比如说希望观察一个孩子手部的X光照片,并估计一个孩子的年龄。知道,当第一次听到这个问题的时候,以为这是一个非常酷的犯罪现场调查任务,可能悲剧的发现了一个孩子的骨架,想弄清楚孩子在生时是怎么样的。事实证明,这个问题的典型应用,从X射线图估计孩子的年龄,是想太多了,没有想象的犯罪现场调查脑洞那么大,结果这是儿科医生用来判断一个孩子的发育是否正常。

处理这个例子的一个非端到端方法,就是照一张图,然后分割出每一块骨头,所以就是分辨出那段骨头应该在哪里,那段骨头在哪里,那段骨头在哪里,等等。然后,知道不同骨骼的长度,可以去查表,查到儿童手中骨头的平均长度,然后用它来估计孩子的年龄,所以这种方法实际上很好。

相比之下,如果直接从图像去判断孩子的年龄,那么需要大量的数据去直接训练。据所知,这种做法今天还是不行的,因为没有足够的数据来用端到端的方式来训练这个任务。

可以想象一下如何将这个问题分解成两个步骤,第一步是一个比较简单的问题,也许不需要那么多数据,也许不需要许多X射线图像来切分骨骼。而任务二,收集儿童手部的骨头长度的统计数据,不需要太多数据也能做出相当准确的估计,所以这个多步方法看起来很有希望,也许比端对端方法更有希望,至少直到能获得更多端到端学习的数据之前。

所以端到端深度学习系统是可行的,它表现可以很好,也可以简化系统架构,让不需要搭建那么多手工设计的单独组件,但它也不是灵丹妙药,并不是每次都能成功。

From:https://www.cnblogs.com/oten/p/18322366
本文地址: http://www.shuzixingkong.net/article/400
0评论
提交 加载更多评论
其他文章 深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略
GaussDB(for MySQL)通过自研并行查询(PQ)和计算下推(NDP)特性,解决了大表COUNT慢的问题,典型场景下,相比MySQL并行扫描主键性能可提升超过80倍。
深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略 深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略 深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略
涨见识了!脱离vue项目竟然也可以使用响应式API
前言 vue3的响应式API大家应该都特别熟悉,比如ref、watch、watchEffect等。平时大家都是在vue-cli或者vite创建的vue项目里面使用的这些响应式API,今天欧阳给大家带来一些不一样的。脱离vue项目,在node.js项目中使用vue的响应式API。 关注公众号:【前端欧
涨见识了!脱离vue项目竟然也可以使用响应式API 涨见识了!脱离vue项目竟然也可以使用响应式API 涨见识了!脱离vue项目竟然也可以使用响应式API
【VMware VCF】VMware Cloud Foundation Part 04:准备 ESXi 主机。
VMware Cloud Foundation 管理域部署要求至少准备 4 台 ESXi 主机作为最小计算单元,如果采用整合部署(管理域和 VI 工作负载域合并),还需要根据实际情况适量增加 ESXi 计算主机。但是,对于测试学习来说,我们不需要准备这么多物理主机,可以采用嵌套虚拟化部署的方式来完成
【VMware VCF】VMware Cloud Foundation Part 04:准备 ESXi 主机。 【VMware VCF】VMware Cloud Foundation Part 04:准备 ESXi 主机。 【VMware VCF】VMware Cloud Foundation Part 04:准备 ESXi 主机。
【数学建模导论】Task01 数据处理与拟合模型
0 前言 感谢 DataWhale 的开源学习课程 intro-mathmodel,项目仓库在这。 现在开始,跟着Task01 进入数据类的学习,实现每一个代码,包括数据预处理、回归分析与分类分析、假设检验、随机过程与随机模拟、数据可视化图表、三种插值模型。 本篇是知识的梳理和总结,用以更好地食用教
【数学建模导论】Task01 数据处理与拟合模型 【数学建模导论】Task01 数据处理与拟合模型 【数学建模导论】Task01 数据处理与拟合模型
PHP转Go系列 | 推荐一个强大的Go语言工具函数库
从 PHP 转到 Go 的朋友,常常会因为没有便捷的工具函数而感到苦恼。PHP 写的多了就会形成路径依赖,在写 Go 的时候时不时就会想到 PHP 强大的数组函数。
PHP转Go系列 | 推荐一个强大的Go语言工具函数库 PHP转Go系列 | 推荐一个强大的Go语言工具函数库
elasticdump数据迁移与内外网安装
elasticdump数据迁移与内外网安装 一、安装node 首先获取安装包 wget https://nodejs.org/dist/v16.14.0/node-v16.14.0-linux-x64.tar.xz tar axf node-v16.14.0-linux-x64.tar.xz -C
学了十几种编程语言后,我终于悟了!
我为什么要学这么多编程语言?是怎么学习的?学了这么多语言对我有哪些好处和坏处?现在我们到底应不应该学多门语言呢?
学了十几种编程语言后,我终于悟了! 学了十几种编程语言后,我终于悟了! 学了十几种编程语言后,我终于悟了!
.NET 轻量级 命令行工具 CSharpRepl
前言 当我们需要快速测试代码片段时,常见的做法是启动Visual Studio或使用在线代码编辑器。然而,Visual Studio的启动可能较为缓慢且占用较多系统资源,而在线编辑器则可能遇到语法支持局限或网络延迟问题。 为解决这个问题,给大家推荐一款轻量级的本地C#执行工具——CSharpRepl
.NET 轻量级 命令行工具 CSharpRepl .NET 轻量级 命令行工具 CSharpRepl .NET 轻量级 命令行工具 CSharpRepl