

神经网络的损失函数为什么是非凸的?
source link: https://www.tuicool.com/articles/RreM3mi
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

加入极市 专业CV交流群,与 6000+来自腾讯,华为,百度,北大,清华,中科院 等名企名校视觉开发者互动交流!更有机会与 李开复老师 等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。 关注 极市平台 公众号 , 回复 加群, 立刻申请入群~
作者:覃含章
https://www.zhihu.com/question/265516791/answer/769005628
来源:知乎,已获作者授权转载,禁止二次转载。
简单说下这个问题吧。
考虑最简单的一类神经网络,只有一个隐层、和输入输出层的网络。 也就是说给定 组样本 ,我们网络的经验损失函数可以写成:
、 就是我们要优化的权重: 代表输入层到隐层的权重, 代表隐层到输出层的权重。 这里我们取  损失函数和ReLU作为我们的激活函数。 即上式中(用  代表对向量每一个元素取max)
注意到虽然像取平方,ReLU激活函数  ,求内积这些“函数”单独来看都是凸的,但他们这么一复合之后就不一定是凸的了。 一些常见的判断凸函数的方法请见:
怎么判断一个优化问题是凸优化还是非凸优化?
(文章链接: https://www.zhihu.com/question/334515180/answer/748981244)
为了方便说明 这个函数是非凸的,我们需要一个经典引理: 一个高维凸函数可以等价于无数个一维凸函数的叠加。
一个(高维)函数是凸的,当且仅当把这个函数限制到任意直线上它在定义域上仍然是凸的。 这是凸分析里很基本的一个定理,不熟悉的同学不妨尝试用定义来证明它。
更正式的来说,
引理: 是凸的,当且仅当
 对任意 ,
,关于 是凸的。
反过来也就是说,只要我们找到一点 ,和一个“方向” ,使得这个 函数非凸就可以了! 回顾一维凸函数的定义,这就是说在这个方向上找到两个点,他们平均的函数值比他们平均值上的函数值要低就行了!
最后就是轻松愉快的画图举反例环节。 这边为了说明方便,取参数空间为四维的 。 不过这种思路其实对任意维度的  都成立,只要画图的时候任选两个维度就好(把其它维度的值固定住)。
这里我们取真实的  。 然后均匀随机地生成
 个  (二维的[0,1]均匀随机向量),  就用 
生成,
是[0,0.5]的均匀随机数(这样图像看起来会比较规整)。 我们固定住  ,画出采样出来的  在 
上的图像:

如上红线,我们可以很轻松的找到一条使  “非凸”的线,因此证明完毕: 是非凸的。
这个本质上就是 @陈泰红 (https://www.zhihu.com/people/chenhong007/activities)答案中提到Goodfellow在Quora说的思路: “plot a cross-section of the function and look at it”,而它的正确性就是这边的引理所保证的。 注意到这边如果你要用求导大法是不太容易的,因为隐层套的是ReLU激活函数,只能求次微分,看起来会稍微麻烦一些。
-End-
添加极市小助手微信 (ID : cv-mart) ,备注: 研究方向-姓名-学校/公司-城市 (如:目标检测-小极-北大-深圳),即可申请加入 目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群 ,更有每月 大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流 , 一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台
觉得有用麻烦给个在看啦~
Recommend
-
53
在小米未真正上市之前,这场赌约的输与赢,现在谈论还为时过早,一个企业巨头,一个后起之秀,两相碰撞,必会有无限的机遇与可能。
-
79
同城货运是非多,回归服务并非货拉拉的定心丸?
-
27
对于平民百姓来说,它不仅仅是通往大学的独木桥,更是社会阶层向上流动的通天梯。
-
46
北京时间7月26日晚,拼多多在上海、纽约同时敲钟,正式登陆美国纳斯达克市场。经过一个多小时的交易撮合,晚10时59分左右,拼多多股票正式开盘...
-
94
简单说下这个问题吧。考虑最简单的一类神经网络,只有一个隐层、和输入输出层的网络。也就是说给定 组样…
-
22
文丨显微故事,作者丨常宁宁,编辑丨万芳 直播火了,在直播上做教育的人也火了。 教育短视频的爆发背后,是暴增的线上教育需...
-
10
本文内容: 什么是数据库 什么是关系型数据库 什么是非关系型数据库 就是些基础常识的东西,以前读书那会也学过些,就重新收集记录下 什么是数据库? 数据库是数据的仓库。 与普通的“...
-
9
什么是非功能性需求?如何定义非功能性需求?
-
4
大家好,我是煎鱼。初入 Go 语言的大门,有不少的小伙伴会快速的 3 天精通 Go,5 天上手项目,14 天上线业务迭代,21 天排查、定位问题,顺带捎个反省报告。其中最常见的初级错误,Go 面试较最爱问的问题之一:(来自读者的提问)...
-
6
本文转自雷锋网,如需转载请至雷锋网官网申请授权。今天我想要与大家分享的是深度神经网络的工作方式,以及深度神经与“传统”机器学习模型的不同之处。我的计划具体如下:首先简单地思考一下如何将问题设置成分类的形式;接下来回顾...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK