

数值计算:前向和反向自动微分(Python实现) - orion-orion
source link: https://www.cnblogs.com/orion-orion/p/17010353.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

1 自动微分
我们在《数值分析》课程中已经学过许多经典的数值微分方法。许多经典的数值微分算法非常快,因为它们只需要计算差商。然而,他们的主要缺点在于他们是数值的,这意味着有限的算术精度和不精确的函数求值,而这些都从根本上限制了求解结果的质量。因此。充满噪声的、复杂多变的函数很难得到精准的数值微分。
自动微分技术(称为“automatic differentiation, autodiff”)是介于符号微分和数值微分的一种技术,它是在计算效率和计算精度之间的一种折衷。自动微分不受任何离散化算法误差的约束,它充分利用了微分的链式法则和其他关于导数的性质来准确地计算它们。
2 前向自动微分
我们先来计算简单的前向自动微分。假设我们有两个变量u和v,使用浮点数存储。我们将变量u′=du/dt和v′=dv/dt和这些变量一起存储,这里t是独立的变量。在一些程序设计语言(如Python)中,我们可以选择定义一种新的数据类型来存储[u,u′]和[v,v′]这类数对。我们可以在这些数对上定义一种代数运算,这些代数运算编码了一些经典的操作:
在进行前向自动微分之前,我们需要先将计算f(t)所产生的操作序列表示为计算图。接着,采用自底向上的递推算法的思想,从做为递推起点的数对t≡[t0,1](因为dt/dt=1)开始,我们能够按照我们上述编码规则同时对函数f(t)和它的导数f′(t)进行求值。我们在编程语言中可以选择令数对重载运算符,这样额外的求导数运算就可以对用户透明地执行了。
例1 比如,对于函数f(x)=exp(x2−x)/x,想要依次计算dyi/dx(这里yi为所有计算中间项)。则我们先从x开始将表达式分解为计算图:
然后前向递推地按照我们之前所述的编码规则来进行求导
注意链式法则(chain rule)告诉我们:
所以我们对
事实上,我们也能够处理有多个输入的函数g:
多元微分链式法则如下:
比如,对于
下面展示了一个对二元函数模拟前向自动微分的过程。
例2 设f(x1,x2)=x1⋅exp(x2)−x1,模拟前向微分过程。
接下来我们看如何用Python代码来实现单变量函数的前向自动微分过程。为了简便起见,我们下面只编码了几个常用的求导规则。
import math
class Var:
def __init__(self, val, deriv=1.0):
self.val = val
self.deriv = deriv
def __add__(self, other):
if isinstance(other, Var):
val = self.val + other.val
deriv = self.deriv + other.deriv
else:
val = self.val + other
deriv = self.deriv
return Var(val, deriv)
def __radd__(self, other):
return self + other
def __sub__(self, other):
if isinstance(other, Var):
val = self.val - other.val
deriv = self.deriv - other.deriv
else:
val = self.val - other
deriv = self.deriv
return Var(val, deriv)
def __rsub__(self, other):
val = other - self.val
deriv = - self.deriv
return Var(val, deriv)
def __mul__(self, other):
if isinstance(other, Var):
val = self.val * other.val
deriv = self.val * other.deriv + self.deriv * other.val
else:
val = self.val * other
deriv = self.deriv * other
return Var(val, deriv)
def __rmul__(self, other):
return self * other
def __truediv__(self, other):
if isinstance(other, Var):
val = self.val / other.val
deriv = (self.deriv * other.val - self.val * other.deriv)/other.val**2
else:
val = self.val / other
deriv = self.deriv / other
return Var(val, deriv)
def __rtruediv__(self, other):
val = other / self.val
deriv = other * 1/self.val**2
return Var(val, deriv)
def __repr__(self):
return "value: {}\t gradient: {}".format(self.val, self.deriv)
def exp(f: Var):
return Var(math.exp(f.val), math.exp(f.val) * f.deriv)
例如,我们若尝试计算函数f(x)=exp(x2−x)/x在x=2.0处的导数f′(2.0)如下:
fx = lambda x: exp(x*x - x)/x
df = fx(Var(2.0))
print(df)
打印输出:
value: 3.694528049465325 deriv: 9.236320123663312
可见,前向过程完成计算得到f(2.0)≈3.69, f′(2.0)≈9.24。
3 反向自动微分
我们前面介绍的前向自动微分方法在计算y=f(t)的时候并行地计算f′(t)。接下来我们介绍一种“反向”自动微分方法,相比上一种的方法它仅需要更少的函数求值,不过需要以更多的内存消耗和更复杂的实现做为代价。
同样,这个技术需要先将计算f(t)所产生的操作序列表示为计算图。不过,与之前的从dt/dt=1开始,然后往dy/dt方向计算不同,反向自动求导算法从dy/dy=1开始并且按与之前同样的规则往反方向计算,一步步地将分母替换为dt。反向自动微分可以避免不必要的计算,特别是当y是一个多元函数的时候。例如,对f(t1,t2)=f1(t1)+f2(t2),反向自动微分并不需要计算f1关于t2的微分或f2关于t1的微分。
例3 设f(x1,x2)=x1⋅exp(x2)−x1,模拟反向自动微分过程。
可见若采用反向自动微分,我们需要存储计算过程中的所有东西,故内存的使用量会和时间成正比。不过,在现有的深度学习框架中,对反向自动微分的实现进行了进一步优化,我们会在深度学习专题文章中再进行详述。
自动微分被广泛认为是一种未被充分重视的数值技术, 它可以以尽量小的执行代价来产生函数的精确导数。它在软件需要计算导数或Hessian来运行优化算法时显得格外有价值,从而避免每次目标函数改变时都去重新手动计算导数。当然,做为其便捷性的代价,自动微分也会带来计算的效率问题,因为在实际工作中自动微分方法并不会去化简表达式,而是直接应用最显式的编码规则。
-
[1] Solomon J. Numerical algorithms: methods for computer vision, machine learning, and graphics[M]. CRC press, 2015.
-
[2] S&DS 631: Computation and Optimization Automatic Differentiation
__EOF__
Recommend
-
55
简介 机器学习工具包(PyTorch/TensorFlow)一般都具有自动微分(Automatic Differentiation)机制,自动微分方法包括
-
13
当前,PyTorch、TensorFlow等机器学习框架已经成为了人们开发的重要工具。计算反向传播、贝叶斯推理、不确定性量化和概率编程等算法的梯度时,我们需要把所有的代码以微分型写入框架内。这对于将机器学习引入新领域带来了问题:在物理模拟、游戏引...
-
7
撰文 |
-
12
5.3. 自动微分¶ 上一节,我们介绍了机器学习框架的中间表示,设计这些中间表示的最核心的目的之一便是服务于自动微分...
-
7
第一篇自动微分原理文章中我们大概初步谈了谈从手动微分到自动微分的过程,第二篇自动微分正反模式中深入了自动微分...
-
1
前言微分系统在工程项目中很常见,通过物理建模之后,基本都需要求解微分方程得到其结果,混沌系统属于特殊的一类微分系统,在某些项目上也很常见,同时可以引申出分岔图、李雅普诺夫指数谱、相图、庞加莱截面等,本文探讨通过matlab常见的...
-
6
撰文 | 郑建华 更新|...
-
6
图解自动微分的正向模式和逆向模式 自动微分建立在复合函数求导的链式规则之上,考虑以下复合函数 f(x)=a(b(c(x))) 则 f 对 x 的导数为 dfdx=dfdadadbdbdcdcdx 显然,上述公式存在两种计算顺序,第一种先对高阶函...
-
6
自动微分(Automatic Differentiation,下面简称 AD)是用来计算偏导的一种手段,在深度学习框架中广泛使用(如 Pytorh, Tensorflow)。最近想学习这些框架的实现,先从 AD 入手,框架的具体实现比较复杂,我们主要是理解 AD 的思想并做个简单的实现。
-
8
自动微分(Automatic Differentiation):实现篇前情提要:在算法篇中,我们介绍了深度学习领域基本都是使用自动微分(Automati...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK