2019-05-13发表2021-05-08更新学习17 分钟读完 (大约2614个字)

《深度学习入门：基于Python的理论与实现》

感知机

感知机接收多个输入信号,输出一个信号。下图是一个接收两个输入信号的感知机的例子。

感知机

上述内容用数学公式表达：

式2.1

其中，w - 权重，x - 输入信号，theta - 阀值

导入权重与偏置

将theta换为 -b

式2.2

b: 偏置，调整神经元被激活的容易程度
w: 控制输入信号重要程度的参数。

(y = wx + b)

激活函数

将输入信号的总和转换为输出信号，这种函数被称为激活函数。
常用的激活函数：

阶跃函数
sigmoid函数
ReLU函数(Rectified Linear Unit)

sigmoid函数

式3.6

exp(-x)表示以e为底，-x作为自变量的函数。对应的py实现：

1 2	def sigmoid(x): return 1 / (1 + np.exp(-x))

ReLU函数

式3.7

对应的py实现：

1 2	def relu(x): return np.maximum(0, x)

输出层的设计

神经网络可以用在分类问题和回归问题上。需要根据情况改变输出层的激活函数，一般而言，分类问题用softmax函数，回归问题用恒等函数。

softmax函数

softmax函数将输入值进行正规化处理后再输出。
式3.10

exp(x) 是表示以e为底，x为变量的指数函数。a表示输入信号。

针对溢出问题改进的softmax函数

式3.11

这里的 C‘可以使用任何值,但是为了防止溢出,一般会使用输入信号中的最大值。对应的py实现:

def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # 溢出对策
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

损失函数

表示神经网络性能的“恶劣程度”的指标,即当前的
神经网络对监督数据在多大程度上不拟合,在多大程度上不一致。给损失函数乘上一个负值,就可以解释为“在多大程度上不坏”,
即“性能有多好”。这个损失函数可以使用任意函数,
但一般用均方误差和交叉熵误差等。

均方误差

式4.1

这里,y 是表示神经网络的输出,t 表示监督数据,k 表示数据的维数。对应的py实现：

1 2	def mean_squared_error(y, t): return 0.5 * np.sum((y-t)**2)

将正确解标签表示为 1,其他标签表示为 0 的表示方法称为 one-hot 表示。

交叉熵误差

式4.2

这里,log 表示以 e 为底数的自然对数。当正确解标签为one-hot表示时，式(4.2)实际上只计算对应正确解标签的输出的自然对数。对应的py实现：

1
2
3

def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y + delta))

梯度

由全部变量的偏导数汇总而成的向量称为**梯度(gradient)**。梯度表示的是各点处的函数值减小最多的方向。（表示损失函数的值减小的最多方向）。对应的py实现：

def numerical_gradient(f, x):
    h = 1e-4 # 0.0001
    grad = np.zeros_like(x) # 生成和 x 形状相同的数组

    for idx in range(x.size):
        tmp_val = x[idx]

        # f(x+h) 的计算
        x[idx] = tmp_val + h
        fxh1 = f(x)
        
        # f(x-h) 的计算
        x[idx] = tmp_val - h
        fxh2 = f(x)
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val # 还原值
    return grad

梯度法：断地沿梯度方向前进,逐渐减小函数值的过程。

式(4.7)是表示更新一次的式子,这个步骤会反复执行。也就是说,每
一步都按式(4.7)更新变量的值,通过反复执行此步骤,逐渐减小函数值。

用数学形式表示梯度法：

式4.7

η 表示更新量,在神经网络的学习中,称为学习率。学习率决定在一次学习中,应该学习多少,以及在多大程度上更新参数。

学习率需要事先确定为某个值,比如 0.01 或 0.001。一般而言,这个值
过大或过小,都无法抵达一个“好的位置”。在神经网络的学习中,一般会
一边改变学习率的值,一边确认学习是否正确进行了。
梯度下降法的py实现：

def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x
    
    for i in range(step_num):
        grad = numerical_gradient(f, x)
        x -= lr * grad

    return x

参数 f 是要进行最优化的函数, init_x 是初始值, lr 是学习率 learning rate, step_num 是梯度法的重复次数。 numerical_gradient(f,x) 会求函数的梯度,用该梯度乘以学习率得到的值进行更新操作,由 step_num 指定重复的次数。

卷积神经网络（Convolutional Neural Network）

CNN与之前介绍的神经网络一样，不过新出现了卷积层（Convolution层）和池化层（Pooling层）。CNN的一个例子，如下图所示。

图7-2

卷积运算

卷积层进行的处理就是卷积运算。卷积运算相当于图像处理中的“滤波器运算”。

图7-3

假设用(height,width)表示数据和滤波器的形状，则在本例中，输入大小是(4,4)，滤波器大小是(3,3)，输出大小是(2,2)。

图7-4展示了卷积运算的计算顺序。对于输入数据，卷积运算以一定间隔滑动滤波器的窗口并应用。这里所说的窗口是指图7-4中灰色的3x3的部分。如图7-4所示，将各个位置上滤波器的元素和输入的对应元素相乘，然后再求和（有时将其称为乘积累加运算）。然后，将这个结果保存到输出的对应位置。将这个过程在所有位置都进行一遍，就可以得到卷积运算的输出。

图7-4 卷积的运算顺序