主页 返回 进入列表

  • 总根 >计算机与教育 >课程 >高等教育课程 >本科课程 >模式识别与人工智能 >zstu-(2021-2022)-1 >学生作业目录 >2019339964031王赵宇

  • 作业三:详细描述各激活函数与损失函数的优缺点和应用场景。

    激活函数


    sigmoid函数

    • 优点:在于输出映射在(0,1)范围内,单调连续,适合用作输出层,求导容易

    • 缺点:一旦输入落入饱和区,一阶导数接近0,就可能产生梯度消失的情况

    • 常用于输出层,多应用在二分类问题、逻辑回归任务及其他神经网络领域


    softmax函数

    • 除了用于二分类还可以用于多分类,将各个神经元的输出映射到(0,1空间)

    • 在多分类场景中可以用softmax也可以用多个二分类器组合成多分类,比如多个逻辑分类器或SVM分类器等等。该使用softmax还是组合分类器,主要看分类的类别是否互斥,如果互斥则用softmax,如果不是互斥的则使用组合分类器。


    tanh函数

    • 优点:输出以0为中心,收敛速度比sigmoid函数要快

    • 缺点:存在梯度消失问题

    • tanh函数在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果


    relu函数

    • 优点:目前最受欢迎的激活函数,在x<0时,硬饱和,在x>0时,导数为1,所以在x>0时保持梯度不衰减,从而可以缓解梯度消失的问题,能更快收敛,并提供神经网络的稀疏表达能力

    • 缺点:随着训练的进行,部分输入或落入硬饱和区,导致无法更新权重,称为‘神经元死亡’


    elu函数

    • 优点:有一个非零梯度,这样可以避免单元消失的问题

    • 缺点:计算速度比relu和它的变种慢,但是在训练过程中可以通过更快的收敛sua年度来弥补


    softplus函数

    • 该函数对relu做了平滑处理,更接近脑神经元的激活模型


     

    dropout函数

    • tf.nn.dropout(x,keep_prob,noise_shape=None,seed=None,name=None)

    • 一个神经元以概率keep_prob决定是否被抑制,如果被抑制,神经元的输出为0,如果不被抑制,该神经元将被放大到原来的1/keep_prob倍,默认情况下,每个神经元是否被抑制是相互独立的


    一般规则

    • 当输入数据特征相差明显时,用tanh效果很好,当特征相差不明显时用sigmoid效果比较好,sigmoid和tanh作为激活函数需要对输入进行规范化,否则激活后的值进入平坦区,而relu不会出现这种情况,有时也不需要输入规范化,因此85%-90%的神经网络会使用relu函数


    损失函数


    损失函数一般分为二分类损失函数、多分类损失函数和回归问题损失函数

    二分类损失函数有:0-1损失、hinge损失、LogisticCrossEntropyLoss

    多分类损失有:SoftmaxCrossEntropyLoss

    回归问题损失函数有:均方差误差或根均方差误差、平均绝对值误差和huber损失函数

    2.1 0- 1损失


    对于二分类问题,Y= {-1,1},我们希望signf(xi,θ)=yisignf(xi,θ)=yi,最自然的损失是0-1损失,即



    该损失函数能够直观地刻画分类的错误率,但是由于其非凸,非光滑使得算法很难对该函数进行优化,下面将总结0-1损失的二个代理函数:HingeLoss,LogsiticCrossEntropyLoss

     

    :可用于分类问题,该函数用户衡量误分类的数量,但是由于该函数由于是非凸的,在最优化过程中求解不方便,有阶跃,不连续,所以使用不多。

     

    2.2 HingeLoss


    Hinge损失函数是0-1损失函数相对紧的凸上界,且当fy >=1时,该函数不对其做任何惩罚,Hinge损失在fy=1处不可导,因此不能用梯度下降法进行优化,而是用次梯度下降法



    常用于SVM

     

     

    2.3 LogisticCrossEntropyLoss




     

    2.4 SoftmaxCrossEntropyLoss




     

    2.5 均方差


    当预测值距离真实值越大时,平方损失函数的惩罚力度越大,因此它对异常点比较敏感,为了解决这个问题,可以使用平均绝对损失函数



    2.6 平均绝对误差


    绝对损失函数相当于在做中值回归,相比于做均值回归的平方损失函数对异常点的鲁棒性更好一些,当时有个问题是在f=y时无法求导,综合考虑可导性和对异常点的鲁棒性,采用Huber损失函数



    2.7 HuberLoss


    Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性
    当预测偏差小于 δ 时,它采用平方误差
    当预测偏差大于 δ 时,采用的线性误差


    全文(Full Article): https://yvsou.com/dc/single.php?groupid=28.218.81608.81609.81613.85931.86408.83744.86513&pid=1341650&startgroup=