<no title> — 《人工智能与深度学习》 2024.6.29 文档

\[ \begin{align}\begin{aligned}\newcommand{\ba}{\boldsymbol{a}} \newcommand{\bb}{\boldsymbol{b}} \newcommand{\be}{\boldsymbol{e}} \newcommand{\bw}{\boldsymbol{w}} \newcommand{\bx}{\boldsymbol{x}} \newcommand{\by}{\boldsymbol{y}} \newcommand{\bz}{\boldsymbol{z}} \newcommand{\bd}{\boldsymbol{d}} \newcommand{\bv}{\boldsymbol{v}} \newcommand{\bs}{\boldsymbol{s}}\\\newcommand{\btheta}{\boldsymbol{\theta}} \newcommand{\bbeta}{\boldsymbol{\beta}} \newcommand{\bgamma}{\boldsymbol{\gamma}} \newcommand{\bsigma}{\boldsymbol{\sigma}} \newcommand{\md}{\mbox{d}} \newcommand{\bmu}{\boldsymbol{\mu}} \newcommand{\bone}{\boldsymbol{1}} \newcommand{\trans}{^{\rm\scriptsize T}} \newcommand{\var}{\mathrm{var}}\\\newcommand{\bA}{\boldsymbol{A}} \newcommand{\bB}{\boldsymbol{B}} \newcommand{\bC}{\boldsymbol{C}} \newcommand{\bD}{\boldsymbol{D}} \newcommand{\bI}{\boldsymbol{I}} \newcommand{\bM}{\boldsymbol{M}} \newcommand{\bW}{\boldsymbol{W}} \newcommand{\bX}{\boldsymbol{X}} \newcommand{\bY}{\boldsymbol{Y}} \newcommand{\bZ}{\boldsymbol{Z}} \newcommand{\cotp}{\textcolor{ #30D158FF }{TP}} \newcommand{\cotn}{\textcolor{#64D2FFFF}{TN}} \newcommand{\cofp}{\textcolor{#5E5CE6FF}{FP}} \newcommand{\cofn}{\textcolor{#BF5AF2FF}{FN}}\\\newcommand{\numcotp}{\textcolor{ #30D158FF }{50}} \newcommand{\numcotn}{\textcolor{#64D2FFFF}{30}} \newcommand{\numcofp}{\textcolor{#5E5CE6FF}{10}} \newcommand{\numcofn}{\textcolor{#BF5AF2FF}{10}} \DeclareMathOperator*{\argmin}{arg\,min}\end{aligned}\end{align} \]

\(\hspace{1.5em}\) 在上一章中，我们已经对逻辑回归模型进行了简单的介绍。简而言之，在给定模型一组参数 \(\btheta=(b,\bw\trans)\trans\) 时，针对一个特征向量 \(\bx\)，我们需要计算

向前传播

线性运算：\(z = b + \bx\trans\bw\)，
非线性变换（激活）：\(a = \sigma(z)\)。
损失函数：\(-\{y\log a + (1-y)\log(1-a)\}\)

\(\hspace{1.5em}\) 我们将给定参数下，计算模型输出值以及损失函数值的过程称为向前传播（Forward propagation）。我们将特征向量 \(\bx\) 所在的“层”称为输入层。为了简化表达，我们将 “线性运算” 与“激活运算”两个操作放在同一“层”中。对于逻辑回归模型而言，“激活运算”的结果即为模型预测的概率值，我们称该层为输出层。逻辑回归模型的运算过程可用下图表示。

\(\hspace{1.5em}\) 在上图中，我们称同时含有线性运算``+``与非线性变换``\(\sigma\)``的结构为一个神经元。在这个角度讲，逻辑回归模型可以认为是只有一个神经元的神经网络模型。在下一节中，我们将拓展该模型，并讨论具有一个隐藏层的神经网络模型。

目录