\[ \begin{align}\begin{aligned}\newcommand{\ba}{\boldsymbol{a}}
\newcommand{\bb}{\boldsymbol{b}}
\newcommand{\be}{\boldsymbol{e}}
\newcommand{\bw}{\boldsymbol{w}}
\newcommand{\bx}{\boldsymbol{x}}
\newcommand{\by}{\boldsymbol{y}}
\newcommand{\bz}{\boldsymbol{z}}
\newcommand{\bd}{\boldsymbol{d}}
\newcommand{\bv}{\boldsymbol{v}}
\newcommand{\bs}{\boldsymbol{s}}\\\newcommand{\btheta}{\boldsymbol{\theta}}
\newcommand{\bbeta}{\boldsymbol{\beta}}
\newcommand{\bgamma}{\boldsymbol{\gamma}}
\newcommand{\bsigma}{\boldsymbol{\sigma}}
\newcommand{\md}{\mbox{d}}
\newcommand{\bmu}{\boldsymbol{\mu}}
\newcommand{\bone}{\boldsymbol{1}}
\newcommand{\trans}{^{\rm\scriptsize T}}
\newcommand{\var}{\mathrm{var}}\\\newcommand{\bA}{\boldsymbol{A}}
\newcommand{\bB}{\boldsymbol{B}}
\newcommand{\bC}{\boldsymbol{C}}
\newcommand{\bD}{\boldsymbol{D}}
\newcommand{\bI}{\boldsymbol{I}}
\newcommand{\bM}{\boldsymbol{M}}
\newcommand{\bW}{\boldsymbol{W}}
\newcommand{\bX}{\boldsymbol{X}}
\newcommand{\bY}{\boldsymbol{Y}}
\newcommand{\bZ}{\boldsymbol{Z}}
\newcommand{\cotp}{\textcolor{ #30D158FF }{TP}}
\newcommand{\cotn}{\textcolor{#64D2FFFF}{TN}}
\newcommand{\cofp}{\textcolor{#5E5CE6FF}{FP}}
\newcommand{\cofn}{\textcolor{#BF5AF2FF}{FN}}\\\newcommand{\numcotp}{\textcolor{ #30D158FF }{50}}
\newcommand{\numcotn}{\textcolor{#64D2FFFF}{30}}
\newcommand{\numcofp}{\textcolor{#5E5CE6FF}{10}}
\newcommand{\numcofn}{\textcolor{#BF5AF2FF}{10}}\end{aligned}\end{align} \]
\(\hspace{1.5em}\) 在上一章中,我们已经对逻辑回归模型进行了简单的介绍。简而言之,在给定模型一组参数 \(\btheta=(b,\bw\trans)\trans\) 时,针对一个特征向量 \(\bx\),我们需要计算
向前传播
线性运算:\(z = b + \bx\trans\bw\),
非线性变换(激活):\(a = \sigma(z)\)。
\(\hspace{1.5em}\) 我们将给定参数下,计算模型输出值的过程称为向前传播(Forward propagation)。我们将特征向量 \(\bx\) 所在的“层”称为输入层。为了简化表达,我们将 “线性运算” 与“激活运算”两个操作放在同一“层”中。对于逻辑回归模型而言,“激活运算”的结果即为模型预测的概率值,我们称该层为输出层。逻辑回归模型的运算过程可用下图表示。
\(\hspace{1.5em}\) 在上图中,我们称同时含有线性运算“+”与非线性变换 \(\sigma\) 的结构为一个神经元。在这个角度讲,逻辑回归模型可以认为是只有一个神经元的神经网络模型。在下一节中,我们将拓展该模型,并讨论具有一个隐藏层的神经网络模型。