\[ \begin{align}\begin{aligned}\newcommand{\ba}{\boldsymbol{a}} \newcommand{\bb}{\boldsymbol{b}} \newcommand{\be}{\boldsymbol{e}} \newcommand{\bw}{\boldsymbol{w}} \newcommand{\bx}{\boldsymbol{x}} \newcommand{\by}{\boldsymbol{y}} \newcommand{\bz}{\boldsymbol{z}} \newcommand{\bd}{\boldsymbol{d}} \newcommand{\bv}{\boldsymbol{v}} \newcommand{\bs}{\boldsymbol{s}}\\\newcommand{\btheta}{\boldsymbol{\theta}} \newcommand{\bbeta}{\boldsymbol{\beta}} \newcommand{\bgamma}{\boldsymbol{\gamma}} \newcommand{\bsigma}{\boldsymbol{\sigma}} \newcommand{\md}{\mbox{d}} \newcommand{\bmu}{\boldsymbol{\mu}} \newcommand{\bone}{\boldsymbol{1}} \newcommand{\trans}{^{\rm\scriptsize T}} \newcommand{\var}{\mathrm{var}}\\\newcommand{\bA}{\boldsymbol{A}} \newcommand{\bB}{\boldsymbol{B}} \newcommand{\bC}{\boldsymbol{C}} \newcommand{\bD}{\boldsymbol{D}} \newcommand{\bI}{\boldsymbol{I}} \newcommand{\bM}{\boldsymbol{M}} \newcommand{\bW}{\boldsymbol{W}} \newcommand{\bX}{\boldsymbol{X}} \newcommand{\bY}{\boldsymbol{Y}} \newcommand{\bZ}{\boldsymbol{Z}} \newcommand{\cotp}{\textcolor{ #30D158FF }{TP}} \newcommand{\cotn}{\textcolor{#64D2FFFF}{TN}} \newcommand{\cofp}{\textcolor{#5E5CE6FF}{FP}} \newcommand{\cofn}{\textcolor{#BF5AF2FF}{FN}}\\\newcommand{\numcotp}{\textcolor{ #30D158FF }{50}} \newcommand{\numcotn}{\textcolor{#64D2FFFF}{30}} \newcommand{\numcofp}{\textcolor{#5E5CE6FF}{10}} \newcommand{\numcofn}{\textcolor{#BF5AF2FF}{10}}\end{aligned}\end{align} \]

课程简介#

\(\hspace{1.5em}\) 深度学习相较于传统统计学习(传统机器学习)模型,展现出了一系列显著的优势。首先,基于不同的神经网络框架,深度学习能够有效地从原始数据中学习并提取关键特征,而传统机器学习则往往需要人工进行特征工程(手动构造提取特征),这一过程既耗时又依赖专家的经验。深度学习通过多层神经网络,能够逐层抽象和转化数据,发现数据中隐藏的高阶特征,从而在处理复杂、高维数据时表现更加出色。其次,深度学习具有强大的泛化能力。它通过大量的数据训练,能够学习到数据中的一般规律,而不仅仅是对训练数据的简单记忆。这使得深度学习模型在面对新数据时,能够做出更为准确和可靠的预测。此外,深度学习还具备端到端学习的能力。它可以直接从原始数据出发,通过构建一个完整的神经网络模型,实现数据的输入到输出的直接映射。这种学习方式简化了机器学习流程,减少了人为干预,提高了模型的效率和性能。在应用领域上,深度学习也展现出了更广泛的应用前景。它在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展,推动了人工智能技术的快速发展。而传统统计学习在这些领域的应用则相对有限。

\(\hspace{1.5em}\) 学习深度学习的重要性体现在多个方面。首先,深度学习作为机器学习的一个分支,其强大的数据处理和模式识别能力使其在诸多领域都展现出巨大的应用潜力。随着大数据时代的到来,数据量呈爆炸式增长,传统的方法往往难以有效处理和分析这些数据。而深度学习通过构建深层神经网络,能够自动提取数据中的复杂特征,实现高精度的预测和分类,为数据挖掘和知识发现提供了新的手段。 其次,深度学习在推动科技进步和创新方面发挥着重要作用。在图像识别、语音识别、自然语言处理等领域,深度学习技术已经取得了突破性的进展,极大地提升了相关应用的性能和用户体验。同时,深度学习还在医疗、金融、制造等多个行业得到广泛应用,推动了行业的转型升级和智能化发展。 此外,学习深度学习也是提升个人竞争力的重要途径。随着人工智能技术的普及和应用,具备深度学习知识和技能的人才在就业市场上具有更高的竞争力。无论是从事科研、开发还是应用工作,掌握深度学习技术都能够为个人职业发展带来更多的机会和可能。

\(\hspace{1.5em}\) 在本课程中,我们将探讨如下内容:

  1. 全连接神经网络(FNN)

  2. 卷积神经网络(CNN)

  3. 序列模型(循环神经网络、长短期记忆网络、Transformer等)

  4. 图神经网络

全连接神经网络#

\(\hspace{1.5em}\) 全连接神经网络(Fully Connected Neural Network,FNN),也被称为多层感知机(Multi-Layer Perception,MLP),是一种经典的深度学习模型。其独特之处在于网络中的每个神经元都与前一层的所有神经元紧密相连。这种全连接的结构赋予了神经网络强大的数据处理和特征学习能力,使其在众多领域都展现出了广泛的应用价值。全连接神经网络还经常作为更复杂网络结构的一部分,例如,在卷积神经网络中,全连接层通常用于将卷积层提取的特征映射到类别空间,从而实现分类任务。因此,全连接神经网络在深度学习领域扮演着重要的角色,是处理各种机器学习任务不可或缺的工具之一。无论是在学术研究还是在实际应用中,全连接神经网络都展现出了其强大的潜力和广泛的应用前景。

\(\hspace{1.5em}\) 在本章中,我们将基于分类问题,详细讨论全连接神经网络的前向传播和后向传播及其计算细节。此外,我们还将探讨不同激活函数和梯度下降算法的优劣,讨论如何衡量一个二分类模型的技术指标。随后,我们简单介绍用Softmax回归,该模型用于多分类任务。在本章的最后,我们将给出两个 Python 实例;第一个为手动编写全连接神经网络前向和后向传播,第二个为利用全连接神经网络分析著名手写字体数据集。

卷积神经网络#

\(\hspace{1.5em}\) 卷积神经网络(Convolutional Neural Network,CNN)是一种不同于FNN的神经网络框架,特别适用于处理具有网格结构的数据,如图像数据等。其核心优势在于局部连接、权值共享和池化操作,这些特性显著减少了模型参数数量,降低了计算复杂度,并增强了模型的泛化能力。CNN通常由输入层、多个卷积层与池化层交替堆叠、以及全连接层组成。卷积层通过卷积核在输入数据上滑动进行局部特征提取,每个卷积核专注于检测不同的特征,如边缘、纹理等。池化层则通过下采样操作减少特征图的空间维度,提取主要特征并降低计算量。全连接层则负责将提取到的特征组合起来,进行分类或回归等任务。CNN的设计灵感来源于生物视觉皮层的工作原理,通过模拟神经元的局部感受野和层次化信息处理机制,实现了对复杂视觉任务的高效处理。近年来,随着深度学习技术的不断发展,CNN在图像识别、目标检测、图像分割、自然语言处理等领域取得了显著成就,成为人工智能领域的重要工具之一。

序列模型#

\(\hspace{1.5em}\) 循环神经网络(Recurrent Neural Network, RNN)是一种专门用于处理序列数据的神经网络框架,其核心特点在于能够捕捉序列中的相关关系,这使得它在处理时间序列或顺序数据时表现出色。然而,RNN在长序列上容易遇到梯度消失或爆炸的问题,这限制了其学习长期依赖关系的能力。为了解决这个问题,长短期记忆网络(LSTM)应运而生,它通过引入遗忘门、输入门和输出门等门控机制,有效地控制了信息的流动,从而解决了长序列学习的问题。LSTM能够学习序列数据中的长期相关关系,并在语音识别、自然语言处理等领域取得了显著成效。而近年来,Transformer作为一种全新的基于自注意力机制的模型,进一步推动了序列处理技术的发展。Transformer不依赖于传统的RNN或LSTM结构,而是通过多头自注意力机制直接计算序列中任意位置之间的依赖关系,实现了更高效和灵活的序列处理。这种机制使得Transformer能够高效地处理长距离依赖关系,并具有出色的并行处理能力,极大地推动了自然语言处理等领域的发展。

图神经网络#

\(\hspace{1.5em}\) 图神经网络(Graph Neural Network, GNN)是一种基于图结构的深度学习方法,它通过神经网络模型来处理和分析具有图结构的数据。GNN最早可以追溯到2005年,由Gori等人首次提出,用于处理无向图、有向图等多种图结构。近年来,随着深度学习技术的不断发展,GNN逐渐成为研究热点,并在多个领域展现出强大的应用潜力。GNN的核心思想是利用神经网络来提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割等图学习任务的需求。它通过递归地聚合和转换相邻节点的表示向量来计算节点的表示向量,从而捕捉节点间的复杂关系。GNN的主要类型包括图卷积网络(GCN)、图自编码器(GAE)、图生成网络(GGN)、图循环网络(GRN)以及图注意力网络(GAT)等,每种类型都有其独特的算法和应用场景。

参考资料:

  1. Coursera: Deep Learning Specialization (学生免费注册) https://www.coursera.org/specializations/deep-learning

  2. Stanford CS231N: Deep Learning for Computer Vision http://cs231n.stanford.edu/schedule.html

  3. Understanding Deep Learning, S. J. D. Prince (2024), http://udlbook.com

  4. Deep Learning 深度学习, I. Goodfellow, Y. Bengio, A Courville, (2017), 人民邮电出版社

  5. 机器学习,周志华,2017,清华大学出版社(西瓜书)

  6. 狗熊会