神经网络(Neural Network, NN)
定义
神经网络是一种模仿生物大脑神经元结构和功能的计算模型,由大量的人工神经元相互连接组成,能够通过学习数据中的模式来完成各种任务,是深度学习技术的基础。
生物 inspiration
人工神经网络的设计灵感来源于人类大脑的神经系统:
- 生物神经元:接受来自其他神经元的信号,经过处理后将信号传递给其他神经元
- 人工神经元:接受多个输入,通过加权求和、非线性激活函数处理后产生输出
- 突触:对应神经网络中的权重参数,决定了信号传递的强度
- 学习过程:通过调整神经元之间的连接权重来学习数据中的规律
基本结构
典型的神经网络通常包含三层结构:
- 输入层(Input Layer):接收原始数据输入,每个神经元对应一个输入特征
- 隐藏层(Hidden Layer):对输入特征进行变换和抽象,可以有多层,层数越多网络越深
- 输出层(Output Layer):产生最终的预测结果,输出神经元的数量根据任务类型决定
核心组件
- 神经元(Neuron):神经网络的基本计算单元,执行加权求和和非线性变换操作
- 权重(Weight):表示神经元之间连接的强度,是神经网络需要学习的参数
- 偏置(Bias):控制神经元激活的阈值,增加了模型的表达能力
- 激活函数(Activation Function):引入非线性变换,使神经网络能够学习复杂的非线性关系,常见的激活函数包括Sigmoid、Tanh、ReLU、Leaky ReLU等
- 损失函数(Loss Function):衡量模型预测结果与真实值之间的差距,是模型优化的目标
- 优化器(Optimizer):根据损失函数的梯度更新网络参数,常见的优化器包括SGD、Adam、Adagrad等
训练过程
神经网络的训练过程通常包括以下步骤:
- 前向传播:输入数据通过网络层层计算,得到预测输出
- 计算损失:比较预测输出与真实标签,计算损失值
- 反向传播:根据链式法则计算损失函数对每个参数的梯度
- 参数更新:使用优化器根据梯度更新网络参数
- 迭代优化:重复以上步骤,直到模型性能达到要求
常见类型
- 前馈神经网络(FNN):信息单向流动,没有反馈连接,是最基础的神经网络结构
- 卷积神经网络(CNN):具有卷积层和池化层,适合处理图像等网格数据
- 循环神经网络(RNN):具有循环连接,适合处理序列数据
- Transformer:基于自注意力机制,是当前大模型的主流架构
- 生成对抗网络(GAN):由生成器和判别器组成,用于生成逼真的内容
应用场景
神经网络作为深度学习的基础,已经广泛应用于图像识别、语音识别、自然语言处理、自动驾驶、推荐系统、医疗诊断等几乎所有AI领域,是现代人工智能技术的核心基石。