什么是 LSTM (长短期记忆网络)？

长短期记忆网络 (LSTM) 是一种复杂的循环神经网络 (RNN) 架构，旨在克服传统 RNN 的局限性。其主要创新在于能够学习和记忆长序列数据中的模式，有效解决了困扰简单 RNN 的梯度消失问题。这是通过一种称为记忆单元的独特结构实现的，该结构可以长时间保持信息。该单元由三个“门”——输入门、输出门和遗忘门——来调节，它们控制着信息的流动，允许网络在处理序列时有选择地记住或忘记细节。

主要特点

长期依赖学习: LSTM 专门设计用于捕捉序列中相距很远的元素之间的依赖关系，这对于语言建模和时间序列预测等任务至关重要。
门控机制: LSTM 的核心是它的三个门：
- 遗忘门: 决定应丢弃先前状态中的哪些信息。
- 输入门: 确定哪些新信息被存储在单元状态中。
- 输出门: 控制单元状态中的哪些信息用于生成当前时间步的输出。
缓解梯度消失/爆炸: 门控机制有助于维持更恒定的误差信号，允许梯度在许多时间步长上传播而不会消失或爆炸。
多功能性: LSTM 可应用于各种序列数据，包括文本、语音、视频和时间序列数据。

应用场景

自然语言处理 (NLP): 在 Transformer 成为主导之前，历史上用于机器翻译、情感分析和文本生成。
语音识别: 对音频信号中的音素或单词序列进行建模。
时间序列预测: 预测股票价格、天气模式和能源需求等序列的未来值。
音乐生成: 通过学习现有乐谱中的模式来创作新的音乐作品。
手写识别: 解释手写文本中笔画的顺序。

入门指南

这是一个使用 TensorFlow/Keras 实现的用于序列分类的简单 LSTM 模型“Hello World”示例。该模型可用于情感分析等任务。

```python import tensorflow as tf from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Embedding, LSTM, Dense import numpy as np

— 1. 定义模型 —

词汇表大小和嵌入维度

vocab_size = 10000 embedding_dim = 16 max_length = 120

model = Sequential([ # 输入层：将整数编码的文本嵌入到密集向量中 Embedding(vocab_size, embedding_dim, input_length=max_length),

# 具有 32 个单元的 LSTM 层
LSTM(32),

# 输出层：用于二元分类的密集层
Dense(1, activation='sigmoid') ])

— 2. 编译模型 —

model.compile(loss=’binary_crossentropy’, optimizer=’adam’, metrics=[‘accuracy’])

model.summary()

— 3. 准备虚拟数据 —

(在真实场景中，您会对文本数据使用分词器)

num_samples = 100 X_train = np.random.randint(0, vocab_size, size=(num_samples, max_length)) y_train = np.random.randint(0, 2, size=(num_samples, 1))

— 4. 训练模型 —

print(“\n正在训练 LSTM 模型…”) history = model.fit(X_train, y_train, epochs=5, validation_split=0.2) print(“训练完成。”)

定价

LSTM 是一个开源的架构概念。其实现可在所有主流深度学习框架（如 TensorFlow、PyTorch 和 JAX）中免费获得。使用 LSTM 架构本身不涉及任何许可费用。

LSTM vs. Transformers

虽然 LSTM 曾是序列建模的最高水平，但 Transformer 架构已在很大程度上取代了它们，尤其是在 NLP 领域。

顺序处理 vs. 并行处理: LSTM 顺序处理数据，速度可能较慢。Transformer 可以并行处理序列的所有元素，使其在现代硬件（GPU/TPU）上的训练速度快得多。
长距离依赖: 虽然 LSTM 在这方面表现不错，但 Transformer 的自注意力机制通常更有效地建模序列中任意两点之间的关系，无论它们相距多远。
应用场景: Transformer 主导着 NLP 任务。然而，LSTM 仍然非常重要，有时在某些时间序列预测任务或计算开销大的 Transformer 不可行的资源受限环境中更受青睐。

LSTM (Long Short-Term Memory)