作者归档：runyu

神经网络

直观的理解：
Batch Size定义：一次训练所选取的样本数。
Batch Size的大小影响模型的优化程度和速度。同时其直接影响到GPU内存的使用情况，假如你GPU内存不大，该数值最好设置小一点。

为什么要提出Batch Size？
在没有使用Batch Size之前，这意味着网络在训练时，是一次把所有的数据（整个数据库）输入网络中，然后计算它们的梯度进行反向传播，由于在计算梯度时使用了整个数据库，所以计算得到的梯度方向更为准确。但在这情况下，计算得到不同梯度值差别巨大，难以使用一个全局的学习率，所以这时一般使用Rprop这种基于梯度符号的训练算法，单独进行梯度更新。
在小样本数的数据库中，不使用Batch Size是可行的，而且效果也很好。但是一旦是大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸。所以就提出Batch Size的概念。

Batch Size设置合适时的优点：
1、通过并行化提高内存的利用率。就是尽量让你的GPU满载运行，提高训练速度。
2、单个epoch的迭代次数减少了，参数的调整也慢了，假如要达到相同的识别精度，需要更多的epoch。
3、适当Batch Size使得梯度下降方向更加准确。

Batch Size从小到大的变化对网络影响
1、没有Batch Size，梯度准确，只适用于小样本数据库
2、Batch Size=1，梯度变来变去，非常不准确，网络很难收敛。
3、Batch Size增大，梯度变准确，
4、Batch Size增大，梯度已经非常准确，再增加Batch Size也没有用

注意：Batch Size增大了，要到达相同的准确度，必须要增大epoch。

Pytorch

class NeuralNetwork(nn.Module):
    def __init__(self):
        super(NeuralNetwork, self).__init__()
        self.flatten = nn.Flatten()
        self.linear_relu_stack = nn.Sequential(
                (28*28, 512),
            nn.ReLU(),
            nn.Linear(512, 512),
            nn.ReLU(),
            nn.Linear(512, 10),
            nn.ReLU()
        )
    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits

在 PyTorch 中，对 tensor 执行 detach() 会返回一个新的 tensor，该 tensor 与原始 tensor 共享数据，但不会参与反向传播计算。具体来说：

共享数据：新 tensor 与原始 tensor 共享相同的数据，修改其中一个会影响另一个。
断开计算图：新 tensor 不会记录计算历史，因此不会在反向传播中计算梯度。
梯度计算：原始 tensor 的梯度计算不受影响，仍可正常进行。

示例代码

import torch

# 创建一个需要梯度的 tensor
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)

# 对 x 进行一些操作
y = x * 2

# 对 y 执行 detach
z = y.detach()

# 打印结果
print("y:", y)
print("z:", z)

# 进行反向传播
y.sum().backward()

# 打印 x 的梯度
print("x.grad:", x.grad)

输出

y: tensor([2., 4., 6.], grad_fn=<MulBackward0>)
z: tensor([2., 4., 6.])
x.grad: tensor([2., 2., 2.])

解释

y 是通过 x 计算得到的，保留了计算历史。
z 是 y 的 detach() 结果，与 y 共享数据但不参与反向传播。
反向传播后，x 的梯度正常计算，而 z 不影响梯度计算。

总结

detach() 用于从计算图中分离 tensor，常用于冻结部分模型参数或避免不必要的梯度计算。

如果只是对 GPU 上的 tensor 执行 .detach() 而不调用 .cpu()，那么 z 和 y 仍然会共享数据，因此对 z 的修改会反映到 y 上。

原因

.detach() 的作用：

返回一个新的 tensor，与原始 tensor 共享数据。
新 tensor 不会参与反向传播，但仍然与原始 tensor 共享底层存储。

共享数据：

如果 z 是通过 y.detach() 创建的，那么 z 和 y 共享相同的数据存储。
对 z 的修改会直接反映到 y 上，因为它们指向同一块内存。

验证代码

import torch

# 创建一个在 GPU 上的 tensor，并启用梯度计算
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True).cuda()

# 对 x 进行一些操作
y = x * 2

# 执行 .detach()，不调用 .cpu()
z = y.detach()

# 修改 z
z[0] = 100.0

# 打印 y 和 z
print("y:", y)  # y 的值被修改
print("z:", z)  # z 的值被修改

输出

y: tensor([100.,   4.,   6.], device='cuda:0', grad_fn=<MulBackward0>)
z: tensor([100.,   4.,   6.], device='cuda:0')

解释

y:
虽然 y 仍然在 GPU 上，并且保留了计算历史（grad_fn），但它的值被修改为 [100., 4., 6.]。
这是因为 z 和 y 共享数据。
z:
z 的值被修改为 [100., 4., 6.]。
由于 z 和 y 共享数据，y 的值也被同步修改。

总结

如果只调用 .detach()：
z 和 y 共享数据，对 z 的修改会反映到 y 上。
如果调用 .detach().cpu()：
z 会被移动到 CPU，并且与 y 不再共享数据，对 z 的修改不会影响 y。

因此，是否调用 .cpu() 是决定 z 和 y 是否共享数据的关键。

算法

大 O 表示法将始终假定算法将执行最大的迭代次数

完美二叉树, 完全二叉树和完满二叉树 – veli – 博客园 (cnblogs.com)

数学

最小二乘法（Least Squares Method）

线性回归（Linear Regression）

为什么有些时候，期望的符号是一个空心E？

空心E通常表示随机变量的期望，它也被称为数学期望、平均值或期望值。它表示对随机变量在其取值范围内所有可能取值的加权平均值。

与实心E表示样本的平均数不同，空心E表示的是随机变量的平均值。随机变量是指具有多个可能取值的变量，而这些值可能是离散的（例如投掷硬币的结果）或连续的（例如人的身高）。空心E可以用来计算随机变量的平均值，以便进行概率分析和推断。

魏尔施特拉斯逼近定理

魏尔斯特拉斯逼近定理有两个：

1.闭区间上的连续函数可用多项式级数一致逼近。

2.闭区间上周期为2π的连续函数可用三角函数级数一致逼近。

通用近似定理

对一个矩阵进行softmax操作的步骤如下：

计算每行的指数：对矩阵的每个元素计算指数。
按行求和：对每行的指数值求和。
归一化：将每个元素的指数值除以其所在行的指数和。

卷积神经网络

卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种
具有局部连接、权重共享等特性的深层前馈神经网络．
卷积神经网络最早主要是用来处理图像信息．在用全连接前馈网络来处理
图像时，会存在以下两个问题：
（1）参数太多：如果输入图像大小为100 × 100 × 3（即图像高度为100，宽
度为 100 以及 RGB 3 个颜色通道），在全连接前馈网络中，第一个隐藏层的每个
神经元到输入层都有 100 × 100 × 3 = 30 000 个互相独立的连接，每个连接都对
应一个权重参数．随着隐藏层神经元数量的增多，参数的规模也会急剧增加．这
会导致整个神经网络的训练效率非常低，也很容易出现过拟合．
（2）局部不变性特征：自然图像中的物体都具有局部不变性特征，比如尺
度缩放、平移、旋转等操作不影响其语义信息．而全连接前馈网络很难提取这些
局部不变性特征，一般需要进行数据增强来提高性能．

池化<=>下采样

如何通俗易懂地解释卷积？ – 马同学的回答 – 知乎
https://www.zhihu.com/question/22298352/answer/228543288

CNN的卷积是离散下的卷积运算

卷积层

feature 特征 /卷积核（filter）=>卷积运算=>feature map 特征图

非线性激活层

池化层pooling 下采样

Max Pooling 最大池化、Average Pooling平均池化

evaluation model 评估模式

我们称 $(f*g)(n)$ 为 $f,g$ 的卷积

其连续的定义为：

其离散的定义为：

如何通俗易懂地解释卷积？ – <em>马同学</em>的回答 – 知乎 https://www.zhihu.com/question/22298352/answer/228543288

W：表示当前层Feature map的大小。

K：表示kernel的大小。

S：表示Stride的大小。

下一层Feature map的大小 =(W−K)/S+1

《论持久战》

但敌尚有其他缺点，我尚有其他优点。敌之优点可因我之努力而使之削弱，其缺点亦可因我之努力而使之扩大。

前馈神经网络

损失函数 Loss Function

交叉熵损失函数经常用于分类问题中，特别是在神经网络做分类问题时，也经常使用交叉熵作为损失函数，此外，由于交叉熵涉及到计算每个类别的概率，所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。

前馈神经网络 Feedforward neural network

梯度下降 Gradient Descent

梯度爆炸 gradient exploding problem

梯度消失 gradient vanishing problem

反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数。

梯度 gradient

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

机器学习 Machine Learning ML 是指从有限的观测数据中学习（或”猜测“）出具有一般性的规律，并利用这些规律对未知数据进行预测的方法。

风险函数是损失函数的期望值

SOTA model：state-of-the-art model，并不是特指某个具体的模型，而是指在该项研究任务中，目前最好/最先进的模型。

SOTA result：state-of-the-art result，指的是在该项研究任务中，目前最好的模型的结果/性能/表现。

Adam算法

链式法则

《实践论》

人们要想得到工作的胜利即得到预想的结果，一定要使自己的思想合于客观外界的规律性，如果不合，就会在实践中失败。

辩证唯物论的认识论把实践提到第一的地位，认为人的认识一点也不能离开实践，排斥一切否定实践重要性、使认识离开实践的错误理论。

列宁这样说过：“实践高于（理论的）认识因为它不但有普遍性的品格，而且还有直接现实性的品格。”

理论的基础是实践，又转过来为实践服务。

在低级阶段，认识表现为感性，在高级阶段，认识表现为理论的。

感觉只解决现象问题，理论才解决本质问题。

煮酒论英雄

发表评论

玄德也防曹操谋害，就下处后园种菜，亲自浇灌，以为韬晦之计。关、张二人曰：“兄不留心天下大事，而学小人之事，何也？”玄德曰：“此非二弟所知也。”二人乃不复言。一日，关、张不在，玄德正在后园浇菜，许褚、张辽引数十人入园中曰：“丞相有命，请使君便行。”玄德惊问曰：“有甚紧事？”许褚曰：“不知。只教我来相请。”玄德只得随二人入府见操。
操笑曰：“在家做得好大事！”唬得玄德面如土色。操执玄德手，直至后园，曰：“玄德学圃不易！”玄德方才放心，答曰：“无事消遣耳。”操曰：“适见枝头梅子青青，忽感去年征张绣时，道上缺水，将士皆渴；吾心生一计，以鞭虚指曰：‘前面有梅林。’军士闻之，口皆生唾，由是不渴。今见此梅，不可不赏。又值煮酒正熟，故邀使君小亭一会。”玄德心神方定。
随至小亭，已设樽俎：盘置青梅，一樽煮酒。二人对坐，开怀畅饮。酒至半酣，忽阴云漠漠，骤雨将至。从人遥指天外龙挂，操与玄德凭栏观之。
操曰：“使君知龙之变化否？”玄德曰：“未知其详。”操曰：“龙能大能小，能升能隐；大则兴云吐雾，小则隐介藏形；升则飞腾于宇宙之间，隐则潜伏于波涛之内。方今春深，龙乘时变化，犹人得志而纵横四海。龙之为物，可比世之英雄。玄德久历四方，必知当世英雄。请试指言之。”玄德曰：“备肉眼安识英雄？”操曰：“休得过谦。”玄德曰：“备叨恩庇，得仕于朝。天下英雄，实有未知。”操曰：“既不识其面，亦闻其名。”
玄德曰：“淮南袁术，兵粮足备，可为英雄？”操笑曰：“冢中枯骨，吾早晚必擒之！”
玄德曰：“河北袁绍，四世三公，门多故吏；今虎踞冀州之地，部下能事者极多，可为英雄？“操笑曰：“袁绍色厉胆薄，好谋无断；干大事而惜身，见小利而忘命：非英雄也。“
玄德曰：“有一人名称八俊，威镇九州：刘景升可为英雄？”操曰：“刘表虚名无实，非英雄也。”
玄德曰：“有一人血气方刚，江东领袖——孙伯符乃英雄也？”操曰：“孙策藉父之名，非英雄也。”
玄德曰：“益州刘季玉，可为英雄乎？”操曰：“刘璋虽系宗室，乃守户之犬耳，何足为英雄！”
玄德曰：“如张绣、张鲁、韩遂等辈皆何如？”操鼓掌大笑曰：“此等碌碌小人，何足挂齿！”
玄德曰：“舍此之外，备实不知。”操曰：“夫英雄者，胸怀大志，腹有良谋，有包藏宇宙之机，吞吐天地之志者也。”玄德曰：“谁能当之？”操以手指玄德，后自指，曰：“今天下英雄，惟使君与操耳！”玄德闻言，吃了一惊，手中所执匙箸，不觉落于地下。时正值天雨将至，雷声大作。玄德乃从容俯首拾箸曰：“一震之威，乃至于此。”操笑曰：“丈夫亦畏雷乎？”玄德曰：“圣人迅雷风烈必变，安得不畏？”将闻言失箸缘故，轻轻掩饰过了。操遂不疑玄德。
后人有诗赞曰：
“勉从虎穴暂趋身，说破英雄惊杀人。巧借闻雷来掩饰，随机应变信如神。”
知天雨方住，见两个人撞入后园，手提宝剑，突至亭前，左右拦挡不住。操视之，乃关、张二人也。原来二人从城外射箭方回，听得玄德被许褚、张辽请将去了，慌忙来相府打听；闻说在后园，只恐有失，故冲突而入。却见玄德与操对坐饮酒。二人按剑而立。操问二人何来。云长曰：“听知丞相和兄饮酒，特来舞剑，以助一笑。”操笑曰：“此非鸿门会，安用项庄、项伯乎？”玄德亦笑。操命：“取酒与二樊哙压惊。”关、张拜谢。须臾席散，玄德辞操而归。
云长曰：“险些惊杀我两个！”玄德以落箸事说与关、张。关、张问是何意。玄德曰：“吾之学圃，正欲使操知我无大志；不意操竟指我为英雄，我故失惊落箸。又恐操生疑，故借惧雷以掩饰之耳。”关、张曰：“兄真高见！”

矛盾论

发表评论

两种宇宙观；矛盾的普遍性；矛盾的特殊性；主要的矛盾和主要的矛盾方面；矛盾诸方面的同一性和斗争性；对抗在矛盾中的地位。

其一是说，矛盾存在于一切事物的发展过程中；其二是说，每一事物的发展过程中存在着自始至终的矛盾运动。

这是两个认识的过程：一个是由特殊到一半，一个是由一般到特殊。

兼听则明，偏信则暗。

矛盾即是运动，即是事物，即是过程，也即是思想。

在复杂的事物的发展过程中，有许多的矛盾存在，其中必有一种是主要的矛盾，由于它的存在和发展，规定或影响着其他矛盾的存在和发展。

过程发展的各个阶段中，只有一种主要的矛盾起着领导的作用。

不能把过程中所有的矛盾平均看待，必须把他们区别为主要的和次要的两类，着重于捉住主要的矛盾。