深度学习500问-ch1
数学基础
向量和矩阵
标量、向量、矩阵、张量之间的联系
标量:一个单独的数。
向量:一组有序排列的数,通过次序中的索引,可以确定每个单独的数。
矩阵:具有相同特征和维度的对象的集合,一个对象为一行,一个特征为一列,特征都有数值型的取值。
张量:超过二维。
关系:
标量 = 0阶张量
向量 = 1阶张量
张量与矩阵的区别
- 代数的角度,矩阵是向量的推广。
- 几何的角度,矩阵是一个几何量,不随参照系坐标变换而变化,向量也具有。
- 张量可以用$3\times3$矩阵的形式来表达。
- 标量和向量的三维数组可以看成$1\times1$,$3\times3$的矩阵。
矩阵和向量相乘结果
矩阵和向量相乘可以看成是矩阵相乘的一个特殊情况
向量和矩阵的范数归纳
向量的范数(norm)
- 向量的1范数:向量的各个元素的绝对值之和
- 向量的2范数:向量的每个元素的平方和再开平方根
- 向量的负无穷范数:向量的所有元素的绝对值中最小的
- 向量的正无穷范数:向量的所有元素的绝对值中最大的
- 向量的p范数:
矩阵的范数
矩阵定义为:$A_{m\times n}$,其元素为 $a_{ij}$。
矩阵的范数定义为
当向量取不同范数时, 相应得到了不同的矩阵范数。
矩阵的1范数(列范数):矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大)
矩阵的2范数:矩阵$A^TA$的最大特征值开平方根
其中, $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大)
矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩)
矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏
- 矩阵的L1范数:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏
- 矩阵的F范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的优点在于它是一个凸函数,可以求导求解,易于计算
- 矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数
- 矩阵的 p范数
如何判断一个矩阵为正定
判定一个矩阵是否为正定,通常有以下几个方面:
- 顺序主子式全大于0;
- 存在可逆矩阵$C$使$C^TC$等于该矩阵;
- 正惯性指数等于$n$;
- 合同于单位矩阵$E$(即:规范形为$E$)
- 标准形中主对角元素全为正;
- 特征值全为正;
- 是某基的度量矩阵。
导数和偏导数
导数偏导计算
导数和偏导数有什么区别?
特征值和特征向量
特征值分解与特征向量
特征值分解是将一个矩阵分解为如下形式:
其中,$Q$是这个矩阵$A$的特征向量组成的矩阵,$\sum$是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的。
奇异值与特征值有什么关系
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$A^TA$求特征值,则有下面的形式:
这里$V$就是上面的右奇异向量,另外还有:
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。
奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$($r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
右边的三个矩阵相乘的结果将会是一个接近于$A$的矩阵,在这儿,$r$越接近于$n$,则相乘的结果越接近于$A$。
概率分布与随机变量
机器学习为什么要使用概率
变量与随机变量有什么区别
随机变量与概率分布的联系
离散型随机变量和概率质量函数
连续型随机变量和概率密度函数
举例理解条件概率
联合概率与边缘概率联系区别
区别:
联合概率:联合概率指类似于$P(X=a,Y=b)$这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于$P(X=a)$,$P(Y=b)$这样,仅与单个随机变量有关的概率。
联系:
联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。
1.4.8 条件概率的链式法则
1.4.9 独立性和条件独立性
独立性
两个随机变量$x$和$y$,概率分布表示成两个因子乘积形式,一个因子只包含$x$,另一个因子只包含$y$,两个随机变量相互独立(independent)。
条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。
举例:$P(XY)=P(X)P(Y)$, 事件$X$和事件$Y$独立。此时给定$Z$,
事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是互相影响的。
条件独立性
给定$Z$的情况下,$X$和$Y$条件独立,当且仅当
$X$和$Y$的关系依赖于$Z$,而不是直接产生。
举例定义如下事件:
$X$:明天下雨;
$Y$:今天的地面是湿的;
$Z$:今天是否下雨;
$Z$事件的成立,对$X$和$Y$均有影响,然而,在$Z$事件成立的前提下,今天的地面情况对明天是否下雨没有影响。
常见概率分布
Bernoulli分布
高斯分布
高斯也叫正态分布(Normal Distribution), 概率度函数如下:
其中, $\mu$和$\sigma$分别是均值和标准差, 中心峰值x坐标由$\mu$给出, 峰的宽度受$\sigma$控制, 最大点在$x=\mu$处取得, 拐点为$x=\mu\pm\sigma$
正态分布中,±1$\sigma$、±2$\sigma$、±3$\sigma$下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。
此外, 令$\mu=0,\sigma=1$高斯分布即简化为标准正态分布:
对概率密度函数高效求值:
其中,$\beta=\frac{1}{\sigma^2}$通过参数$\beta∈(0,\infty)$来控制分布精度。
何时采用正态分布
问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:
- 中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
- 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.
正态分布的推广:
正态分布可以推广到$R^n$空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵$\Sigma$:
对多为正态分布概率密度高效求值:
此处,$\vec\beta$是一个精度矩阵。
指数分布
Laplace 分布(拉普拉斯分布)
一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 $\mu$处设置概率质量的峰值
Dirac分布和经验分布
期望、方差、协方差、相关系数
期望
函数的期望大于等于期望的函数(Jensen(詹森)不等式,即$E(f(x))\geqslant f(E(x))$