基础概念
行列式(determinant)
向量空间:存在零向量(加法),每个向量都有加法逆元,向量的标量乘法满足结合律和分配律,存在单位标量(乘法)
子空间(Subspace):向量空间的一个子空间,包含零向量,加法封闭,数乘封闭
生成空间(SPAN):一组向量线性组合形成的空间
基(basis):线性无关、能够生成整个空间
子空间的维度:子空间基的向量数量
秩(Rank):线性无关向量的最大数量(行秩、列秩)
可逆矩阵(Invertible Matrix):A⋅B=B⋅A=I,可逆条件(满秩方阵)
向量范数(Vector Norms):向量空间中给每一个向量分配一个非负数以此来表示向量的大小。(非负性、齐次性、三角不等式)
欧几里得范数(L2):∥v∥2=v12+v22+⋯+vn2
曼哈顿范数(L1):∥v∥1=∣v1∣+∣v2∣+⋯+∣vn∣
最大范数(L∞ 范数):∥v∥∞=max{∣v1∣,∣v2∣,…,∣vn∣}
p-范数:∥v∥p=(∣v1∣p+∣v2∣p+⋯+∣vn∣p)1/p
内积(Inner product):u⋅v=u1v1+u2v2+⋯+unvn=∑i=1nuivi
投影(projections):表示一个向量在另一个向量上面的分量,Projvu=v⋅vu⋅vv
CH02. Convexity
仿射(affine)集合:仿射集合是指对于集合 SS 中任意两点 x1 和 x2,和任意标量 λ∈R,其仿射组合 (1−λ)x1+λx2 都属于集合S。
凸集(Convex Set): C 是凸的⟺∀x1,x2∈C, ∀λ∈[0,1], (1−λ)x1+λx2∈C
凸组合(Convex Combinations):x=λ1x1+λ2x2+⋯+λnxn,∑i=1nλi=1
典型的凸集:非负正交象限(Non-negative Orthant)(所有坐标都非负数),超平面(Hyperplane),半空间(Half Space),欧几里得球(Euclidean Ball),凸锥(Convex Cone)(封闭性+非负性)
Convex Set 的两个性质:投影(Projection),分离(Separation)
Projection:投影点是存在且唯一的,计算投影可以考虑∥x−p∥=miny∈C∥x−y∥
Separation:
假设 C1 和 C2 是两个凸集,且 C1∩C2=∅,并且至少有一个集合是开集。则存在一个超平面 H,使得:
C1⊆{x∣a⊤x≤α},C2⊆{x∣a⊤x≥β}
其中,a 是超平面的法向量,且 α和 β 是常数。
考点:判断凸集、投影(两个定理)。
CH03.Convex Functions
凸函数(Convex Functions):有效域(Effective Domain)(在什么定义域上面有凸性),上图集(Epigrhaph)(直观理解在曲线上方的点)(如果一个函数是Convex的,那么它的Epigraph也是Convex的,反之同理),琴生不等式(f(E[X])≤E[f(X)])。
凸性运算(Convexity-Preserving Operations):凸集或者凸函数经过凸性运算之后仍然保持凸性。
典型凸性运算:非负线性组合(加法),点wise上确界(Pointwise Supremum)(取每一个点的最大值),单调非递减的凸函数复合,Restrictions on line(凸函数复合一个直线函数也是凸函数)
可微凸函数(Differentiable Convex Functions):凸函数,且在定义上的每个点都存在梯度∇f(x)
可微凸函数的基本性质:梯度不减少(切平面在函数下方),二阶梯度是半正定的(Hessian矩阵判定)
不可微凸函数(Non-Differentiable Convex Functions):凸函数,但是不一定可微
次梯度(Subgradient):f(x)≥f(x0)+g⊤(x−x0),∀x∈Rn
次微分(Subdifferential):所有次梯度构成的集合
考点:判定凸函数(定义,Hessian矩阵)
CH04.Duality
标准线性规划形式(Standard LP Form):
minimize c⊤xsubject to Ax=b,x≥0
多面体(Polyhedron):由有限个超平面所围成的凸集合
Farkas Lemma:如果存在一个非负向量 y,使得 y⊤A=0且 y⊤b>0,则线性系统 Ax≤b 具有解;否则,系统没有解。
弱对偶性(Weak Duality):原始问题的最优目标值大于或者等于对偶问题的最优目标值,所以对偶问题为原问题提供一个下界(最小化问题当中)
弱对偶性定理(Weak Duality Theorem):对于任何原始问题的可行解 x 和任何对偶问题的可行解 y,它们的目标值之间存在以下关系:
c⊤x≤b⊤y
强对偶性(Strong Duality):原始问题和对偶问题在一定条件下有相同的最优值(类似夹逼)
强对偶性定理(Strong Duality):如果原始问题有最优解且对偶问题有最优解,且原始问题的可行域是非空的(即原始问题可行),则原始问题的最优值等于对偶问题的最优值。即:
c⊤x∗=b⊤y∗
最优条件:原始问题可行,Slater条件成立,原始问题和对偶问题都有界
Slater条件:约束函数是凸函数,存在一个严格可行解
互补松弛定理(Complementary Slackness Theorem):如果 x∗ 是原始问题的最优解,y∗ 是对偶问题的最优解,则对于每个约束 i,有:
yi∗(Ax∗−b)i=0,i=1,2,…,m
KTT条件:
原始可行性:Ax∗≤b,x∗≥0
对偶可行性:A⊤y∗≥c,y∗≥0
齐次性:c+A⊤y∗=0
互补松弛性:yi∗(Ax∗−b)i=0
线性规划松弛(LP Relaxation):在整数规划中,决策变量通常被约束为整数或二进制值。松弛过程就是将这些整数或二进制约束去掉,让变量变为连续的,变成一个标准的线性规划问题。
考点:线性规划的标准形式和对偶形式、凑Farkas定理45
CH05.Conic Linear Programming
锥形线性规划(Conic Linear Programming):是一种线性规划的推广形式,约束条件涉及到锥结构
maximizec⊤xsubject tox∈K,Ax≤b
几种特殊的锥形线性规划形式:
线性规划(LP):取非负正交锥K=R+n
二次锥规划(Second-Order Cone Programming):取二次顺序锥K={x∈Rn+1:∥x1∥≤x2}
半正定规划(SDP):取半正定锥
对偶问题:
minimizeb⊤ysubject toA⊤y∈K∗,y≥0
其中:K∗={y:x⊤y≥0 ∀x∈K}
在这个条件下,锥形线性规划仍然满足弱对偶性、强对偶性和Slater条件
鲁棒线性规划(Robust LP):
maximizec⊤xsubject to(A+ΔA)x≤b+Δb,x≥0,∀(ΔA,Δb)∈UA×Ub
其中UA和UB是两个不确定集
半正定松弛(Semidefinite Relaxation):可以将问题从
maximizex⊤Qxsubject tox⊤Aix≤bifor alli=1,…,m
此时引入一个矩阵变量X=xx⊤,然后将原问题的秩约束rank(X)=1替换为半正定约束X⪰0
然后问题就转为为凸优化问题:
maximizetrace(QX)subject totrace(AiX)≤bifor alli=1,…,mX⪰0
CH06. Optimality Conditions
无约束问题的最优性条件:梯度为零条件、二阶Hessian矩阵半正定(二阶充分条件)
有约束问题的最优性条件:KTT条件,John Necessary Conditions
John Necessary Conditions:
局部最优解的基本条件:如果 x∗ 是目标函数 f(x) 在有约束优化问题中的局部最优解,那么,存在拉格朗日乘子 λi≥0和 νj使得下列条件成立:
∇f(x∗)+i=1∑mλi∇gi(x∗)+j=1∑pνj∇hj(x∗)=0
约束的凸性和目标函数的凸性:约翰的条件强调了约束集和目标函数的凸性对最优解的影响。它要求目标函数 f(x) 和约束集(包括不等式约束和等式约束)是凸的。
目标函数 f(x) 必须是凸的,这意味着对于任意两点 x1,x2,有:
f(λx1+(1−λ)x2)≤λf(x1)+(1−λ)f(x2),λ∈[0,1]
约束集,即满足所有不等式约束gi(x)≤0 和等式约束 hj(x)=0的集合,必须是凸的。这保证了局部最优解是全局最优解。
Lagrangian Duality:
原始问题:
minimizef(x)subject togi(x)≤0,i=1,…,mhj(x)=0,j=1,…,p
构造拉格朗日函数:
L(x,λ,ν)=f(x)+i=1∑mλigi(x)+j=1∑pνjhj(x)
考点:会写KKT条件和Lagrange 对偶,最优性分析