距离分类器

概述¶

识别对象与某个类别是否相似是人在做出识别判断时的一个基本依据

\[j=\argmin_{1\leq i\leq c}s(\vec{x},\omega_i)\]

每个类别的先验知识就是一个模板\(\mu_i\)

利用\(x\)与模板\(\mu_i\)的相似度作为\(x\)与类别\(\omega_i\)的相似度

用距离作为度量样本之间的相似度

\[s(\vec{x},\mu)=-d(\vec{x},\mu)=-||\vec{x}-\mu||_2\]

其中\(||\cdot||_2\)为矢量的\(l_2\)范数，差矢量\(\vec{x}-\mu\)的\(l_2\)范数就是两个点之间的欧氏距离

算法实现：

任何一个定义在两个矢量上的函数\(d(x,y)\)，只要满足如下4个性质就可以乘坐距离度量

常见的距离度量函数：

闵可夫斯基距离

\[d(\vec{x},\vec{y})=\left[\sum_{i=1}^{n}|x_i-y_i|^q\right]^{\frac{1}{q}}\]

马氏距离

\[D(x,y)=\sqrt{(\vec{x}-\vec{y})^TC^{-1}(\vec{x}-\vec{y})}\]

其中\(C=\frac{1}{n-1}\sum_{i=1}^{n}\left((x_i-\bar{x})(y_i-\bar{y})\right)^T\)为多维特征协方差矩阵，如果各维特征独立同分布，那么马氏距离就是欧氏距离

特征量纲会导致计算结果的不同，比如两个特征量纲不同的特征，其距离度量值会有很大的差别

所以使用样本规格化：使样本的每一维特征都分布在相同的范围内，计算距离度量时每一维特征上的差异都会得到相同的体现

衡量相似度不一定需要距离，在某些情况下可以选择更直接的方法衡量相似度

相似性度量随着样本间相似程度的增加而增大，距离则是随着相似程度的增加而减小。为了保持一致性可以将相似度和距离进行转换，如\(s(x,y)=-D(x,y)\)