闵氏距离

  • 定义:

\[ d_{\text {闵 }}(\boldsymbol{x}, \boldsymbol{y})=\left(\sum_{i=1}^n\left|x_i-y_i\right|^p\right)^{\frac{1}{p}} \] - \(x=[x_1,x_2,\cdots ,x_n]\),\(y=[y_1,y_2,\cdots,y_n]\)为两个待评定样本的特征向量

曼哈顿距离

  • 定义: \[ d_{\text {曼 }}(\boldsymbol{x}, \boldsymbol{y})=\left(\sum_{i=1}^n\left|x_i-y_i\right|\right) \]

欧氏距离

  • 定义: \[ d_{\text {欧 }}(\boldsymbol{x}, \boldsymbol{y})=\sqrt{\sum_{i=1}^n\left(x_i-y_i\right)^2} \]

切比雪夫距离

  • 定义: \[ d_{\text {切 }}(\boldsymbol{x}, \boldsymbol{y})=\lim _{p \rightarrow \infty}\left(\sum_{i=1}^n\left|x_i-y_i\right|^p\right)^{\frac{1}{p}}=\max _{i=\{1,2, \cdots, n\}}\left|x_i-y_i\right| \]

马氏距离

定义:

\[ d_{\text {马 }}\left(\boldsymbol{x}, \boldsymbol{y}\right)=\sqrt{\left(\boldsymbol{x}-\boldsymbol{y}\right) \boldsymbol{\Sigma}^{-1}\left(\boldsymbol{x}-\boldsymbol{y}\right)^{\mathrm{T}}} \]

其中: - \(x\)\(y\) 是两个点的向量。 - \(\sum\) 是数据集的协方差矩阵。 - \(\sum^{-1}\) 是协方差矩阵的逆矩阵。

如果 y 是数据集的均值向量 \(μ\),则马氏距离可以简化为: \[ d_{\text {马 }}\left(\boldsymbol{x}\right)=\sqrt{\left(\boldsymbol{x}-\boldsymbol{\mu}\right) \boldsymbol{\Sigma}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^{\mathrm{T}}} \]

余弦距离

  • 夹角余弦: \[ cos\theta = \frac{<\boldsymbol{x},\boldsymbol{y}>}{||\boldsymbol{xy}||}=\frac{\boldsymbol{xy^\mathrm{T}}}{||\boldsymbol{xy}||} \] \[ d_{\text{余}}(\boldsymbol{x},\boldsymbol{y})=1-\frac{\boldsymbol{xy^\mathrm{T}}}{\sqrt{\boldsymbol{xx^\mathrm{T}}}\sqrt{\boldsymbol{yy^\mathrm{T}}}} \]

汉明距离

严格定义: \[d_{汉}(\boldsymbol{x},\boldsymbol{y})=\sum_{i=1}^{n}sgn(|x_i-y_i|)\] ——\(x,y\)中不相等的分量数

其中,\(sgn\)为符号指示函数,即 \[ \operatorname{sgn}(x)= \begin{cases}1, & x>0 \\ 0, & x=0 \\ -1, & x<0\end{cases} \]

松弛定义:\[d_{汉松}(\boldsymbol{x},\boldsymbol{y})=\sum_{i=1}^{n}sgn(|x_i-y_i|>\epsilon)\]

杰卡德距离

严格定义: \[s_{杰}(\boldsymbol{x},\boldsymbol{y})=\frac{1}{n}\sum_{i=1}^{n}(1-sgn(|x_i-y_i|))\] ——\(x,y\)中相等分量数的对==维度==的均值

\[d_{杰}(\boldsymbol{x},\boldsymbol{y})=1-s_杰(\boldsymbol{x},\boldsymbol{y})\]

松弛定义:\[s_{杰松}(\boldsymbol{x},\boldsymbol{y})=\frac{1}{n}\sum_{i=1}^{n}(1-sgn(|x_i-y_i|>\epsilon))\]

\[d_{杰松}(\boldsymbol{x},\boldsymbol{y})=1-s_{杰松}(\boldsymbol{x},\boldsymbol{y})\]

皮尔森距离

相关系数: \[ s_{皮}(\boldsymbol{x}, \boldsymbol{y})=\frac{(\boldsymbol{x}-\bar{x})(\boldsymbol{y}-\bar{y})^{\mathrm{T}}}{\sqrt{(\boldsymbol{x}-\bar{x})(\boldsymbol{x}-\bar{x})^{\mathrm{T}}} \sqrt{(\boldsymbol{y}-\bar{y})(\boldsymbol{y}-\bar{y})^{\mathrm{T}}}}=cos(\boldsymbol{x}-\bar{x},\boldsymbol{y}-\bar{y}) \]\(\bar{x}=0\)\(\bar{y}=0\),则皮尔森相关系数可改写为: \[ s_{皮}(\boldsymbol{x}, \boldsymbol{y})=\frac{\boldsymbol{x}\boldsymbol{y}^{\mathrm{T}}}{\sqrt{\boldsymbol{x}\boldsymbol{x}^{\mathrm{T}}} \sqrt{\boldsymbol{y}\boldsymbol{y}^{\mathrm{T}}}}=cos(\boldsymbol{x},\boldsymbol{y}) \]

Tips: 若\(\bar{x}=\bar{y}=0\)\(\sigma_x=\sigma_y=1\)时,皮尔森相关系数退化为欧氏距离的平方 \[ d_{皮}(\boldsymbol{x},\boldsymbol{y})=1-|s_{皮}(\boldsymbol{x},\boldsymbol{y})| \]

斯皮尔曼距离

相关系数: \[ \begin{aligned} &s_{\text {斯 }}(r(\boldsymbol{x}), r(\boldsymbol{y}))=\frac{(r(\boldsymbol{x})-\bar{r}(\boldsymbol{x}))(r(\boldsymbol{y})-\bar{r}(\boldsymbol{y}))^{\mathrm{T}}}{\sqrt{(r(\boldsymbol{x})-\bar{r}(\boldsymbol{x}))(r(\boldsymbol{x})-\bar{r}(\boldsymbol{x}))^{\mathrm{T}}} \sqrt{(r(\boldsymbol{y})-\bar{r}(\boldsymbol{y}))(r(\boldsymbol{y})-\bar{r}(\boldsymbol{y}))^{\mathrm{T}}}}\\ &\text { 其中,} \bar{r}(\boldsymbol{x})=(1 / n) \sum_{i=1}^n r\left(x_i\right), ~ \bar{r}(\boldsymbol{y})=(1 / n) \sum_{i=1}^n r\left(y_i\right) \\ &\text{范围:}[-1 \boldsymbol{\to} +1] \end{aligned} \] \[d_{斯}(\boldsymbol{x},\boldsymbol{y})=1-|s_{斯}(\boldsymbol{x},\boldsymbol{y})|\]

肯德尔距离

相关系数: \[ s_{\text {肯 }}(\boldsymbol{x}, \boldsymbol{y})=\frac{ \sum_{i=1}^n \sum_{k=i+1}^n \operatorname{sgn}\left(\left(x_i-x_k\right)\left(y_i-y_k\right)\right)}{\frac{1}{2}n(n-1)} \]

\[s_肯=\frac{一致对数量-不一致对的数量}{总对数}\]

距离度量: \[ d_{肯}(\boldsymbol{x},\boldsymbol{y})=1-|s_{肯}(\boldsymbol{x},\boldsymbol{y})| \] - 例子: 假设有两个排序 \(R_1\)\(R_2\)\[ R_1 = [A, B, C, D] \] \[ R_2 = [A, C, B, D] \] 1. 列举所有对 对于 4 个元素,共有 \(\frac{4 \times 3}{2} = 6\) 个对: \[ (A, B), (A, C), (A, D), (B, C), (B, D), (C, D) \]

  1. 计算不一致的对数 逐对检查 \(R_1\)\(R_2\) 的一致性:
    1. \((A, B)\):
    • \(R_1\):A 在 B 前面,
    • \(R_2\):A 在 B 前面,
    • 一致。
  2. \((B, C)\)
    • \(R_1\):B 在 C 前面,
    • \(R_2\):C 在 B 前面,
    • 不一致。

不一致的对数为 1,因此肯德尔距离为:

\[ D_K = 1 \] ---