博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
统计学习精要(The Elements of Statistical Learning)课堂笔记(二十三):原型方法和最近邻KNN
阅读量:3516 次
发布时间:2019-05-20

本文共 1464 字,大约阅读时间需要 4 分钟。

笔记(二十二)需要等我找到上一本笔记本再说,暂时不知道扔到哪里去了...汗。届时补上。

这一章主要是讲的原型方法(prototype)和最近邻(KNN)。相对而言直觉更强,公式没那么复杂。

--------------------------笔记开始-------------------

1. 原型方法

1) 1-NN 最近邻居方法

最极端的情况:只找到最近的一位邻居。

数据集 D={

(xi,yi),1iN}

,输入
xi ,在
{
xj,ji}
中找到与
xi 最近的邻居
xk ,输出
xk 对应的类标记
yk

2) 类中心的方法

类中心: ck=1Nkyi=kxi,1kK

,相当于对于一群有着同样类标记的点,对x取平均。

输入: xi

,而后在所有类中心中与其最近的类中心
cl

输出: cl

对应的类标记。

3) 对每个类可计算若干个“中心”(称之为原型或者样板,比如在每类中做聚类)。

输入: xi

,而后在所有类中心中与其最近的类中心
cl

输出: cl

对应的类标记。

4) K-NN方法

输入: xi

,在
{
xj,ji}
中找到与
xi

最近的K个邻居。

输出: maxyk

(最多的那一类,从众原则的感觉)。

由于这一类方法都比较懒,所以称之为lazy learning methods.

2. K-NN方法的错误率(渐近性质)

1) 结果

P(e)

为Bayes分类器的错误概率(最优分类器);
P¯(e)

为1-NN分类器的错误概率。

则有:当样本数 N

时,
P(e)P¯(e)2P(e)

。接下来会证明这个优良的性质。

2) 分类问题

给定 (x,y)

,则
P(x,y)=P(y)P(x|y)

这里我们称 P(y=k)=πk

为先验分布,
P(x|y=k)=fk(x)

为类分布。从而

Pk(x)=P(y=k|x)=P(y=k,x)P(x)=P(y=k)P(x|y=k)kP(x,y)=πkfk(x)kπkfk(x)

,称之为后验概率。

3) Bayes分类器

x对应的 k=argmaxkPk(x)

,即使得后验概率最大的k。

所以, P(e|x)=P(yk|x)=1P(y=k|x)=1Pk(x)

,从
P(e)=Ex[P(e|x)]

4) 1-NN分类器

1-NN输出的是离x最近的 x¯

对应的
y¯

,则

P¯(e|x)=P(yy¯|x)=1P(y=y¯|x)=Kk=1P(y=k,yy¯|x)=Kk=1P(y=k|x)P(ky¯|x,y=k)

由于 ky¯

只限训练集,而
y=k

那部分只跟测试集有关,所以由独立性我们可以拆分为:

=Kk=1Pk(x)P(ky¯|x)

,则当
N 时,
xx¯ ,
yy¯ ,上面一项可以收敛为
Kk=1Pk(x)(1Pk(x))=1Kk=1P2k(x)

,为后验概率(条件误差)。

5)由于 P(e|x)=1Pk(x)

,设
Pk 为所有
Pk

中最大的,则

P¯(e|x)=1P2kkkP2k1P2k1K1(1P2k)=2P(e|x)P(e|x)21K1P(e|x)2

6) P¯(e)=Ex[P¯(e|x)]=Ex[2P(e|x)P(e|x)21K1P(e|x)2]2P(e)KK1P(e)22P(e)

。得证。

下一章会讲到聚类,然后就是降维了。

转载地址:http://jcvqj.baihongyu.com/

你可能感兴趣的文章
项目整合微信扫码登录功能
查看>>
分布式文件系统FastDfs的搭建
查看>>
Springboot项目利用Java客户端调用FastDFS
查看>>
全文检索工具elasticsearch的安装和简单介绍
查看>>
利用Kibana学习全文检索工具elasticsearch
查看>>
SpringBoot在Test测试类或自定义类中通过@Autowired注入为null
查看>>
使用docker搭建YAPI服务
查看>>
西南科技大学OJ题 邻接表到邻接矩阵1056
查看>>
西南科技大学OJ题 有向图的出度计算1057
查看>>
西南科技大学OJ题 有向图的最大出度计算1059
查看>>
西南科技大学OJ题 带权有向图计算1063
查看>>
oracle主键自增触发器编写
查看>>
String与StringBuilder与StringBuffer三者的差别
查看>>
各种IO流之间的关系和区别
查看>>
SSM如何实现上传单图片
查看>>
SSM环境下java如何实现语音识别(百度语音识别版)
查看>>
ajax方法参数的用法和他的含义
查看>>
数据库基础技巧及用法
查看>>
实用方法:无request参数时获得当前的request的方法
查看>>
JS操作数组常用实用方法
查看>>