当前位置:网站首页>机器学习笔记:t-SNE
机器学习笔记:t-SNE
2022-08-10 20:24:00 【UQI-LIUWJ】
0 前言
- t-SNE(t-Distributed Stochastic Neighbor Embedding)
- 是一种非常常用的数据降维,常用于数据可视化
- t-SNE/SNE的基本原理是:
- 在高维空间构建一个概率分布拟合高维样本点间的相对位置关系
- 在低维空间,也构建 一个概率分布,拟合低维样本点之间的位置关系
- 通过学习,调整低维数据点,令两个分布接近
1 SNE 随机邻域嵌入 ( Stochastic Neighbor Embedding )
(类似于softmax)
- 如果低维映射点yi和yj成功正确地建模了高维数据点xi和xj之间的相似性,则条件概率pj|i和qj|i将相等。
受这一观察结果的启发,SNE的目标是找到一种低维数据表示法,以最小化pj|i和qj|i之间的分布距离(两个条件分布接近)
1.1 SNE主要缺点
1.1.1 距离不对称
不难发现是不等的(分母不一样) ,这就导致了i—>j和j—>i的距离不对称。【与实际情况不符】
改进的方法是使用联合概率而不是条件概率
在实际问题中,计算所有的需要太多的计算复杂度,于是实际应用中,一般是:
1.1.2 拥挤体现
从高维到低维进行转换的过程中,低维点的距离无法建模高维点之间的位置关系,使得高维空间中距离较大的点对,在低维空间距离会变得较小比如原来红绿点之间距离很远,降维之后距离就很近了
2 T-SNE
2.1 σ的求法
最naive的方法就是随机设置了。
更有效地方法如下:
我们把
看成高斯分布,那么σ就类似于标准差
根据高斯分布的性质,我们知道,在(k是一个常数)的区间内,概率是比较大的。
所以我们根据xi周围临近点的数量,来增减σ
那么,如何对σ进行定量的约束呢,我们设置一个固定的参数perlexity,表示分布的熵。
其中
不难发现熵(perplexity)和σi成正比,所以我们可用类似于二分查找法来确定σi
边栏推荐
猜你喜欢
[SWPUCTF 2021 新生赛] web
“2022零信任神兽方阵”启动调研,欢迎各单位填报信息
线性结构----链表
MATLAB设计,FPGA实现,联合ISE和Modelsim仿真的FIR滤波器设计
铁蛋白颗粒负载雷替曲塞/培美曲塞/磺胺地索辛/金刚烷(科研试剂)
电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析
Heme - gold nanoparticles (Heme - AuNP) composite nanometer enzyme | gold nanoparticles nuclear porous hollow carbon nanometer spherical shell (Au @ HCNs) nano enzyme
leetcode 84.柱状图中最大的矩形 单调栈应用
论文解读(g-U-Nets)《Graph U-Nets》
echart 特例-多分组X轴
随机推荐
爬虫基本原理介绍、实现以及问题解决
@Autowired annotation --required a single bean, but 2 were found causes and solutions
cordova installation error Command failed: powershell solution
Knowledge map Knowledge Graph
电脑为什么会蓝屏的原因
mysql踩坑----case when then用法
UE4 - 河流流体插件Fluid Flux
双 TL431 级联振荡器
参天生长大模型:昇腾AI如何强壮模型开发与创新之根?
深度学习实战教程(一):感知器
烟雾、空气质量、温湿度…自己徒手做个环境检测设备
svg+元素js实现在图片上描点成框,并获取相对图片的坐标位置
C语言详解系列——关于调试那些事
Ferritin particle-loaded raltitrexed/pemetrexed/sulfadesoxine/adamantane (scientific research reagent)
(十二)STM32——NVIC中断优先级管理
运维面试题(每日一题)
七月券商金工精选
通用线程:POSIX 线程详解,第 2部分
金鱼哥RHCA回忆录:CL210OpenStack操作的故障排除--章节实验
MySQL查询数据库中的表和字段