当前位置:网站首页>电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析
电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析
2022-08-10 19:15:00 【电信保温杯】
电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析
论文
潜在语义分析:《Indexing by latent semantic analysis》
非负矩阵分解算法:《Learning parts of objects by non-negative matrix factorization》、《Algorithms for non-negative matrix factorization》
介绍
本文是对原书的精读,会有大量原书的截图,同时对书上不详尽的地方进行细致解读与改写。
潜在语义分析(latent semantic analysis,LSA)是一种无监督学习方法,也被称为潜在语义索引(latent semantic indexing,LSI),主要用于文本的话题分析。传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度。潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行分解,从而得到话题向量空间,以及文本在话题向量空间的表示。
单词向量空间在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。为了解决这个问题,提出了话题向量空间。
单词向量空间
优点:单词向量空间模型的优点是模型简单,计算效率高。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成。
缺点:在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。
话题向量空间
话题向量空间
文本在话题向量空间的表示
从单词向量空间到话题向量空间的线性变换
潜在语义分析算法
矩阵奇异值分解算法
步骤
1. 单词-文本矩阵
2. 截断奇异值分解
3. 话题向量空间
4. 文本的话题空间表示
例子
非负矩阵分解算法
非负矩阵分解
潜在语义分析模型
非负矩阵分解的形式化
算法
∂ J ( W , H ) ∂ W i l = ∂ ( 1 2 ∑ p ∑ j [ X p j − ∑ k W p k H k j ] 2 ) ∂ W i l = 1 2 ∂ ( ∑ p ≠ i ∑ j [ X p j − ∑ k W p k H k j ] 2 + ∑ j [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = 1 2 ∂ ( ∑ j [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = 1 2 ∑ j ∂ ( [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = ∑ j ( [ X i j − ∑ k W i k H k j ] ) ∂ ( [ X i j − ∑ k W i k H k j ] ) ∂ W i l = ∑ j ( [ X i j − ( W H ) i j ] ) ∂ ( [ X i j − ∑ k W i k H k j ] ) ∂ W i l = − ∑ j ( [ X i j − ( W H ) i j ] ) ∂ ( ∑ k W i k H k j ] ) ∂ W i l = − ∑ j ( [ X i j − ( W H ) i j ] ) H l j = − ∑ j ( [ X i j − ( W H ) i j ] ) H j l T = − ( ∑ j X i j H j l T − ∑ j ( W H ) i j H j l T ) = − [ ( X H T ) j l − ( W H H T ) i j ] ( 17.28 ) \begin{aligned} \frac{\partial J(W,H)}{\partial W_{il}} &= \frac{ \partial \left( \frac{1}{2} \sum_{p}\sum_{j} [X_{pj} - \sum_k W_{pk}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \frac{ \partial \left( \sum_{p\neq i}\sum_{j} [X_{pj} - \sum_k W_{pk}H_{kj} ]^2 + \sum_{j} [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \frac{ \partial \left( \sum_{j} [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \sum_{j} \frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \sum_{j} \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right)\frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= \sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right)\frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right)\frac{ \partial \left( \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right) H_{lj} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right) H_{jl}^T \\ &= - \left( \sum_{j}X_{ij}H_{jl}^T - \sum_{j}(WH)_{ij}H_{jl}^T \right) \\ &= - \left[ (XH^T)_{jl} - (WHH^T)_{ij} \right] \quad\quad\quad\quad\quad\quad (17.28) \end{aligned} ∂Wil∂J(W,H)=∂Wil∂(21∑p∑j[Xpj−∑kWpkHkj]2)=21∂Wil∂(∑p=i∑j[Xpj−∑kWpkHkj]2+∑j[Xij−∑kWikHkj]2)=21∂Wil∂(∑j[Xij−∑kWikHkj]2)=21j∑∂Wil∂([Xij−∑kWikHkj]2)=j∑([Xij−k∑WikHkj])∂Wil∂([Xij−∑kWikHkj])=j∑([Xij−(WH)ij])∂Wil∂([Xij−∑kWikHkj])=−j∑([Xij−(WH)ij])∂Wil∂(∑kWikHkj])=−j∑([Xij−(WH)ij])Hlj=−j∑([Xij−(WH)ij])HjlT=−(j∑XijHjlT−j∑(WH)ijHjlT)=−[(XHT)jl−(WHHT)ij](17.28)
步骤
本章概要
相关视频
相关的笔记
hktxt /Learn-Statistical-Learning-Method
相关代码
边栏推荐
- 不止跑路,拯救误操作rm -rf /*的小伙儿
- 【语义分割】2017-PSPNet CVPR
- Transferrin-modified vincristine-tetrandrine liposomes | transferrin-modified co-loaded paclitaxel and genistein liposomes (reagents)
- (10) Sequence and deserialization of image data
- servlet映射路径匹配解析
- flask生成路由的2种方式和反向生成url
- Keras deep learning combat (17) - image segmentation using U-Net architecture
- 手把手教你Charles抓包工具使用
- 运维面试题(每日一题)
- The servlet mapping path matching resolution
猜你喜欢
QoS Quality of Service Seven Switch Congestion Management
转铁蛋白修饰长春新碱-粉防己碱脂质体|转铁蛋白修饰共载紫杉醇和金雀异黄素脂质体(试剂)
电脑为什么会蓝屏的原因
idea插件 协议 。。 公司申请软件用
CMU博士论文 | 视频多模态学习:探索模型和任务复杂性
Modern Privacy-Preserving Record Linkage Techniques: An Overview论文总结
测试/开发程序员值这么多钱么?“我“不会愿赌服输......
多功能纳米酶Ag/PANI|柔性衬底纳米ZnO酶|铑片纳米酶|Ag-Rh合金纳米颗粒纳米酶|铱钌合金/氧化铱仿生纳米酶
端口探测详解
QoS Quality of Service Six Router Congestion Management
随机推荐
The servlet mapping path matching resolution
【毕业设计】基于Stm32的智能疫情防控门禁系统 - 单片机 嵌入式 物联网
【无标题】基于Huffman和LZ77的GZIP压缩
whois information collection & corporate filing information
转铁蛋白(TF)修饰紫杉醇(PTX)脂质体(TF-PTX-LP)|转铁蛋白(Tf)修饰姜黄素脂质体
“蔚来杯“2022牛客暑期多校训练营7 F
苹果字体查找
laya打包发布apk
Demis Hassabis:AI 的强大,超乎我们的想象
whois信息收集&企业备案信息
杭电多校七 1003-Counting Stickmen(组合数学)
QoS Quality of Service Eight Congestion Avoidance
几行深度学习代码设计包含功能位点的候选免疫原、酶活性位点、蛋白结合蛋白、金属配位蛋白
Rider调试ASP.NET Core时报thread not gc-safe的解决方法
从 GAN 到 WGAN
spark学习笔记(九)——sparkSQL核心编程-DataFrame/DataSet/DF、DS、RDD三者之间的转换关系
argparse——命令行参数解析
血红素-金纳米颗粒(Heme-AuNP)复合纳米酶|金纳米颗粒核多孔空心碳纳米球壳([email protected])纳米酶
@Autowired注解 --required a single bean, but 2 were found出现的原因以及解决方法
常见端口及服务