当前位置:网站首页>电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析
电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析
2022-08-10 19:15:00 【电信保温杯】
电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析
论文
潜在语义分析:《Indexing by latent semantic analysis》
非负矩阵分解算法:《Learning parts of objects by non-negative matrix factorization》、《Algorithms for non-negative matrix factorization》
介绍
本文是对原书的精读,会有大量原书的截图,同时对书上不详尽的地方进行细致解读与改写。
潜在语义分析(latent semantic analysis,LSA)是一种无监督学习方法,也被称为潜在语义索引(latent semantic indexing,LSI),主要用于文本的话题分析。传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度。潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行分解,从而得到话题向量空间,以及文本在话题向量空间的表示。
单词向量空间在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。为了解决这个问题,提出了话题向量空间。
单词向量空间
优点:单词向量空间模型的优点是模型简单,计算效率高。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成。
缺点:在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。
话题向量空间
话题向量空间
文本在话题向量空间的表示
从单词向量空间到话题向量空间的线性变换
潜在语义分析算法
矩阵奇异值分解算法
步骤
1. 单词-文本矩阵
2. 截断奇异值分解
3. 话题向量空间
4. 文本的话题空间表示
例子
非负矩阵分解算法
非负矩阵分解
潜在语义分析模型
非负矩阵分解的形式化
算法
∂ J ( W , H ) ∂ W i l = ∂ ( 1 2 ∑ p ∑ j [ X p j − ∑ k W p k H k j ] 2 ) ∂ W i l = 1 2 ∂ ( ∑ p ≠ i ∑ j [ X p j − ∑ k W p k H k j ] 2 + ∑ j [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = 1 2 ∂ ( ∑ j [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = 1 2 ∑ j ∂ ( [ X i j − ∑ k W i k H k j ] 2 ) ∂ W i l = ∑ j ( [ X i j − ∑ k W i k H k j ] ) ∂ ( [ X i j − ∑ k W i k H k j ] ) ∂ W i l = ∑ j ( [ X i j − ( W H ) i j ] ) ∂ ( [ X i j − ∑ k W i k H k j ] ) ∂ W i l = − ∑ j ( [ X i j − ( W H ) i j ] ) ∂ ( ∑ k W i k H k j ] ) ∂ W i l = − ∑ j ( [ X i j − ( W H ) i j ] ) H l j = − ∑ j ( [ X i j − ( W H ) i j ] ) H j l T = − ( ∑ j X i j H j l T − ∑ j ( W H ) i j H j l T ) = − [ ( X H T ) j l − ( W H H T ) i j ] ( 17.28 ) \begin{aligned} \frac{\partial J(W,H)}{\partial W_{il}} &= \frac{ \partial \left( \frac{1}{2} \sum_{p}\sum_{j} [X_{pj} - \sum_k W_{pk}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \frac{ \partial \left( \sum_{p\neq i}\sum_{j} [X_{pj} - \sum_k W_{pk}H_{kj} ]^2 + \sum_{j} [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \frac{ \partial \left( \sum_{j} [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \frac{1}{2} \sum_{j} \frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ]^2 \right) }{\partial W_{il}} \\ &= \sum_{j} \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right)\frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= \sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right)\frac{ \partial \left( [X_{ij} - \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right)\frac{ \partial \left( \sum_k W_{ik}H_{kj} ] \right) }{\partial W_{il}} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right) H_{lj} \\ &= -\sum_{j} \left( [X_{ij} - (WH)_{ij} ] \right) H_{jl}^T \\ &= - \left( \sum_{j}X_{ij}H_{jl}^T - \sum_{j}(WH)_{ij}H_{jl}^T \right) \\ &= - \left[ (XH^T)_{jl} - (WHH^T)_{ij} \right] \quad\quad\quad\quad\quad\quad (17.28) \end{aligned} ∂Wil∂J(W,H)=∂Wil∂(21∑p∑j[Xpj−∑kWpkHkj]2)=21∂Wil∂(∑p=i∑j[Xpj−∑kWpkHkj]2+∑j[Xij−∑kWikHkj]2)=21∂Wil∂(∑j[Xij−∑kWikHkj]2)=21j∑∂Wil∂([Xij−∑kWikHkj]2)=j∑([Xij−k∑WikHkj])∂Wil∂([Xij−∑kWikHkj])=j∑([Xij−(WH)ij])∂Wil∂([Xij−∑kWikHkj])=−j∑([Xij−(WH)ij])∂Wil∂(∑kWikHkj])=−j∑([Xij−(WH)ij])Hlj=−j∑([Xij−(WH)ij])HjlT=−(j∑XijHjlT−j∑(WH)ijHjlT)=−[(XHT)jl−(WHHT)ij](17.28)
步骤
本章概要
相关视频
相关的笔记
hktxt /Learn-Statistical-Learning-Method
相关代码
边栏推荐
猜你喜欢
力扣18-四数之和——双指针法
Keras deep learning combat (17) - image segmentation using U-Net architecture
苹果字体查找
Demis Hassabis:AI 的强大,超乎我们的想象
QoS Quality of Service Eight Congestion Avoidance
测试/开发程序员值这么多钱么?“我“不会愿赌服输......
电脑重装系统Win11格式化硬盘的详细方法
【LeetCode】42、接雨水
[email prot"/>
Transferrin-modified osthole long-circulating liposomes/PEG-PLGA nanoparticles loaded with notoginsenoside R1 ([email prot
idea插件 协议 。。 公司申请软件用
随机推荐
【C#】WCF和TCP消息通信练习,实现群聊功能
手把手教你Charles抓包工具使用
whois信息收集&企业备案信息
一维数组动态和问题答记
常用Anaconda安装错误解决办法Traceback (most recent call last):[通俗易懂]
2022杭电多校七 Black Magic (签到)
Pt/CeO2 monatomic nanoparticles enzyme | H - rGO - Pt @ Pd NPs enzyme | carbon nanotube load platinum nanoparticles peptide modified nano enzyme | leukemia antagonism FeOPtPEG composite nano enzyme
Today's bug, click on the bug that the Windows dynamic wallpaper disappears in the win10 taskbar, and no solution has been found yet.
Keras deep learning combat (17) - image segmentation using U-Net architecture
报错:runtime error: reference binding to null pointer of type ‘std::vector<int, std::allocator<int>>‘
The 2021 ICPC Asia Shanghai Regional Programming Contest D、E
苹果字体查找
MATLAB设计,FPGA实现,联合ISE和Modelsim仿真的FIR滤波器设计
“蔚来杯“2022牛客暑期多校训练营7 F
你不知道的浏览器页面渲染机制
【SemiDrive源码分析】【MailBox核间通信】51 - DCF_IPCC_Property实现原理分析 及 代码实战
子域名收集&Google搜索引擎语法
测试开发【Mock 平台】08 开发:项目管理(四)编辑功能和Component抽离
【Knowledge Sharing】What is SEI in the field of audio and video development?
opengrok搭建[通俗易懂]