当前位置：网站首页>机器学习——逻辑回归

机器学习——逻辑回归

2022-04-23 15:08:00 【請叫我做雷锋】

一、二项逻辑回归
1.二项逻辑回归是一个功能，最终输出介于0到1之间的值，为了解决类似于“成功或者失败”，“有或无"这种”非是即否"的问题。
2.逻辑回归是一个把线性回归模型映射为概率的模型，即把实数空间的输出[-∞，+∞]映射到(0,1),从而获取概率。（个人理解：回归的含义——用观察使得认知接近真值的过程，回归本源。）
3.通过画图的方式来直观认识这种映射，我们首先定义一个二元线性回归模型：
$\hat{y}=\theta_1x_1+\theta_2x_2+bias, 其中\hat{y}∈(-∞，＋∞)$
线性回归图：
在这里插入图片描述
逻辑回归图：

二、probability和odds的定义
1.probability指的是 发生的次数/总次数 ，以抛硬币为例：

p的取值范围为[0，+∞）
2.odds则是一种比率，是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。即 发生的次数/没有发生的次数 ,以抛硬币为例：
在这里插入图片描述
odds的取值范围为[0，+∞）
3.回顾伯努利分布：如果X是伯努利分布中的随机变量，X的取值为{0，1}，非0即1，如抛硬币的正反面：
则：P(X=1)=p,P(X=0)=1-p
代入odds：

三、logit函数和sigmoid函数及他们的特性:
1.Odds的对数称之为Logit，也写作log-it。
2.我们对odds取log,扩展odds的取值范围到实数空间[-∞，+∞]，这就是logit函数：
$logit(p)=log_e(odds)=log_e(\frac{p}{1-p}),p∈(0,1),logit(p)∈(-∞，＋∞)$
3.我们可以使用线性回归模型来表示logit§,因为线性回归模型和logit函数的输出有着同样的取值范围：
例如： $logit(p)=\theta_1x_1+\theta_2x_2+bias$
以下是logit§的函数图像，注意p∈(0,1),当p=0或者p=1时，logit属于未定义。
在这里插入图片描述
由 $logit(p)=\theta_1x_1+\theta_2x_2+bias$
得
$log(\frac{p}{1-p} )=\theta_1x_1+\theta_2x_2+bias$
注：可能有人会产生误解，不理解如何转换，logit§表示的是与参数p相关的对数函数，在这里
logit( p )=log(p/(1-p))。

设 $z=\theta_1x_1+\theta_2x_2+bias$
得 $log(\frac{p}{1-p} )=z$
等式两边取以e为敌的指数函数：
$\frac{p}{1-p}=e^{z}$
$p=e^{z}(1-p)=e^{z}-e^{z}p$
$p(1+e^z)=e^z$
$p=\frac{e^z}{(1+e^z)}$
分子分母同时除以 $e^z$ ,得
$p=\frac{1}{(1+e^{-z})} ,p∈(0,1)$
经过上面的推导，我们得出了sigmoid函数，最终把线性回归模型输出的实数空间取值映射成为概率了。
$sigmoid(z)=\frac{1}{1+e^{-z}} ,p∈(0,1)$
下面是sigmoid的函数图像，注意sigmoid(z)的取值范围
在这里插入图片描述
四、最大似然估计
1.引入假设函数 $h_\theta(X)$ ,设 $\theta^TX$ 为线性回归模型：
$\theta^TX$ 中， $\theta^T$ 和X均为列向量，例如：
$\theta^T=\begin{bmatrix} bias & \theta_1 &\theta_2 \end{bmatrix}$
$X=\begin{bmatrix} 1 \\ x_1 \\ x_2 \end{bmatrix}$
求矩阵点积，得出：
$\theta^TX=bias*1+\theta_1*x_1+\theta_2*x_2=\theta_1x_1+\theta_2*x_2+bias$
设 $\theta^TX=z$ ,则有假设函数:
$h_\theta (X)=\frac{1}{1+e^{-z}} =P(Y=1|X;\theta )$
上式表示的是在条件X和 $\theta$ 下Y=1的概率；
$P(Y=1|X;\theta )=1-h_\theta(X)$
上式表示的是在条件X和 $\theta$ 下Y=1=0的概率。
2.回顾伯努利分布
$f(k;p)\left\{\begin{matrix} p, &if&k=1 \\ q=1-p, &if&k=0 \end{matrix}\right.$
或者 $f(k;p)=p^k(1-p)^{1-k}$ ,for k∈{0，1}。注意f(k;p)表示的是k为0或1的概率，也就是P(k)
3.最大似然估计得目的是找到一个最符合数据的概率分布。
例如下图中的XX指的是数据点，图中所有红色箭头长度的乘积就是似然函数的输出，显然，上半图的分布似然函数要比下半图的大，所以上半图的分布更符合数据，而最大似然估计就是找到一个最符合当前数据的分布。
在这里插入图片描述

4.定义似然函数
$L(\theta|x)=P(Y|X;\theta )=\prod_{i}^{m} P(y_i|x_i;\theta )=\prod_{i}^{m} h_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{(1-{y_i})}$ ，
其中i为每个数据样本，共有m个数据样本，最大似然估计的目的是让上式的“从输出值”尽可能大；对上式取log，以方便计算，因为log可以把乘积转换为加法，而且不影响我们的优化目标：
$L(\theta|x)=log(P(Y|X;\theta ))=\sum_{i=1}^{m} y_ilog(h_\theta (x_i))+(1-y_i)log(1-h_\theta (x_i))$
我们只要在式子前面加一个负号，即可把求最大转化为求最小，设 $h_\theta (X)=\hat{Y}$ ,得出损失函数 $J(\theta)$ ,我们只要最小化这个函数，就能通过求导来得到我们想要的 $\theta$ :
$J(\theta)=-\sum_{i}^{m} Ylog(\hat{Y})-(1-Y)log(1-\hat{Y})$

版权声明
本文为[請叫我做雷锋]所创，转载请带上原文链接，感谢
https://blog.csdn.net/weixin_44646187/article/details/124354252

当前位置：网站首页>机器学习——逻辑回归

机器学习——逻辑回归

边栏推荐

猜你喜欢

随机推荐