PRML 笔记(不定期更新)

数据挖掘王开新 发表了文章 • 0 个评论 • 40 次浏览 • 2017-02-23 10:44 • 来自相关话题

基本上算是翻译了,有些部分加了点自己的理解,英文看烦了的可以来看看
贝叶斯与多项式拟合信息论基础决策论基础偏差方差分解支持向量机(Support Vector Machine) 概率论基础1——伯努利分布及其共轭先验 概率论基础2-多元高斯分布的边际分布和条件分布 概率论基础3-高斯分布及其共轭先验条件独立 查看全部

大家都是用什么下载计算机教材pdf的呢

其他王开新 回复了问题 • 4 人关注 • 4 个回复 • 210 次浏览 • 2017-02-04 09:54 • 来自相关话题

VC维与学习理论

数据挖掘王开新 发表了文章 • 0 个评论 • 41 次浏览 • 2017-01-26 21:22 • 来自相关话题

例行转载
http://keson96.github.io/2017/01/26/2017-01-26-VC-Dimensions-And-Learning-Theory/
 
祝大家新年快乐哈!
2017多多发帖!
例行转载
http://keson96.github.io/2017/01/26/2017-01-26-VC-Dimensions-And-Learning-Theory/
 
祝大家新年快乐哈!
2017多多发帖!

#专题分享会第二期#资料汇总

数据挖掘郜梦蕊 发表了文章 • 0 个评论 • 93 次浏览 • 2016-12-22 10:19 • 来自相关话题

         12月17日晚6:30,信管数据挖掘兴趣小组专题分享会第二期于信息管理学院316教室举办。此次分享会主要由四位同学进行分享。分享内容如下:






         首先由15级硕士王腾飞同学分享word2vec的内容。王腾飞先简单介绍了huffman编码、softmax回归等预备知识的内容,以方便大家更容易理解word2vec的内容。然后王腾飞介绍了词向量和统计语言模型的相关知识,其中统计语言模型中涉及到了模型参数的计算方法:n-gram模型、决策树、最大熵模型、最大熵马尔科夫模型、条件随机场和神经网络等算法。作为获得词向量的方法,LSA、LDA和神经概率语言模型都是常用的模型。接着她介绍了word2vec的两个主要模型:其一是基于Hierarchical Softmax框架的CBOW模型,这个模型包括输入层、投影层和输出层三个层次;其二是基于Hierarchical Softmax框架的Skip-gram模型。通过王腾飞同学的分享,大家对word2vec有了一个很好的认识和了解。
 










         接着,16级硕士史昱天以一个很有意思的“魔鬼的游戏”的故事引入了SVM(支持向量机)算法,很形象地指出了SVM算法是用来干什么的,并通过类比引入了SVM算法里面的数据、分类器、最优化、核函数和超平面等概念。史昱天同学分享了SVM算法的优点,即我们为什么选择SVM算法来解决很多问题。后面是SVM算法的重点:SVM算法是怎么实现的?史昱天同学介绍了假设函数、映射函数、分类函数等知识,并指出了理解SVM算法实现过程的有效方法是记住“最小距离最大化”,这也是是SVM的目的。他接下来介绍了SVM算法求解过程中必不可少的几何距离的概念,以及求解过程主要用到的拉格朗日乘子法。当然,其推导过程涉及到了很多公式,不过在史昱天同学的仔细讲解下,大家对其构造和推导过程有了一定了解。再深入一层次,SVM可以处理非线性可分的数据,可以通过将数据向量映射到高维空间来实现。






         后面,由15级硕士孟凡赛介绍一下LR(逻辑回归)和GBDT(迭代决策树)的主要思想。其中LR是逻辑回归,孟凡赛同学给出了理解其思想的主要方法。对于GBDT,其中GT是决策树,接着分别详细介绍了回归树分类模型和GBDT分类模型的例子。然后介绍了DT和GBDT的区别,即指出了二者在模型过拟合方面的相关内容;LR和GBDT在模型本身、数据需求和特征选择方面的差别,鉴于LR和GBDT的优缺点,将二者融合使用成为一种实用性很强的方法。






         最后,由15级硕士戚尔鹏分享最大熵模型的有关内容。首先,戚尔鹏同学先指出了机器学习中监督学习模型包括概率模型和非概率模型。最大熵模型属于概率模型,其中,“熵”的概念及其公式很重要。然后展示了最大熵模型的推导公式和最大熵原理——“选择熵最大的模型”,并展示了一个最大熵模型的例子。紧接着,又以统计建模形式的角度对最大熵模型进行了介绍,给大家展示了模型的经验分布、特征函数等内容,使得大家对最大熵模型的理解更进一个层次。












感谢四位同学的分享,感谢李新春同学认真细致的会议记录!本次分享会成功举办,会上大家进行了积极地讨论与交流,让我们一起共同学习,共同进步吧!

附上相关资料链接:
【word2vec】
http://121.196.217.92/?/article/45 
【SVM】
http://121.196.217.92/?/article/57 
【LR和GBDT的区别】
http://121.196.217.92/?/article/62 
【最大熵模型】
http://121.196.217.92/?/article/52 

                                                     查看全部
         12月17日晚6:30,信管数据挖掘兴趣小组专题分享会第二期于信息管理学院316教室举办。此次分享会主要由四位同学进行分享。分享内容如下:

目录.PNG


         首先由15级硕士王腾飞同学分享word2vec的内容。王腾飞先简单介绍了huffman编码、softmax回归等预备知识的内容,以方便大家更容易理解word2vec的内容。然后王腾飞介绍了词向量和统计语言模型的相关知识,其中统计语言模型中涉及到了模型参数的计算方法:n-gram模型、决策树、最大熵模型、最大熵马尔科夫模型、条件随机场和神经网络等算法。作为获得词向量的方法,LSA、LDA和神经概率语言模型都是常用的模型。接着她介绍了word2vec的两个主要模型:其一是基于Hierarchical Softmax框架的CBOW模型,这个模型包括输入层、投影层和输出层三个层次;其二是基于Hierarchical Softmax框架的Skip-gram模型。通过王腾飞同学的分享,大家对word2vec有了一个很好的认识和了解。
 
2.jpg


1.jpg


         接着,16级硕士史昱天以一个很有意思的“魔鬼的游戏”的故事引入了SVM(支持向量机)算法,很形象地指出了SVM算法是用来干什么的,并通过类比引入了SVM算法里面的数据、分类器、最优化、核函数和超平面等概念。史昱天同学分享了SVM算法的优点,即我们为什么选择SVM算法来解决很多问题。后面是SVM算法的重点:SVM算法是怎么实现的?史昱天同学介绍了假设函数、映射函数、分类函数等知识,并指出了理解SVM算法实现过程的有效方法是记住“最小距离最大化”,这也是是SVM的目的。他接下来介绍了SVM算法求解过程中必不可少的几何距离的概念,以及求解过程主要用到的拉格朗日乘子法。当然,其推导过程涉及到了很多公式,不过在史昱天同学的仔细讲解下,大家对其构造和推导过程有了一定了解。再深入一层次,SVM可以处理非线性可分的数据,可以通过将数据向量映射到高维空间来实现。

3.jpg


         后面,由15级硕士孟凡赛介绍一下LR(逻辑回归)和GBDT(迭代决策树)的主要思想。其中LR是逻辑回归,孟凡赛同学给出了理解其思想的主要方法。对于GBDT,其中GT是决策树,接着分别详细介绍了回归树分类模型和GBDT分类模型的例子。然后介绍了DT和GBDT的区别,即指出了二者在模型过拟合方面的相关内容;LR和GBDT在模型本身、数据需求和特征选择方面的差别,鉴于LR和GBDT的优缺点,将二者融合使用成为一种实用性很强的方法。

4.jpg


         最后,由15级硕士戚尔鹏分享最大熵模型的有关内容。首先,戚尔鹏同学先指出了机器学习中监督学习模型包括概率模型和非概率模型。最大熵模型属于概率模型,其中,“熵”的概念及其公式很重要。然后展示了最大熵模型的推导公式和最大熵原理——“选择熵最大的模型”,并展示了一个最大熵模型的例子。紧接着,又以统计建模形式的角度对最大熵模型进行了介绍,给大家展示了模型的经验分布、特征函数等内容,使得大家对最大熵模型的理解更进一个层次。

5.jpg


6.jpg



感谢四位同学的分享,感谢李新春同学认真细致的会议记录!本次分享会成功举办,会上大家进行了积极地讨论与交流,让我们一起共同学习,共同进步吧!

附上相关资料链接:
【word2vec】
http://121.196.217.92/?/article/45 
【SVM】
http://121.196.217.92/?/article/57 
【LR和GBDT的区别】
http://121.196.217.92/?/article/62 
【最大熵模型】
http://121.196.217.92/?/article/52 

                                                    

约束优化问题

数据挖掘王开新 发表了文章 • 0 个评论 • 52 次浏览 • 2016-12-20 22:52 • 来自相关话题

例行转载
约束优化与机器学习中不少算法都有关系
 
约束优化问题
 
 
例行转载
约束优化与机器学习中不少算法都有关系
 
约束优化问题
 
 

深度学习tensorflow入门-5

数据挖掘张帅 发表了文章 • 1 个评论 • 61 次浏览 • 2016-12-17 14:43 • 来自相关话题

线性模型,以及wide and deep learning 查看全部

SVM能否用于回归分析以及用法

数据挖掘徐铭 发表了文章 • 0 个评论 • 186 次浏览 • 2016-12-15 00:57 • 来自相关话题

分类与回归:
分类问题和回归问题都要根据训练样本找到一个实值函数g(x).
回归问题的要求是:给定一个新的模式,根据训练集推断它所对应的输出y(实数)是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。
分类问题是:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1)。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。
综上,回归问题和分类问题的本质一样,不同仅在于他们的输出的取值范围不同。分类问题中,输出只允许取两个值;而在回归问题中,输出可取任意实数。Svm是经典的分类模型。
Svm:
支持向量机(support vector machine)是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类,器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
如果想详细了解svm,在这我推荐一篇入门级的svm学习文章,写的比较啰嗦,但十分详细。http://www.dataguru.cn/thread-371987-1-1.html;
Svm用于回归分析:
Svm可以用来做回归分析,其基础主要是通过升维后,在高维空间中构造线性决策函数来实现线性回归,用e不敏感函数时,其基础主要是 e 不敏感函数和核函数算法。
若将拟合的数学模型表达多维空间的某一曲线,则根据e 不敏感函数所得的结果,就是包括该曲线和训练点的“ e管道”。在所有样本点中,只有分布在“管壁”上的那一部分样本点决定管道的位置。这一部分训练样本称为“支持向量”。为适应训练样本集的非线性,传统的拟合方法通常是在线性方程后面加高阶项。此法诚然有效,但由此增加的可调参数未免增加了过拟合的风险。支持向量回归算法采用核函数解决这一矛盾。用核函数代替线性方程中的线性项可以使原来的线性算法“非线性化”,即能做非线性回归。与此同时,引进核函数达到了“升维”的目的,而增加的可调参数是过拟合依然能控制。
详细了解具体步骤的可参考“SVM解回归问题”此贴:http://blog.csdn.net/luoshixia ... 21767,此处就不再重复叙述。
参考文献:
关于SVM一篇比较全介绍的博文:http://www.dataguru.cn/thread-371987-1-1.html
SVM解回归问题:http://blog.csdn.net/luoshixia ... 21767
svm分类与回归:http://www.cnblogs.com/houkai/p/3331101.html
支持向量机(SVM)、支持向量回归(SVR):http://blog.csdn.net/liulina60 ... 56009 查看全部
分类与回归:
分类问题和回归问题都要根据训练样本找到一个实值函数g(x).
回归问题的要求是:给定一个新的模式,根据训练集推断它所对应的输出y(实数)是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。
分类问题是:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1)。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。
综上,回归问题和分类问题的本质一样,不同仅在于他们的输出的取值范围不同。分类问题中,输出只允许取两个值;而在回归问题中,输出可取任意实数。Svm是经典的分类模型。
Svm:
支持向量机(support vector machine)是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类,器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
如果想详细了解svm,在这我推荐一篇入门级的svm学习文章,写的比较啰嗦,但十分详细。http://www.dataguru.cn/thread-371987-1-1.html
Svm用于回归分析:
Svm可以用来做回归分析,其基础主要是通过升维后,在高维空间中构造线性决策函数来实现线性回归,用e不敏感函数时,其基础主要是 e 不敏感函数和核函数算法。
若将拟合的数学模型表达多维空间的某一曲线,则根据e 不敏感函数所得的结果,就是包括该曲线和训练点的“ e管道”。在所有样本点中,只有分布在“管壁”上的那一部分样本点决定管道的位置。这一部分训练样本称为“支持向量”。为适应训练样本集的非线性,传统的拟合方法通常是在线性方程后面加高阶项。此法诚然有效,但由此增加的可调参数未免增加了过拟合的风险。支持向量回归算法采用核函数解决这一矛盾。用核函数代替线性方程中的线性项可以使原来的线性算法“非线性化”,即能做非线性回归。与此同时,引进核函数达到了“升维”的目的,而增加的可调参数是过拟合依然能控制。
详细了解具体步骤的可参考“SVM解回归问题”此贴:http://blog.csdn.net/luoshixia ... 21767,此处就不再重复叙述。
参考文献:
关于SVM一篇比较全介绍的博文:http://www.dataguru.cn/thread-371987-1-1.html
SVM解回归问题:http://blog.csdn.net/luoshixia ... 21767
svm分类与回归:http://www.cnblogs.com/houkai/p/3331101.html
支持向量机(SVM)、支持向量回归(SVR):http://blog.csdn.net/liulina60 ... 56009

SVM能不能用于回归分析以及用法

回复

数据挖掘徐铭 发起了问题 • 0 人关注 • 0 个回复 • 104 次浏览 • 2016-12-15 00:56 • 来自相关话题

#专题分享会第二期#LR和GBDT的区别

数据挖掘孟凡赛 发表了文章 • 0 个评论 • 564 次浏览 • 2016-12-13 16:53 • 来自相关话题

                           LR和GBDT的区别
算法简介
LR:
  LR(Logistic Regression,逻辑回归)是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。
  关于LR的详细介绍,参看超群同学的博文 【逻辑回归模型介绍以及优化算法】。
GBDT:
 GBDT(Gradient Boosting Decision Tree,迭代决策树) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。
 网上找到几篇关于GBDT的博文, 推荐先看一下这两篇文章,再看下面的内容。
GBDT(MART) 迭代决策树入门教程 从残差的角度解释GBDT,比较容易理解。
GBDT(Gradient Boosting Decision Tree) 没有实现只有原理详细介绍了GBDT的原理  
 
LR和GBDT的主要区别
1. 应用方面
  LR是线性模型,具有很好的可解释性,分布式计算迭代速度快,  GBDT几乎可用于所有回归问题(线性/非线性模型),具有更好的表达能力。LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间,映射后的函数值就是预估值。LR这种线性模型很容易并行化,处理上亿条训练样本不是问题,但线性模型学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合,从而去间接增强LR的非线性学习能力。
2. 数据需求方面
  LR可以很好的利用正则化解决稀疏性问题,尤其特征维数非常大,大到千亿级别。LR这种线性模型很容易并行化,处理上亿条训练样本不是问题,GBDT基于集成学习中的boosting思想,每次迭代都在减少残差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树,所以在处理高维矩阵时运算效率相对偏低。
3. 特征选择方面
  LR模型中的特征组合很关键, 但又无法直接通过特征笛卡尔积解决,只能依靠人工经验,耗时耗力同时并不一定会带来效果提升。如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短LR特征实验周期,是亟需解决的问题。Facebook 2014年的文章介绍了通过GBDT(Gradient Boost Decision Tree)解决LR的特征组合问题,随后Kaggle竞赛也有实践此思路。GBDT的迭代累加思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。
 
 
此外,GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合,决策树的路径可以直接作为LR输入特征使用,省去了人工寻找特征、特征组合的步骤。这种通过GBDT生成LR特征的方式(GBDT+LR),业界已有实践(Facebook,Kaggle-2014),且效果不错,是非常值得尝试的思路。
GBDT与LR的融合方式,Facebook的paper有个例子如下图所示,图中Tree1、Tree2为通过GBDT模型学出来的两颗树,x为一条输入样本,遍历两棵树后,x样本分别落到两颗树的叶子节点上,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR特征。由于树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径,根据该路径得到的特征、特征组合都相对有区分性,效果理论上不会亚于人工经验的处理方式。




  GBDT模型的特点,非常适合用来挖掘有效的特征、特征组合。业界不仅GBDT+LR融合有实践,GBDT+FM也有实践,2014 Kaggle CTR竞赛冠军就是使用GBDT+FM,可见,使用GBDT融合其它模型是非常值得尝试的思路。
感兴趣的同学可以看一下这篇关于GBDT与LR结合的博文,CTR预估中GBDT与LR融合方案
 
参考文献:
【1】http://www.csdn.net/article/2014-02-13/2818400-2014-02-13 详解并行逻辑回归
【2】http://www.imtechcenter.com/?/article/50 逻辑回归模型介绍以及优化算法
【3】http://blog.csdn.net/lilyth_lilyth/article/details/48032119/  CTR预估中GBDT与LR融合方案
【4】https://www.zhihu.com/question/23652394 为什么LR可以用来做CTR预估 查看全部
                           LR和GBDT的区别
算法简介
LR:
  LR(Logistic Regression,逻辑回归)是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。
  关于LR的详细介绍,参看超群同学的博文 【逻辑回归模型介绍以及优化算法】
GBDT:
 GBDT(Gradient Boosting Decision Tree,迭代决策树) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。
 网上找到几篇关于GBDT的博文, 推荐先看一下这两篇文章,再看下面的内容。
GBDT(MART) 迭代决策树入门教程 从残差的角度解释GBDT,比较容易理解。
GBDT(Gradient Boosting Decision Tree) 没有实现只有原理详细介绍了GBDT的原理  
 
LR和GBDT的主要区别
1. 应用方面
  LR是线性模型,具有很好的可解释性,分布式计算迭代速度快,  GBDT几乎可用于所有回归问题(线性/非线性模型),具有更好的表达能力。LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间,映射后的函数值就是预估值。LR这种线性模型很容易并行化,处理上亿条训练样本不是问题,但线性模型学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合,从而去间接增强LR的非线性学习能力。
2. 数据需求方面
  LR可以很好的利用正则化解决稀疏性问题,尤其特征维数非常大,大到千亿级别。LR这种线性模型很容易并行化,处理上亿条训练样本不是问题,GBDT基于集成学习中的boosting思想,每次迭代都在减少残差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树,所以在处理高维矩阵时运算效率相对偏低。
3. 特征选择方面
  LR模型中的特征组合很关键, 但又无法直接通过特征笛卡尔积解决,只能依靠人工经验,耗时耗力同时并不一定会带来效果提升。如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短LR特征实验周期,是亟需解决的问题。Facebook 2014年的文章介绍了通过GBDT(Gradient Boost Decision Tree)解决LR的特征组合问题,随后Kaggle竞赛也有实践此思路。GBDT的迭代累加思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。
 
 
此外,GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合,决策树的路径可以直接作为LR输入特征使用,省去了人工寻找特征、特征组合的步骤。这种通过GBDT生成LR特征的方式(GBDT+LR),业界已有实践(Facebook,Kaggle-2014),且效果不错,是非常值得尝试的思路。
GBDT与LR的融合方式,Facebook的paper有个例子如下图所示,图中Tree1、Tree2为通过GBDT模型学出来的两颗树,x为一条输入样本,遍历两棵树后,x样本分别落到两颗树的叶子节点上,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR特征。由于树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径,根据该路径得到的特征、特征组合都相对有区分性,效果理论上不会亚于人工经验的处理方式。
20150827190225375.png

  GBDT模型的特点,非常适合用来挖掘有效的特征、特征组合。业界不仅GBDT+LR融合有实践,GBDT+FM也有实践,2014 Kaggle CTR竞赛冠军就是使用GBDT+FM,可见,使用GBDT融合其它模型是非常值得尝试的思路。
感兴趣的同学可以看一下这篇关于GBDT与LR结合的博文,CTR预估中GBDT与LR融合方案
 
参考文献:
【1】http://www.csdn.net/article/2014-02-13/2818400-2014-02-13 详解并行逻辑回归
【2】http://www.imtechcenter.com/?/article/50 逻辑回归模型介绍以及优化算法
【3】http://blog.csdn.net/lilyth_lilyth/article/details/48032119/  CTR预估中GBDT与LR融合方案
【4】https://www.zhihu.com/question/23652394 为什么LR可以用来做CTR预估

深度学习tensorflow入门-4

数据挖掘张帅 发表了文章 • 0 个评论 • 69 次浏览 • 2016-12-10 20:45 • 来自相关话题

这篇文章的例子很简单,使用DNNClassifer做IRIS数据的分类。深度学习tensorflow入门-4 查看全部
这篇文章的例子很简单,使用DNNClassifer做IRIS数据的分类。深度学习tensorflow入门-4