LDA and CRF的资料,写得超级棒

    近期看了一些自然语言处理方面的资料,就拿常用算法来说分为三大块。第一块基于词袋模型,不考虑序列性,其中代表模型有LSA,PLSA,LDA。第二块内容基于序列性质,也是一个大家族,包括HMM、MeMM、CRF。第三块内容基于深度学习,包括Word2Vector、SentenceEmbedding,以及其它很多利用深度网络来做翻译、聊天系统的资料。
    这里给出一个网盘链接,里面有两份资料。一份是大名鼎鼎的Rickjin(靳志辉)写得LDA数学八卦,内容循序渐进,重点是“科普”LDA的数学内容,之所以加引号是因为大牛眼里的科普对我们来说也很难,里面涉及了太多知识点,就只拿MCMC和Gibbs Sampling来说,这两个就很难弄明白。正因为其全面详细,才是一份入门好资料,全文52页,内有诸多“上帝的游戏”,有趣味性。结合这篇文章再加上上面给出的一些链接(主要是heinrich的Parameter Estimation for Text Analysis一文),可以对LDA有个深入的认识与了解。
    此外第二篇文章是Classical-Probabilistic-Models-and-Conditional-Random-Filelds。主要介绍了贝叶斯模型到隐马尔科夫模型,最大熵模型到条件随机场。其中一幅图把四者紧密联系起来,顿时觉得“一目了然”,加引号是因为这张图背后有太多太多东西。HMM与CRF里面涉及的三个问题,每个问题都涉及到大量数学公式,很难掌握。文章中有介绍。
    总之,LDA和CRF可以说是机器学习里面比较难的算法了,当然也是很重要的算法,掌握它们并非一朝一夕之功。将材料分享出来,是想多加探讨,以更深入了解。笔者这两篇文章都看过了,但是仍有很多不解之处,欢迎探讨。
 
附上链接 : 资料网盘http://pan.baidu.com/s/1pLRvUDP

0 个评论

要回复文章请先登录注册