信息管理学院2018届飞跃手册

校友天地王开新 发表了文章 • 0 个评论 • 222 次浏览 • 1 天前 • 来自相关话题

拖了这么久终于做好了这个手册,希望对学弟学妹的申请有帮助。
 
感谢所有参与编写同学的付出,大家辛苦了!
 
希望明年19届留学的同学能将飞跃手册传承下去,为后面的同学提供最新的申请信息。
拖了这么久终于做好了这个手册,希望对学弟学妹的申请有帮助。
 
感谢所有参与编写同学的付出,大家辛苦了!
 
希望明年19届留学的同学能将飞跃手册传承下去,为后面的同学提供最新的申请信息。

一文总结各种信息熵

数据挖掘李新春 发表了文章 • 1 个评论 • 35 次浏览 • 2018-05-13 11:52 • 来自相关话题

在机器学习里面经常会遇到熵的概念,经常作为衡量信息多少的一种度量方式。本文就信息熵(Information Entropy)、联合熵(Joint Entropy)、条件熵(Conditional Entropy)、信息增益(Information Gain)、互信息(Mutual Information)、点互信息(Pointwise Mutual Information)、交叉熵(Cross Entropy)、KL散度(Kullback-Leibler Divergence)、相对熵(Relative Entropy)等概念进行介绍,当作一份系统的学习资料。










  查看全部
在机器学习里面经常会遇到熵的概念,经常作为衡量信息多少的一种度量方式。本文就信息熵(Information Entropy)、联合熵(Joint Entropy)、条件熵(Conditional Entropy)、信息增益(Information Gain)、互信息(Mutual Information)、点互信息(Pointwise Mutual Information)、交叉熵(Cross Entropy)、KL散度(Kullback-Leibler Divergence)、相对熵(Relative Entropy)等概念进行介绍,当作一份系统的学习资料。

1.png


2.png

 

海量数据处理资料分享

数据挖掘李新春 发表了文章 • 0 个评论 • 75 次浏览 • 2018-05-12 11:44 • 来自相关话题

在面试中可能会遇到“假如给你十几个亿的数据,如何利用有限的内存和时间进行排序,查找和统计一些统计指标等等”,在附件中的资料中,给出了十个方法,并结合了具体的例子进行解释,个人感觉还是挺好的一份资料,虽然细节不是很详细,但是可以作为一个系统地了解过程吧,感兴趣的同学可以查阅更详细的资料。
本文只是资料分享,下面的总结不是原创,方法和例子都来源于附件中文章。
文章中给出了十个海量数据处理的方法,分别是:
1、哈希分治
2、SimHash算法
3、外排序
4、MapReduce
5、多层划分
6、位图
7、布隆过滤器
8、Trie树
9、数据库
10、倒排索引
下面列举几个文章中提到的几个代表性面试问题:
Problem 1:
    有一个1G大小的文件,每一行是一个词,现在统计出现频次Top100的所有词,每个词不超过16字节,内存大小限制为1M。
Answer:
    采用Hash分治的思想。
    1)顺序读取文件每一行,按照Hash(word) % 5000计算,将每个词归为5000个小文件中的每一个,这样每个文件平均大小200K(如果有某个文件大于1M,可以对之进行二次Hash划分)。
    2)对每个小文件,利用Trie树或HashTable统计词和词频,利用堆排序返回前100个最高频词。
    3)合并,5000 * 100个词和词频,Trie树或HashTable进行合并,然后堆排序返回前100最高频词。
 
 
Problem2:
    给定a,b两个文件,每个文件有50亿个URL,每个URL占64字节,如何利用4G内存的计算机求出两个文件中相同的URL。
Answer:
   采用Hash分治。
   1)对a文件中每个URL,计算Hash(URL)00,变为1000个小文件;同样地,对于b文件也划分为1000个小文件。
   2)对ai和bi文件进行查找相同URL,1<=i<=1000。这一步可以利用先将ai里面的所有URL加入HashSet,然后对于bi中的每一个URL进行查找即可。
   3)合并1000个小结果,得到最终结果。
 
 
Problem3:
    搜索引擎中的网络爬虫会爬取大量网页,但是有许多网页是转载或抄袭的,因此高度相似,如何将这些近似重复的网页筛选出来呢?网页数量是上亿级别的。
Analysis:
    如果利用向量空间模型+文本相似度计算,那么时间复杂度是平方级别,并且计算余弦相似度特别耗费时间。
    如果利用Hash值,那么这只能挑选出那些完全一样的网页,而不能得到近似重复的网页集合。
    所以思想应该放在:容错性的Hash上,即SimHash算法。
    SimHash包括分词、Hash、加权、合并、降维操作。
Answer:
   文本相似度计算 + SimHash算法。
   1)对每个网页利用SimHash得到文档的Hash值,即01字符串。
   2)计算网页之间的Hamming距离,这里设置阈值,小于某个阈值即判别为重复。
   3)第2步还是需要计算凉凉网页间的Hamming距离,时间复杂度也比较大,文章给出了一种利用鸽巢原理和倒排索引的方法降低时间复杂度。
 
 
Problem4:
    文件中有上亿个电话号码,每个号码8位数字,如何快速找到不重复的所有电话号码。
Analysis:
    两两比较肯定是下下策略。
    利用HashSet思想可以通过。
    如果能利用位图BitMap的思想就更好了,内存空间更省。
Answer:
    1) 8位数字最大的是99 999 999,就开辟一个长度为100 000 000的字符串,作为01位图,空间大小为100 000 000/8 Bytes,即12.5M。
    2)对每个号码,假如是82 876 123,就将字符串第82 876 123处置为1;
    3)将最后字符串里面所有1对应的index输出即可。
More:
    如果电话号码为11位呢,那么需要的内存空间就是12.5G,此时可以利用电话号码的一些特性,比如第一位为1等等特性缩小为1.25G空间,但是还是很大。
    所以位图不是任何情况下都适用的,当数据集中数据量很大,且每个数据本身很小的时候,利用位图比较优。
    其实位图可以理解为计数排序的思想,这里提一下Hash分治的思想和基数排序、桶排序的思想比较相似。
 
 
Problem5:
    邮件供应商要解决的问题之一就是过滤垃圾邮件,那么每天可能需要处理上亿封邮件,如何快速高效地进行判别垃圾邮件呢?
Analysis:
    提到垃圾邮件,可能会想到机器学习里面的朴素贝叶斯。
    利用已有垃圾邮件,通过SimHash可以实现相似邮件查找,从而判断是否是垃圾邮件。
    这里利用布隆过滤器来实现,其主要思想也是利用了Hash思想,是对位图的扩展。
Answer:
    布隆过滤器,可以允许一定错误率(即错误分类),但是效率高且时间复杂度比较低。
 
 
上面就是我选取的5个比较有代表性的问题,涉及到了很多新知识,比如SimHash、布隆过滤器、位图、Trie树等等,除此之外还有外排序、MapReduce等没有列举。个人感觉,花费一上午时间阅读这篇文章并写一个小的博客来总结,获益匪浅。这里分享给大家,希望大家能学习到一些知识! 查看全部
在面试中可能会遇到“假如给你十几个亿的数据,如何利用有限的内存和时间进行排序,查找和统计一些统计指标等等”,在附件中的资料中,给出了十个方法,并结合了具体的例子进行解释,个人感觉还是挺好的一份资料,虽然细节不是很详细,但是可以作为一个系统地了解过程吧,感兴趣的同学可以查阅更详细的资料。
本文只是资料分享,下面的总结不是原创,方法和例子都来源于附件中文章。
文章中给出了十个海量数据处理的方法,分别是:
1、哈希分治
2、SimHash算法
3、外排序
4、MapReduce
5、多层划分
6、位图
7、布隆过滤器
8、Trie树
9、数据库
10、倒排索引
下面列举几个文章中提到的几个代表性面试问题:
Problem 1:
    有一个1G大小的文件,每一行是一个词,现在统计出现频次Top100的所有词,每个词不超过16字节,内存大小限制为1M。
Answer:
    采用Hash分治的思想。
    1)顺序读取文件每一行,按照Hash(word) % 5000计算,将每个词归为5000个小文件中的每一个,这样每个文件平均大小200K(如果有某个文件大于1M,可以对之进行二次Hash划分)。
    2)对每个小文件,利用Trie树或HashTable统计词和词频,利用堆排序返回前100个最高频词。
    3)合并,5000 * 100个词和词频,Trie树或HashTable进行合并,然后堆排序返回前100最高频词。
 
 
Problem2:
    给定a,b两个文件,每个文件有50亿个URL,每个URL占64字节,如何利用4G内存的计算机求出两个文件中相同的URL。
Answer:
   采用Hash分治。
   1)对a文件中每个URL,计算Hash(URL)00,变为1000个小文件;同样地,对于b文件也划分为1000个小文件。
   2)对ai和bi文件进行查找相同URL,1<=i<=1000。这一步可以利用先将ai里面的所有URL加入HashSet,然后对于bi中的每一个URL进行查找即可。
   3)合并1000个小结果,得到最终结果。
 
 
Problem3:
    搜索引擎中的网络爬虫会爬取大量网页,但是有许多网页是转载或抄袭的,因此高度相似,如何将这些近似重复的网页筛选出来呢?网页数量是上亿级别的。
Analysis:
    如果利用向量空间模型+文本相似度计算,那么时间复杂度是平方级别,并且计算余弦相似度特别耗费时间。
    如果利用Hash值,那么这只能挑选出那些完全一样的网页,而不能得到近似重复的网页集合。
    所以思想应该放在:容错性的Hash上,即SimHash算法。
    SimHash包括分词、Hash、加权、合并、降维操作。
Answer:
   文本相似度计算 + SimHash算法。
   1)对每个网页利用SimHash得到文档的Hash值,即01字符串。
   2)计算网页之间的Hamming距离,这里设置阈值,小于某个阈值即判别为重复。
   3)第2步还是需要计算凉凉网页间的Hamming距离,时间复杂度也比较大,文章给出了一种利用鸽巢原理和倒排索引的方法降低时间复杂度。
 
 
Problem4:
    文件中有上亿个电话号码,每个号码8位数字,如何快速找到不重复的所有电话号码。
Analysis:
    两两比较肯定是下下策略。
    利用HashSet思想可以通过。
    如果能利用位图BitMap的思想就更好了,内存空间更省。
Answer:
    1) 8位数字最大的是99 999 999,就开辟一个长度为100 000 000的字符串,作为01位图,空间大小为100 000 000/8 Bytes,即12.5M。
    2)对每个号码,假如是82 876 123,就将字符串第82 876 123处置为1;
    3)将最后字符串里面所有1对应的index输出即可。
More:
    如果电话号码为11位呢,那么需要的内存空间就是12.5G,此时可以利用电话号码的一些特性,比如第一位为1等等特性缩小为1.25G空间,但是还是很大。
    所以位图不是任何情况下都适用的,当数据集中数据量很大,且每个数据本身很小的时候,利用位图比较优。
    其实位图可以理解为计数排序的思想,这里提一下Hash分治的思想和基数排序、桶排序的思想比较相似。
 
 
Problem5:
    邮件供应商要解决的问题之一就是过滤垃圾邮件,那么每天可能需要处理上亿封邮件,如何快速高效地进行判别垃圾邮件呢?
Analysis:
    提到垃圾邮件,可能会想到机器学习里面的朴素贝叶斯。
    利用已有垃圾邮件,通过SimHash可以实现相似邮件查找,从而判断是否是垃圾邮件。
    这里利用布隆过滤器来实现,其主要思想也是利用了Hash思想,是对位图的扩展。
Answer:
    布隆过滤器,可以允许一定错误率(即错误分类),但是效率高且时间复杂度比较低。
 
 
上面就是我选取的5个比较有代表性的问题,涉及到了很多新知识,比如SimHash、布隆过滤器、位图、Trie树等等,除此之外还有外排序、MapReduce等没有列举。个人感觉,花费一上午时间阅读这篇文章并写一个小的博客来总结,获益匪浅。这里分享给大家,希望大家能学习到一些知识!

背包问题资料分享

编程与开发李新春 发表了文章 • 0 个评论 • 59 次浏览 • 2018-05-07 21:22 • 来自相关话题

最近在上工管的算法课,遇到了动态规划解决背包问题,所以网上搜了一下资料,有一份资料对九种背包问题进行了详细介绍,感觉是很好的资料,共16页,在这里分享出来,原创性属于作者本人,本文只是分享一下:
1.  01背包问题
     动态规划;空间复杂度;逆序遍历容量
2.  完全背包问题
     01背包问题化;二进制划分物品;顺序遍历容量
3.  多重背包问题
     01背包问题化;二进制划分物品
4.  混合三种背包问题
     分情况确定遍历顺序
5.  二维费用背包问题
     二维遍历
6.  分组背包问题
     每组物品只能取一个;依次遍历组,组里面遍历每个物品
7.  有依赖背包问题
     主件和所有附件一块组成一组,组内先01背包问题化;分组背包问题
8.  泛化物品
     每个物品是一个数组
9.  其余背包问题问法
     确定最优选择方案;确定所有方案;所有最优方案等等 查看全部
最近在上工管的算法课,遇到了动态规划解决背包问题,所以网上搜了一下资料,有一份资料对九种背包问题进行了详细介绍,感觉是很好的资料,共16页,在这里分享出来,原创性属于作者本人,本文只是分享一下:
1.  01背包问题
     动态规划;空间复杂度;逆序遍历容量
2.  完全背包问题
     01背包问题化;二进制划分物品;顺序遍历容量
3.  多重背包问题
     01背包问题化;二进制划分物品
4.  混合三种背包问题
     分情况确定遍历顺序
5.  二维费用背包问题
     二维遍历
6.  分组背包问题
     每组物品只能取一个;依次遍历组,组里面遍历每个物品
7.  有依赖背包问题
     主件和所有附件一块组成一组,组内先01背包问题化;分组背包问题
8.  泛化物品
     每个物品是一个数组
9.  其余背包问题问法
     确定最优选择方案;确定所有方案;所有最优方案等等

python3爬虫爬取pdf&解析pdf得到文本

编程与开发李新春 发表了文章 • 0 个评论 • 196 次浏览 • 2018-04-20 16:25 • 来自相关话题

    因为现在很多文献都是以pdf形式在网上挂着,所以笔者去网上搜取了一下如何利用python3下载pdf以及解析pdf得到文本呢?
   查了一下,发现下载pdf很简单,因为pdf资源可以通过urllib或request的get方法直接请求到,然后将得到的结果以"wb"的形式写入文件即可,后缀名改为pdf即可。具体见文件downloadpdf.py。
   解析pdf需要用到pdfminer包,安装很简单,使用“pip install pdfminer3k"即可,其作用就是将一篇pdf文档里面的文字提取出来(图片、表格还没去研究如何提取),然后得到文本,以后再处理pdf就方便了很多,但是有的时候得到的结果并不理想,仅供参考。 查看全部
    因为现在很多文献都是以pdf形式在网上挂着,所以笔者去网上搜取了一下如何利用python3下载pdf以及解析pdf得到文本呢?
   查了一下,发现下载pdf很简单,因为pdf资源可以通过urllib或request的get方法直接请求到,然后将得到的结果以"wb"的形式写入文件即可,后缀名改为pdf即可。具体见文件downloadpdf.py。
   解析pdf需要用到pdfminer包,安装很简单,使用“pip install pdfminer3k"即可,其作用就是将一篇pdf文档里面的文字提取出来(图片、表格还没去研究如何提取),然后得到文本,以后再处理pdf就方便了很多,但是有的时候得到的结果并不理想,仅供参考。

申请面经(持续更新,其实也不知道能更几次)

求职经验王开新 发表了文章 • 0 个评论 • 89 次浏览 • 2018-01-29 09:45 • 来自相关话题

waterloo:
 
彩票校之一,紧张地准备了几天。教授先blabla讲了她们组的工作,然后让我讲了一下暑研,就完了。。就完了。。没有“为什么读phd”,也没有讲文章环节,完全不按套路出牌啊。全程感觉自己没有看摄像头(即便是专门对着摄像头的时候),英语交流还好,就是害怕给教授留下了不想理她的印象。唉,凉凉。
 
NUS:
 
之前搜到了一个面经,很多问题都出现了,很有用:新国立ngs面经

我遇到的问题有这些:
1. 为啥读phd,为啥选ngs
2. 你看过教授列表吗?打算做什么方向
3. 你这个方向现有的技术有哪些?
4. 现有技术这么成熟,你有什么计划?(哪里成熟好嘛,捂脸)
5. 讲讲你之前的某个研究
6. 这个研究和你这个方向感觉没关系啊(强行扯出一点关系)
7. 你这个研究如何交叉学科?
8. 你还申了哪些学校,有没有收到offer(今早刚收到了mcgill)
9.  如果都收到offer,你把NUS rank到多少?
10. 问我还有啥问题

面试是4个人一起面的,从视频里看我好像被投影到了一面墙上 —_— 查看全部
waterloo:
 
彩票校之一,紧张地准备了几天。教授先blabla讲了她们组的工作,然后让我讲了一下暑研,就完了。。就完了。。没有“为什么读phd”,也没有讲文章环节,完全不按套路出牌啊。全程感觉自己没有看摄像头(即便是专门对着摄像头的时候),英语交流还好,就是害怕给教授留下了不想理她的印象。唉,凉凉。
 
NUS:
 
之前搜到了一个面经,很多问题都出现了,很有用:新国立ngs面经

我遇到的问题有这些:
1. 为啥读phd,为啥选ngs
2. 你看过教授列表吗?打算做什么方向
3. 你这个方向现有的技术有哪些?
4. 现有技术这么成熟,你有什么计划?(哪里成熟好嘛,捂脸)
5. 讲讲你之前的某个研究
6. 这个研究和你这个方向感觉没关系啊(强行扯出一点关系)
7. 你这个研究如何交叉学科?
8. 你还申了哪些学校,有没有收到offer(今早刚收到了mcgill)
9.  如果都收到offer,你把NUS rank到多少?
10. 问我还有啥问题

面试是4个人一起面的,从视频里看我好像被投影到了一面墙上 —_—

记信息素养协会及数据挖掘小组第一次分享会

兴趣小组李新春 发表了文章 • 0 个评论 • 142 次浏览 • 2017-10-24 23:20 • 来自相关话题

    随着十九大的召开,习大大号召产业升级,推动互联网,大数据,人工智能和实体经济深度融合。近期,平地一声雷,Nature发表了关于AlphaZero在无知状态下学习围棋并打败他的弟弟AlphaGo 的文章。人工智能,大数据在如今的学术界,工业界打得一片火热。与他们密切相关的信息素养协会的小伙伴们又怎么能落后于这股潮流呢?
    秉着给信息素养协会的伙伴们造福利的理念,10月15日,信息管理学院的李新春和韩韬同学来给同学们分享一些编程和算法的基础知识。
    分享会首先由李新春开始介绍python的基础知识,包括python的简介、安装,另外从python变量、运算符、基础语法、数据结构等进行展开介绍,同时给大家展示了一下python和C,Java的区别。由于分享时间只有半小时左右,所以只能给大家一个初步的认识,希望可以帮到那些对python尚不了解的同学。PPT见附件,里面有一些学习资源的链接。






    另外,为了适应不同层次同学的学习需要,以及小组“数据挖掘”为主的本质,李新春又给大家介绍了机器学习十大算法之一,无监督学习的KMeans,以及KMeans在图像分割中的应用,同时用python实现给大家进行了简单的展示。






    从python基础到机器学习,再到图像分割的具体应用,可以说是一个由浅入深的过程,希望大家可以从中学到一些知识。之外,可能有的同学对python, 对Kmeans都比较熟悉了,所以本次分享会进入第二阶段,由韩韬同学给大家分享爬虫的知识。
    韩韬首先给出了爬虫的基本框架,然后由南京大学小百合的网站出发,给大家展示了浏览器“查看元素”功能的强大之处,在网络爬虫的开发中,浏览器查看元素的作用很重要。此外,韩韬用python的requests库给大家抓取了一些网页,到此如何爬取网页内容已经介绍给大家了。然后,韩韬给大家分享了如何用正则表达式,css选择器来抽取相应的元素。最后,关于一些编码问题,韩韬也做了一些介绍,同时给了大家一些展示。可以说,本次爬虫的分享内容十分丰富,也非常实用,希望各位同学后续可以在网上找一些教程实战一下。






    分享会已经过去一周了,现在才发总结,是不是有点晚了呢?不晚,因为今天是10月24号,1024,仅代表数据挖掘兴趣小组全体成员向所有的程序员祝福,生日快乐。不不不,节日快乐!

   查看全部
    随着十九大的召开,习大大号召产业升级,推动互联网,大数据,人工智能和实体经济深度融合。近期,平地一声雷,Nature发表了关于AlphaZero在无知状态下学习围棋并打败他的弟弟AlphaGo 的文章。人工智能,大数据在如今的学术界,工业界打得一片火热。与他们密切相关的信息素养协会的小伙伴们又怎么能落后于这股潮流呢?
    秉着给信息素养协会的伙伴们造福利的理念,10月15日,信息管理学院的李新春和韩韬同学来给同学们分享一些编程和算法的基础知识。
    分享会首先由李新春开始介绍python的基础知识,包括python的简介、安装,另外从python变量、运算符、基础语法、数据结构等进行展开介绍,同时给大家展示了一下python和C,Java的区别。由于分享时间只有半小时左右,所以只能给大家一个初步的认识,希望可以帮到那些对python尚不了解的同学。PPT见附件,里面有一些学习资源的链接。

1.jpg


    另外,为了适应不同层次同学的学习需要,以及小组“数据挖掘”为主的本质,李新春又给大家介绍了机器学习十大算法之一,无监督学习的KMeans,以及KMeans在图像分割中的应用,同时用python实现给大家进行了简单的展示。

3.jpg


    从python基础到机器学习,再到图像分割的具体应用,可以说是一个由浅入深的过程,希望大家可以从中学到一些知识。之外,可能有的同学对python, 对Kmeans都比较熟悉了,所以本次分享会进入第二阶段,由韩韬同学给大家分享爬虫的知识。
    韩韬首先给出了爬虫的基本框架,然后由南京大学小百合的网站出发,给大家展示了浏览器“查看元素”功能的强大之处,在网络爬虫的开发中,浏览器查看元素的作用很重要。此外,韩韬用python的requests库给大家抓取了一些网页,到此如何爬取网页内容已经介绍给大家了。然后,韩韬给大家分享了如何用正则表达式,css选择器来抽取相应的元素。最后,关于一些编码问题,韩韬也做了一些介绍,同时给了大家一些展示。可以说,本次爬虫的分享内容十分丰富,也非常实用,希望各位同学后续可以在网上找一些教程实战一下。

2.jpg


    分享会已经过去一周了,现在才发总结,是不是有点晚了呢?不晚,因为今天是10月24号,1024,仅代表数据挖掘兴趣小组全体成员向所有的程序员祝福,生日快乐。不不不,节日快乐!

  

2017-2018上半学期第一次见面会

兴趣小组李新春 发表了文章 • 0 个评论 • 161 次浏览 • 2017-09-19 22:28 • 来自相关话题

    2017年9月17日晚19点,信息管理学院数据挖掘兴趣小组在院楼318教室举办了2017-2018年度上半学期的第一场见面会,小组见面会的场面用四个字来形容就是座无虚席。让我们来看看见面会都有些什么吧。
   





    首先,由李新春同学致欢迎辞,介绍数据挖掘兴趣小组的基本情况以及小组和信息素养协会之间的关系。小组第一次见面会的主要目的是给新成员们一个兴趣指引,所以李新春同学先介绍了一下什么是机器学习,并且利用Andrew Ng在Coursera上机器学习公开课里面的介绍视频给大家进行一个简单的展示(可惜的是现场视频没有播放出声音来,不过不要紧,PPT里面有链接)。接下来,介绍了机器学习可以用来干什么,包括自然语言处理、自动驾驶、推荐系统等等。再接着从算法、数据和深度三个方面进行展开,介绍了要学习哪些东西。最后给出了一大波学习资料,有公开课、论文、书籍等。
   
    接下来是三位小组“老”成员的分享,韩韬同学根据自己在前海征信“好信杯”大数据算法竞赛获奖的经历进行了分享,介绍了问题背景以及什么是迁移学习,并且展示了比赛过程中用到的算法,分享了比赛的心得等等。王开新同学则从工具这方面进行展开,给大家介绍了很多实用性的工具,包括stack overflow、github、kaggle等平台以及Python的numpy、scikit learn、keras等工具包。郜梦蕊同学则根据自己在小组内接近两年的经历和所学所得做了一个分享。
    可以说,三位成员分别从大数据竞赛、学习工具和小组心得三个方面展开,这将是非常具有实用性的,最起码小组新成员会通过这场见面会知道机器学习可以干什么以及我为什么学习机器学习。
   





    最后一个环节则是小组“老”成员与新成员面对面的沟通,以增加彼此间的了解。
    PPT资料在附件里面,里面有很多链接可以获得相关资料,大家可以下载一下。
 

  查看全部
    2017年9月17日晚19点,信息管理学院数据挖掘兴趣小组在院楼318教室举办了2017-2018年度上半学期的第一场见面会,小组见面会的场面用四个字来形容就是座无虚席。让我们来看看见面会都有些什么吧。
   
1.PNG


    首先,由李新春同学致欢迎辞,介绍数据挖掘兴趣小组的基本情况以及小组和信息素养协会之间的关系。小组第一次见面会的主要目的是给新成员们一个兴趣指引,所以李新春同学先介绍了一下什么是机器学习,并且利用Andrew Ng在Coursera上机器学习公开课里面的介绍视频给大家进行一个简单的展示(可惜的是现场视频没有播放出声音来,不过不要紧,PPT里面有链接)。接下来,介绍了机器学习可以用来干什么,包括自然语言处理、自动驾驶、推荐系统等等。再接着从算法、数据和深度三个方面进行展开,介绍了要学习哪些东西。最后给出了一大波学习资料,有公开课、论文、书籍等。
   
    接下来是三位小组“老”成员的分享,韩韬同学根据自己在前海征信“好信杯”大数据算法竞赛获奖的经历进行了分享,介绍了问题背景以及什么是迁移学习,并且展示了比赛过程中用到的算法,分享了比赛的心得等等。王开新同学则从工具这方面进行展开,给大家介绍了很多实用性的工具,包括stack overflow、github、kaggle等平台以及Python的numpy、scikit learn、keras等工具包。郜梦蕊同学则根据自己在小组内接近两年的经历和所学所得做了一个分享。
    可以说,三位成员分别从大数据竞赛、学习工具和小组心得三个方面展开,这将是非常具有实用性的,最起码小组新成员会通过这场见面会知道机器学习可以干什么以及我为什么学习机器学习。
   
2.PNG


    最后一个环节则是小组“老”成员与新成员面对面的沟通,以增加彼此间的了解。
    PPT资料在附件里面,里面有很多链接可以获得相关资料,大家可以下载一下。
 

 

LDA and CRF的资料,写得超级棒

数据挖掘李新春 发表了文章 • 0 个评论 • 159 次浏览 • 2017-09-06 14:56 • 来自相关话题

    近期看了一些自然语言处理方面的资料,就拿常用算法来说分为三大块。第一块基于词袋模型,不考虑序列性,其中代表模型有LSA,PLSA,LDA。第二块内容基于序列性质,也是一个大家族,包括HMM、MeMM、CRF。第三块内容基于深度学习,包括Word2Vector、SentenceEmbedding,以及其它很多利用深度网络来做翻译、聊天系统的资料。
    这里给出一个网盘链接,里面有两份资料。一份是大名鼎鼎的Rickjin(靳志辉)写得LDA数学八卦,内容循序渐进,重点是“科普”LDA的数学内容,之所以加引号是因为大牛眼里的科普对我们来说也很难,里面涉及了太多知识点,就只拿MCMC和Gibbs Sampling来说,这两个就很难弄明白。正因为其全面详细,才是一份入门好资料,全文52页,内有诸多“上帝的游戏”,有趣味性。结合这篇文章再加上上面给出的一些链接(主要是heinrich的Parameter Estimation for Text Analysis一文),可以对LDA有个深入的认识与了解。
    此外第二篇文章是Classical-Probabilistic-Models-and-Conditional-Random-Filelds。主要介绍了贝叶斯模型到隐马尔科夫模型,最大熵模型到条件随机场。其中一幅图把四者紧密联系起来,顿时觉得“一目了然”,加引号是因为这张图背后有太多太多东西。HMM与CRF里面涉及的三个问题,每个问题都涉及到大量数学公式,很难掌握。文章中有介绍。
    总之,LDA和CRF可以说是机器学习里面比较难的算法了,当然也是很重要的算法,掌握它们并非一朝一夕之功。将材料分享出来,是想多加探讨,以更深入了解。笔者这两篇文章都看过了,但是仍有很多不解之处,欢迎探讨。
 
附上链接 : 资料网盘http://pan.baidu.com/s/1pLRvUDP 查看全部
    近期看了一些自然语言处理方面的资料,就拿常用算法来说分为三大块。第一块基于词袋模型,不考虑序列性,其中代表模型有LSA,PLSA,LDA。第二块内容基于序列性质,也是一个大家族,包括HMM、MeMM、CRF。第三块内容基于深度学习,包括Word2Vector、SentenceEmbedding,以及其它很多利用深度网络来做翻译、聊天系统的资料。
    这里给出一个网盘链接,里面有两份资料。一份是大名鼎鼎的Rickjin(靳志辉)写得LDA数学八卦,内容循序渐进,重点是“科普”LDA的数学内容,之所以加引号是因为大牛眼里的科普对我们来说也很难,里面涉及了太多知识点,就只拿MCMC和Gibbs Sampling来说,这两个就很难弄明白。正因为其全面详细,才是一份入门好资料,全文52页,内有诸多“上帝的游戏”,有趣味性。结合这篇文章再加上上面给出的一些链接(主要是heinrich的Parameter Estimation for Text Analysis一文),可以对LDA有个深入的认识与了解。
    此外第二篇文章是Classical-Probabilistic-Models-and-Conditional-Random-Filelds。主要介绍了贝叶斯模型到隐马尔科夫模型,最大熵模型到条件随机场。其中一幅图把四者紧密联系起来,顿时觉得“一目了然”,加引号是因为这张图背后有太多太多东西。HMM与CRF里面涉及的三个问题,每个问题都涉及到大量数学公式,很难掌握。文章中有介绍。
    总之,LDA和CRF可以说是机器学习里面比较难的算法了,当然也是很重要的算法,掌握它们并非一朝一夕之功。将材料分享出来,是想多加探讨,以更深入了解。笔者这两篇文章都看过了,但是仍有很多不解之处,欢迎探讨。
 
附上链接 : 资料网盘http://pan.baidu.com/s/1pLRvUDP

信息管理学院数据挖掘兴趣小组小介和招募成员通知

兴趣小组李新春 发表了文章 • 1 个评论 • 506 次浏览 • 2017-07-05 13:28 • 来自相关话题

    本帖比较长,还希望各位抽出五分钟的时间来阅读一下,在此先感谢各位。
   
    信息管理学院数据挖掘兴趣小组是由我院硕士刘伙玉学长创建的,旨在给大家一个交流分享的平台,让更多的信管学生尽快找到自己感兴趣的方向,共同打造一个互帮互助、共同进步的学习氛围。由于刘伙玉学长毕业去阿里工作,现在小组目前由我来负责。我是大二参加的这个小组,在这接近两年的时间里,总结一下,我有以下收获:
    1、接触机器学习,从一些入门算法开始;2、接触过一些大数据比赛;3、掌握Python编程。
    实话实说,大二上半学期我还不知道何谓机器学习,更不知道还有Kaggle,天池等大数据比赛,对Python编程也只是一知半解。
    各位读者,尤其是大二大三的你们,或许正在对将来要做什么而感到迷茫,或许即将面临抉择,而如果到现在还没有目标,那么将无疑是一件很痛苦的事情。我不知道究竟有多少人以后打算工作,以我目前了解的信管学生,想走技术岗的难以和计科软院相比,想走非技术岗位又难以和商院相比。总的来说,我觉得信管学子如果是仅限于信管开设的课程的话,是远远不够的。说实话,我真的庆幸自己能加入这个小组,找到了我以后要致力于做的方向,真心感谢刘伙玉学长和其他小组成员的引领,这让我在未来道路的选择上少走了很多弯路。

    小组成员有刘伙玉,阎锦恒,戚尔鹏,孟凡赛,史昱天,郜梦蕊,陈超群,王开新,李浩,韩韬等,其中有部分学长学姐毕业,在以后的分享会中可能来不到现场了,但是他们在站内还是会积极回答各位的问题以及分享工作经验、内推机会的。小组的主要任务可以分为以下三个部分:
    1、分享机器学习、数据挖掘算法。现今人工智能非常火热,大家或许都听说过AlphaGo、深度学习,这其实是机器学习中的一部分:神经网络。除此之外,在数据挖掘中也可能听说过K-Means, LogisticRegression, 决策树,支持向量机等,这些都是机器学习领域的基础算法。小组会于下学期举办2-3场分享会,从基础开始分享,当然也会推荐一些经典的博客、书籍和论文了。可以说,做数据分析的人员是必须掌握,至少了解这些算法的。当然,针对那些有志于在机器学习领域深造的,可以在小组内发帖进行分享或者咨询等。
     机器学习算法应用非常广泛,文本分类、人脸识别、用户画像、智能推荐、自动驾驶、医疗辅助诊断、异常检测、搜索引擎、关联规则挖掘等都是非常有趣的应用,这些当中肯定会有你感兴趣的地方;除此之外,算法本身的设计也是非常有趣的,这就是纯理论的方面了,至今未决的一大块内容就是深度神经网络的理论依据解释了,这也是未来的发展方向之一。
    2、分享编程与开发知识。小组内有很多致力于编程开发的成员,比如阎锦恒学长、梁波,组内有Java开发、PHP开发、Python等大牛,这里你可以分享或咨询一些这些编程方面的问题。虽然有很多人吐槽程序猿,但是我觉得编程开发也是一个非常有趣的方向,编程开发有很多方面,就单单拿手机APP开发来说,在我看来,一些游戏APP、健身APP的开发,都是非常有趣,同时也是很有成就感的事情。退一步说,即便以后你的目标不是做程序猿,编程也会给你带来巨大的方便性,比如文件的批量处理(拷贝、重命名等)、数据的简单分析(回归预测等)、图像的简单处理(虽然PS比较容易上手)等等。
    3、求职内推、数据分析比赛等资源。我希望组里的每一个人都可以找到自己感兴趣的方向,并在这方面有所建树,这样小组内资源也会越来越多。最明显的就是求职内推了,如果你想找实习或校招,完全可以向学长学姐咨询,同时会有很多内推机会。比如刘伙玉和阎锦恒学长在阿里的内推,这就是一个非常宝贵的机会。现在小组成立还未满两年,所以资源不是非常多,但是我相信小组会届届传承下去,到时大家可以互相帮助,资源共享。除了内推,如果你想参加数据挖掘比赛、大数据比赛等,这里也是很好的组队和交流平台。

    我相信,你参加小组之后会得到以下收获:
    1、确定自己的发展方向,技术或非技术方向;
    2、学习到很多东西,机器学习算法、编程技能、实习面试技巧等;
    3、获得实习、校招内推的资源;
    4、结识很多志同道合的朋友。

    现在小组进行招募成员,我们希望你有如下的能力或表现:
    1、积极参与小组分享会,每学期有2-3次;
    2、积极在本网站内发帖交流,内容范围包括很多:机器学习算法学习心得、编程小项目总结(比如数独、迷宫)、求职分享、实习面试技巧分享等;
    3、对机器学习算法(包括应用、算法理论)、编程(C++、Java、Python、Scala、R等)、Spark等大数据计算等有简单了解,或者虽然你不太了解上述,但是有兴趣想了解一下;
    4、积极帮助他人,小组内互助,共同进步。

    如果你还没有确定自己以后走什么方向,或者已经确定了方向,并且对数据分析、编程这方面感兴趣的话,欢迎你的加入。总而言之,本小组面向人群广泛,不论你是做技术还是走非技术方向,不论你是大牛还是初出茅庐,小组都欢迎你的加入。

    最后总结一下小组的目标和下学期的任务:
    目标:届届相承,共同进步,打造成南京大学信息管理学院的一个凝聚点!
    任务:2-3次分享会,给新生、大二以及其余未确定方向的人以指引,让组内成员尽可能多学到一点知识,多学一点是一点;站内形成一个大家积极发帖,互相交流,互相讨论的氛围。

     如果你想了解小组的一些东西,可以去参考小组成员已经发布的文章。如果你有进一步了解小组的想法或者想直接加入小组,请与我联系:李新春 lxcnju@163.com;qq:1851481624。 查看全部
    本帖比较长,还希望各位抽出五分钟的时间来阅读一下,在此先感谢各位。
   
    信息管理学院数据挖掘兴趣小组是由我院硕士刘伙玉学长创建的,旨在给大家一个交流分享的平台,让更多的信管学生尽快找到自己感兴趣的方向,共同打造一个互帮互助、共同进步的学习氛围。由于刘伙玉学长毕业去阿里工作,现在小组目前由我来负责。我是大二参加的这个小组,在这接近两年的时间里,总结一下,我有以下收获:
    1、接触机器学习,从一些入门算法开始;2、接触过一些大数据比赛;3、掌握Python编程。
    实话实说,大二上半学期我还不知道何谓机器学习,更不知道还有Kaggle,天池等大数据比赛,对Python编程也只是一知半解。
    各位读者,尤其是大二大三的你们,或许正在对将来要做什么而感到迷茫,或许即将面临抉择,而如果到现在还没有目标,那么将无疑是一件很痛苦的事情。我不知道究竟有多少人以后打算工作,以我目前了解的信管学生,想走技术岗的难以和计科软院相比,想走非技术岗位又难以和商院相比。总的来说,我觉得信管学子如果是仅限于信管开设的课程的话,是远远不够的。说实话,我真的庆幸自己能加入这个小组,找到了我以后要致力于做的方向,真心感谢刘伙玉学长和其他小组成员的引领,这让我在未来道路的选择上少走了很多弯路。

    小组成员有刘伙玉,阎锦恒,戚尔鹏,孟凡赛,史昱天,郜梦蕊,陈超群,王开新,李浩,韩韬等,其中有部分学长学姐毕业,在以后的分享会中可能来不到现场了,但是他们在站内还是会积极回答各位的问题以及分享工作经验、内推机会的。小组的主要任务可以分为以下三个部分:
    1、分享机器学习、数据挖掘算法。现今人工智能非常火热,大家或许都听说过AlphaGo、深度学习,这其实是机器学习中的一部分:神经网络。除此之外,在数据挖掘中也可能听说过K-Means, LogisticRegression, 决策树,支持向量机等,这些都是机器学习领域的基础算法。小组会于下学期举办2-3场分享会,从基础开始分享,当然也会推荐一些经典的博客、书籍和论文了。可以说,做数据分析的人员是必须掌握,至少了解这些算法的。当然,针对那些有志于在机器学习领域深造的,可以在小组内发帖进行分享或者咨询等。
     机器学习算法应用非常广泛,文本分类、人脸识别、用户画像、智能推荐、自动驾驶、医疗辅助诊断、异常检测、搜索引擎、关联规则挖掘等都是非常有趣的应用,这些当中肯定会有你感兴趣的地方;除此之外,算法本身的设计也是非常有趣的,这就是纯理论的方面了,至今未决的一大块内容就是深度神经网络的理论依据解释了,这也是未来的发展方向之一。
    2、分享编程与开发知识。小组内有很多致力于编程开发的成员,比如阎锦恒学长、梁波,组内有Java开发、PHP开发、Python等大牛,这里你可以分享或咨询一些这些编程方面的问题。虽然有很多人吐槽程序猿,但是我觉得编程开发也是一个非常有趣的方向,编程开发有很多方面,就单单拿手机APP开发来说,在我看来,一些游戏APP、健身APP的开发,都是非常有趣,同时也是很有成就感的事情。退一步说,即便以后你的目标不是做程序猿,编程也会给你带来巨大的方便性,比如文件的批量处理(拷贝、重命名等)、数据的简单分析(回归预测等)、图像的简单处理(虽然PS比较容易上手)等等。
    3、求职内推、数据分析比赛等资源。我希望组里的每一个人都可以找到自己感兴趣的方向,并在这方面有所建树,这样小组内资源也会越来越多。最明显的就是求职内推了,如果你想找实习或校招,完全可以向学长学姐咨询,同时会有很多内推机会。比如刘伙玉和阎锦恒学长在阿里的内推,这就是一个非常宝贵的机会。现在小组成立还未满两年,所以资源不是非常多,但是我相信小组会届届传承下去,到时大家可以互相帮助,资源共享。除了内推,如果你想参加数据挖掘比赛、大数据比赛等,这里也是很好的组队和交流平台。

    我相信,你参加小组之后会得到以下收获:
    1、确定自己的发展方向,技术或非技术方向;
    2、学习到很多东西,机器学习算法、编程技能、实习面试技巧等;
    3、获得实习、校招内推的资源;
    4、结识很多志同道合的朋友。

   
现在小组进行招募成员,我们希望你有如下的能力或表现:
    1、积极参与小组分享会,每学期有2-3次;
    2、积极在本网站内发帖交流,内容范围包括很多:机器学习算法学习心得、编程小项目总结(比如数独、迷宫)、求职分享、实习面试技巧分享等;
    3、对机器学习算法(包括应用、算法理论)、编程(C++、Java、Python、Scala、R等)、Spark等大数据计算等有简单了解,或者虽然你不太了解上述,但是有兴趣想了解一下;
    4、积极帮助他人,小组内互助,共同进步。

   
如果你还没有确定自己以后走什么方向,或者已经确定了方向,并且对数据分析、编程这方面感兴趣的话,欢迎你的加入。总而言之,本小组面向人群广泛,不论你是做技术还是走非技术方向,不论你是大牛还是初出茅庐,小组都欢迎你的加入。

    最后总结一下小组的目标和下学期的任务:
    目标:届届相承,共同进步,打造成南京大学信息管理学院的一个凝聚点!
    任务:2-3次分享会,给新生、大二以及其余未确定方向的人以指引,让组内成员尽可能多学到一点知识,多学一点是一点;站内形成一个大家积极发帖,互相交流,互相讨论的氛围

     如果你想了解小组的一些东西,可以去参考小组成员已经发布的文章。如果你有进一步了解小组的想法或者想直接加入小组,请与我联系:李新春 lxcnju@163.com;qq:1851481624。