记信息素养协会及数据挖掘小组第一次分享会

李新春 发表了文章 • 0 个评论 • 47 次浏览 • 2017-10-24 23:20 • 来自相关话题

    随着十九大的召开,习大大号召产业升级,推动互联网,大数据,人工智能和实体经济深度融合。近期,平地一声雷,Nature发表了关于AlphaZero在无知状态下学习围棋并打败他的弟弟AlphaGo 的文章。人工智能,大数据在如今的学术界,工业界打得一片火热。与他们密切相关的信息素养协会的小伙伴们又怎么能落后于这股潮流呢?
    秉着给信息素养协会的伙伴们造福利的理念,10月15日,信息管理学院的李新春和韩韬同学来给同学们分享一些编程和算法的基础知识。
    分享会首先由李新春开始介绍python的基础知识,包括python的简介、安装,另外从python变量、运算符、基础语法、数据结构等进行展开介绍,同时给大家展示了一下python和C,Java的区别。由于分享时间只有半小时左右,所以只能给大家一个初步的认识,希望可以帮到那些对python尚不了解的同学。PPT见附件,里面有一些学习资源的链接。






    另外,为了适应不同层次同学的学习需要,以及小组“数据挖掘”为主的本质,李新春又给大家介绍了机器学习十大算法之一,无监督学习的KMeans,以及KMeans在图像分割中的应用,同时用python实现给大家进行了简单的展示。






    从python基础到机器学习,再到图像分割的具体应用,可以说是一个由浅入深的过程,希望大家可以从中学到一些知识。之外,可能有的同学对python, 对Kmeans都比较熟悉了,所以本次分享会进入第二阶段,由韩韬同学给大家分享爬虫的知识。
    韩韬首先给出了爬虫的基本框架,然后由南京大学小百合的网站出发,给大家展示了浏览器“查看元素”功能的强大之处,在网络爬虫的开发中,浏览器查看元素的作用很重要。此外,韩韬用python的requests库给大家抓取了一些网页,到此如何爬取网页内容已经介绍给大家了。然后,韩韬给大家分享了如何用正则表达式,css选择器来抽取相应的元素。最后,关于一些编码问题,韩韬也做了一些介绍,同时给了大家一些展示。可以说,本次爬虫的分享内容十分丰富,也非常实用,希望各位同学后续可以在网上找一些教程实战一下。






    分享会已经过去一周了,现在才发总结,是不是有点晚了呢?不晚,因为今天是10月24号,1024,仅代表数据挖掘兴趣小组全体成员向所有的程序员祝福,生日快乐。不不不,节日快乐!

   查看全部
    随着十九大的召开,习大大号召产业升级,推动互联网,大数据,人工智能和实体经济深度融合。近期,平地一声雷,Nature发表了关于AlphaZero在无知状态下学习围棋并打败他的弟弟AlphaGo 的文章。人工智能,大数据在如今的学术界,工业界打得一片火热。与他们密切相关的信息素养协会的小伙伴们又怎么能落后于这股潮流呢?
    秉着给信息素养协会的伙伴们造福利的理念,10月15日,信息管理学院的李新春和韩韬同学来给同学们分享一些编程和算法的基础知识。
    分享会首先由李新春开始介绍python的基础知识,包括python的简介、安装,另外从python变量、运算符、基础语法、数据结构等进行展开介绍,同时给大家展示了一下python和C,Java的区别。由于分享时间只有半小时左右,所以只能给大家一个初步的认识,希望可以帮到那些对python尚不了解的同学。PPT见附件,里面有一些学习资源的链接。

1.jpg


    另外,为了适应不同层次同学的学习需要,以及小组“数据挖掘”为主的本质,李新春又给大家介绍了机器学习十大算法之一,无监督学习的KMeans,以及KMeans在图像分割中的应用,同时用python实现给大家进行了简单的展示。

3.jpg


    从python基础到机器学习,再到图像分割的具体应用,可以说是一个由浅入深的过程,希望大家可以从中学到一些知识。之外,可能有的同学对python, 对Kmeans都比较熟悉了,所以本次分享会进入第二阶段,由韩韬同学给大家分享爬虫的知识。
    韩韬首先给出了爬虫的基本框架,然后由南京大学小百合的网站出发,给大家展示了浏览器“查看元素”功能的强大之处,在网络爬虫的开发中,浏览器查看元素的作用很重要。此外,韩韬用python的requests库给大家抓取了一些网页,到此如何爬取网页内容已经介绍给大家了。然后,韩韬给大家分享了如何用正则表达式,css选择器来抽取相应的元素。最后,关于一些编码问题,韩韬也做了一些介绍,同时给了大家一些展示。可以说,本次爬虫的分享内容十分丰富,也非常实用,希望各位同学后续可以在网上找一些教程实战一下。

2.jpg


    分享会已经过去一周了,现在才发总结,是不是有点晚了呢?不晚,因为今天是10月24号,1024,仅代表数据挖掘兴趣小组全体成员向所有的程序员祝福,生日快乐。不不不,节日快乐!

  

2017-2018上半学期第一次见面会

李新春 发表了文章 • 0 个评论 • 86 次浏览 • 2017-09-19 22:28 • 来自相关话题

    2017年9月17日晚19点,信息管理学院数据挖掘兴趣小组在院楼318教室举办了2017-2018年度上半学期的第一场见面会,小组见面会的场面用四个字来形容就是座无虚席。让我们来看看见面会都有些什么吧。
   





    首先,由李新春同学致欢迎辞,介绍数据挖掘兴趣小组的基本情况以及小组和信息素养协会之间的关系。小组第一次见面会的主要目的是给新成员们一个兴趣指引,所以李新春同学先介绍了一下什么是机器学习,并且利用Andrew Ng在Coursera上机器学习公开课里面的介绍视频给大家进行一个简单的展示(可惜的是现场视频没有播放出声音来,不过不要紧,PPT里面有链接)。接下来,介绍了机器学习可以用来干什么,包括自然语言处理、自动驾驶、推荐系统等等。再接着从算法、数据和深度三个方面进行展开,介绍了要学习哪些东西。最后给出了一大波学习资料,有公开课、论文、书籍等。
   
    接下来是三位小组“老”成员的分享,韩韬同学根据自己在前海征信“好信杯”大数据算法竞赛获奖的经历进行了分享,介绍了问题背景以及什么是迁移学习,并且展示了比赛过程中用到的算法,分享了比赛的心得等等。王开新同学则从工具这方面进行展开,给大家介绍了很多实用性的工具,包括stack overflow、github、kaggle等平台以及Python的numpy、scikit learn、keras等工具包。郜梦蕊同学则根据自己在小组内接近两年的经历和所学所得做了一个分享。
    可以说,三位成员分别从大数据竞赛、学习工具和小组心得三个方面展开,这将是非常具有实用性的,最起码小组新成员会通过这场见面会知道机器学习可以干什么以及我为什么学习机器学习。
   





    最后一个环节则是小组“老”成员与新成员面对面的沟通,以增加彼此间的了解。
    PPT资料在附件里面,里面有很多链接可以获得相关资料,大家可以下载一下。
 

  查看全部
    2017年9月17日晚19点,信息管理学院数据挖掘兴趣小组在院楼318教室举办了2017-2018年度上半学期的第一场见面会,小组见面会的场面用四个字来形容就是座无虚席。让我们来看看见面会都有些什么吧。
   
1.PNG


    首先,由李新春同学致欢迎辞,介绍数据挖掘兴趣小组的基本情况以及小组和信息素养协会之间的关系。小组第一次见面会的主要目的是给新成员们一个兴趣指引,所以李新春同学先介绍了一下什么是机器学习,并且利用Andrew Ng在Coursera上机器学习公开课里面的介绍视频给大家进行一个简单的展示(可惜的是现场视频没有播放出声音来,不过不要紧,PPT里面有链接)。接下来,介绍了机器学习可以用来干什么,包括自然语言处理、自动驾驶、推荐系统等等。再接着从算法、数据和深度三个方面进行展开,介绍了要学习哪些东西。最后给出了一大波学习资料,有公开课、论文、书籍等。
   
    接下来是三位小组“老”成员的分享,韩韬同学根据自己在前海征信“好信杯”大数据算法竞赛获奖的经历进行了分享,介绍了问题背景以及什么是迁移学习,并且展示了比赛过程中用到的算法,分享了比赛的心得等等。王开新同学则从工具这方面进行展开,给大家介绍了很多实用性的工具,包括stack overflow、github、kaggle等平台以及Python的numpy、scikit learn、keras等工具包。郜梦蕊同学则根据自己在小组内接近两年的经历和所学所得做了一个分享。
    可以说,三位成员分别从大数据竞赛、学习工具和小组心得三个方面展开,这将是非常具有实用性的,最起码小组新成员会通过这场见面会知道机器学习可以干什么以及我为什么学习机器学习。
   
2.PNG


    最后一个环节则是小组“老”成员与新成员面对面的沟通,以增加彼此间的了解。
    PPT资料在附件里面,里面有很多链接可以获得相关资料,大家可以下载一下。
 

 

信息管理学院数据挖掘兴趣小组小介和招募成员通知

李新春 发表了文章 • 1 个评论 • 421 次浏览 • 2017-07-05 13:28 • 来自相关话题

    本帖比较长,还希望各位抽出五分钟的时间来阅读一下,在此先感谢各位。
   
    信息管理学院数据挖掘兴趣小组是由我院硕士刘伙玉学长创建的,旨在给大家一个交流分享的平台,让更多的信管学生尽快找到自己感兴趣的方向,共同打造一个互帮互助、共同进步的学习氛围。由于刘伙玉学长毕业去阿里工作,现在小组目前由我来负责。我是大二参加的这个小组,在这接近两年的时间里,总结一下,我有以下收获:
    1、接触机器学习,从一些入门算法开始;2、接触过一些大数据比赛;3、掌握Python编程。
    实话实说,大二上半学期我还不知道何谓机器学习,更不知道还有Kaggle,天池等大数据比赛,对Python编程也只是一知半解。
    各位读者,尤其是大二大三的你们,或许正在对将来要做什么而感到迷茫,或许即将面临抉择,而如果到现在还没有目标,那么将无疑是一件很痛苦的事情。我不知道究竟有多少人以后打算工作,以我目前了解的信管学生,想走技术岗的难以和计科软院相比,想走非技术岗位又难以和商院相比。总的来说,我觉得信管学子如果是仅限于信管开设的课程的话,是远远不够的。说实话,我真的庆幸自己能加入这个小组,找到了我以后要致力于做的方向,真心感谢刘伙玉学长和其他小组成员的引领,这让我在未来道路的选择上少走了很多弯路。

    小组成员有刘伙玉,阎锦恒,戚尔鹏,孟凡赛,史昱天,郜梦蕊,陈超群,王开新,李浩,韩韬等,其中有部分学长学姐毕业,在以后的分享会中可能来不到现场了,但是他们在站内还是会积极回答各位的问题以及分享工作经验、内推机会的。小组的主要任务可以分为以下三个部分:
    1、分享机器学习、数据挖掘算法。现今人工智能非常火热,大家或许都听说过AlphaGo、深度学习,这其实是机器学习中的一部分:神经网络。除此之外,在数据挖掘中也可能听说过K-Means, LogisticRegression, 决策树,支持向量机等,这些都是机器学习领域的基础算法。小组会于下学期举办2-3场分享会,从基础开始分享,当然也会推荐一些经典的博客、书籍和论文了。可以说,做数据分析的人员是必须掌握,至少了解这些算法的。当然,针对那些有志于在机器学习领域深造的,可以在小组内发帖进行分享或者咨询等。
     机器学习算法应用非常广泛,文本分类、人脸识别、用户画像、智能推荐、自动驾驶、医疗辅助诊断、异常检测、搜索引擎、关联规则挖掘等都是非常有趣的应用,这些当中肯定会有你感兴趣的地方;除此之外,算法本身的设计也是非常有趣的,这就是纯理论的方面了,至今未决的一大块内容就是深度神经网络的理论依据解释了,这也是未来的发展方向之一。
    2、分享编程与开发知识。小组内有很多致力于编程开发的成员,比如阎锦恒学长、梁波,组内有Java开发、PHP开发、Python等大牛,这里你可以分享或咨询一些这些编程方面的问题。虽然有很多人吐槽程序猿,但是我觉得编程开发也是一个非常有趣的方向,编程开发有很多方面,就单单拿手机APP开发来说,在我看来,一些游戏APP、健身APP的开发,都是非常有趣,同时也是很有成就感的事情。退一步说,即便以后你的目标不是做程序猿,编程也会给你带来巨大的方便性,比如文件的批量处理(拷贝、重命名等)、数据的简单分析(回归预测等)、图像的简单处理(虽然PS比较容易上手)等等。
    3、求职内推、数据分析比赛等资源。我希望组里的每一个人都可以找到自己感兴趣的方向,并在这方面有所建树,这样小组内资源也会越来越多。最明显的就是求职内推了,如果你想找实习或校招,完全可以向学长学姐咨询,同时会有很多内推机会。比如刘伙玉和阎锦恒学长在阿里的内推,这就是一个非常宝贵的机会。现在小组成立还未满两年,所以资源不是非常多,但是我相信小组会届届传承下去,到时大家可以互相帮助,资源共享。除了内推,如果你想参加数据挖掘比赛、大数据比赛等,这里也是很好的组队和交流平台。

    我相信,你参加小组之后会得到以下收获:
    1、确定自己的发展方向,技术或非技术方向;
    2、学习到很多东西,机器学习算法、编程技能、实习面试技巧等;
    3、获得实习、校招内推的资源;
    4、结识很多志同道合的朋友。

    现在小组进行招募成员,我们希望你有如下的能力或表现:
    1、积极参与小组分享会,每学期有2-3次;
    2、积极在本网站内发帖交流,内容范围包括很多:机器学习算法学习心得、编程小项目总结(比如数独、迷宫)、求职分享、实习面试技巧分享等;
    3、对机器学习算法(包括应用、算法理论)、编程(C++、Java、Python、Scala、R等)、Spark等大数据计算等有简单了解,或者虽然你不太了解上述,但是有兴趣想了解一下;
    4、积极帮助他人,小组内互助,共同进步。

    如果你还没有确定自己以后走什么方向,或者已经确定了方向,并且对数据分析、编程这方面感兴趣的话,欢迎你的加入。总而言之,本小组面向人群广泛,不论你是做技术还是走非技术方向,不论你是大牛还是初出茅庐,小组都欢迎你的加入。

    最后总结一下小组的目标和下学期的任务:
    目标:届届相承,共同进步,打造成南京大学信息管理学院的一个凝聚点!
    任务:2-3次分享会,给新生、大二以及其余未确定方向的人以指引,让组内成员尽可能多学到一点知识,多学一点是一点;站内形成一个大家积极发帖,互相交流,互相讨论的氛围。

     如果你想了解小组的一些东西,可以去参考小组成员已经发布的文章。如果你有进一步了解小组的想法或者想直接加入小组,请与我联系:李新春 lxcnju@163.com;qq:1851481624。 查看全部
    本帖比较长,还希望各位抽出五分钟的时间来阅读一下,在此先感谢各位。
   
    信息管理学院数据挖掘兴趣小组是由我院硕士刘伙玉学长创建的,旨在给大家一个交流分享的平台,让更多的信管学生尽快找到自己感兴趣的方向,共同打造一个互帮互助、共同进步的学习氛围。由于刘伙玉学长毕业去阿里工作,现在小组目前由我来负责。我是大二参加的这个小组,在这接近两年的时间里,总结一下,我有以下收获:
    1、接触机器学习,从一些入门算法开始;2、接触过一些大数据比赛;3、掌握Python编程。
    实话实说,大二上半学期我还不知道何谓机器学习,更不知道还有Kaggle,天池等大数据比赛,对Python编程也只是一知半解。
    各位读者,尤其是大二大三的你们,或许正在对将来要做什么而感到迷茫,或许即将面临抉择,而如果到现在还没有目标,那么将无疑是一件很痛苦的事情。我不知道究竟有多少人以后打算工作,以我目前了解的信管学生,想走技术岗的难以和计科软院相比,想走非技术岗位又难以和商院相比。总的来说,我觉得信管学子如果是仅限于信管开设的课程的话,是远远不够的。说实话,我真的庆幸自己能加入这个小组,找到了我以后要致力于做的方向,真心感谢刘伙玉学长和其他小组成员的引领,这让我在未来道路的选择上少走了很多弯路。

    小组成员有刘伙玉,阎锦恒,戚尔鹏,孟凡赛,史昱天,郜梦蕊,陈超群,王开新,李浩,韩韬等,其中有部分学长学姐毕业,在以后的分享会中可能来不到现场了,但是他们在站内还是会积极回答各位的问题以及分享工作经验、内推机会的。小组的主要任务可以分为以下三个部分:
    1、分享机器学习、数据挖掘算法。现今人工智能非常火热,大家或许都听说过AlphaGo、深度学习,这其实是机器学习中的一部分:神经网络。除此之外,在数据挖掘中也可能听说过K-Means, LogisticRegression, 决策树,支持向量机等,这些都是机器学习领域的基础算法。小组会于下学期举办2-3场分享会,从基础开始分享,当然也会推荐一些经典的博客、书籍和论文了。可以说,做数据分析的人员是必须掌握,至少了解这些算法的。当然,针对那些有志于在机器学习领域深造的,可以在小组内发帖进行分享或者咨询等。
     机器学习算法应用非常广泛,文本分类、人脸识别、用户画像、智能推荐、自动驾驶、医疗辅助诊断、异常检测、搜索引擎、关联规则挖掘等都是非常有趣的应用,这些当中肯定会有你感兴趣的地方;除此之外,算法本身的设计也是非常有趣的,这就是纯理论的方面了,至今未决的一大块内容就是深度神经网络的理论依据解释了,这也是未来的发展方向之一。
    2、分享编程与开发知识。小组内有很多致力于编程开发的成员,比如阎锦恒学长、梁波,组内有Java开发、PHP开发、Python等大牛,这里你可以分享或咨询一些这些编程方面的问题。虽然有很多人吐槽程序猿,但是我觉得编程开发也是一个非常有趣的方向,编程开发有很多方面,就单单拿手机APP开发来说,在我看来,一些游戏APP、健身APP的开发,都是非常有趣,同时也是很有成就感的事情。退一步说,即便以后你的目标不是做程序猿,编程也会给你带来巨大的方便性,比如文件的批量处理(拷贝、重命名等)、数据的简单分析(回归预测等)、图像的简单处理(虽然PS比较容易上手)等等。
    3、求职内推、数据分析比赛等资源。我希望组里的每一个人都可以找到自己感兴趣的方向,并在这方面有所建树,这样小组内资源也会越来越多。最明显的就是求职内推了,如果你想找实习或校招,完全可以向学长学姐咨询,同时会有很多内推机会。比如刘伙玉和阎锦恒学长在阿里的内推,这就是一个非常宝贵的机会。现在小组成立还未满两年,所以资源不是非常多,但是我相信小组会届届传承下去,到时大家可以互相帮助,资源共享。除了内推,如果你想参加数据挖掘比赛、大数据比赛等,这里也是很好的组队和交流平台。

    我相信,你参加小组之后会得到以下收获:
    1、确定自己的发展方向,技术或非技术方向;
    2、学习到很多东西,机器学习算法、编程技能、实习面试技巧等;
    3、获得实习、校招内推的资源;
    4、结识很多志同道合的朋友。

   
现在小组进行招募成员,我们希望你有如下的能力或表现:
    1、积极参与小组分享会,每学期有2-3次;
    2、积极在本网站内发帖交流,内容范围包括很多:机器学习算法学习心得、编程小项目总结(比如数独、迷宫)、求职分享、实习面试技巧分享等;
    3、对机器学习算法(包括应用、算法理论)、编程(C++、Java、Python、Scala、R等)、Spark等大数据计算等有简单了解,或者虽然你不太了解上述,但是有兴趣想了解一下;
    4、积极帮助他人,小组内互助,共同进步。

   
如果你还没有确定自己以后走什么方向,或者已经确定了方向,并且对数据分析、编程这方面感兴趣的话,欢迎你的加入。总而言之,本小组面向人群广泛,不论你是做技术还是走非技术方向,不论你是大牛还是初出茅庐,小组都欢迎你的加入。

    最后总结一下小组的目标和下学期的任务:
    目标:届届相承,共同进步,打造成南京大学信息管理学院的一个凝聚点!
    任务:2-3次分享会,给新生、大二以及其余未确定方向的人以指引,让组内成员尽可能多学到一点知识,多学一点是一点;站内形成一个大家积极发帖,互相交流,互相讨论的氛围

     如果你想了解小组的一些东西,可以去参考小组成员已经发布的文章。如果你有进一步了解小组的想法或者想直接加入小组,请与我联系:李新春 lxcnju@163.com;qq:1851481624。

#专题分享会第一期#资料汇总以及下期预告

周思佳 发表了文章 • 0 个评论 • 123 次浏览 • 2016-11-22 13:09 • 来自相关话题

数据挖掘兴趣小组本学期第一次分享会于11月18日18:30在院楼224举行。分享会共有六位同学展示了自己最近的实践经历和学习成果,讨论从18:30持续到22:00。
 
来看看大家都讨论了哪些问题吧:
 





首先,14级情报学硕士刘伙玉以自己作为算法工程师的实习经历为切入点,给大家分享了构建推荐系统的流程,从推荐系统的框架到线上线下评估的方法,介绍了需要掌握的相关工具,让大家对推荐系统算法有了一个整体的了解。
 
同样是实践类的介绍,16级硕士李柯则选择了自己大三时的国创项目“木材切面纹理图像特征提取与选择”和毕业论文“基于视觉模型的量化索引调制数字水印算法研究”,主要介绍了算法设计选择的过程和改进方法。
 





而在算法方面,16级硕士陈超群主要介绍了逻辑回归(LR)算法,围绕逻辑回归模型,同时介绍了相关的优化算法,包括梯度下降算法、牛顿法、拟牛顿法、共轭梯度法等。14级本科生李新春则介绍了期望极大算法(EM),给出了含有隐变量的概率模型参数估计方法。
 
最后,16级硕士郜梦蕊从特征工程入手,介绍了特征清洗、特征采样、特征选择、特征监控等方面的内容;而14级本科生王开新则重点介绍了贝叶斯与多项式拟合、L1L2正则项、LARs算法、GBDT算法等多个方面。
 





附上相关资料链接:
 
【逻辑回归模型介绍以及优化算法】
http://www.imtechcenter.com/?/article/50
【如何处理正负样本不均衡】
http://www.imtechcenter.com/?/article/48
【特征降维】
http://www.imtechcenter.com/?/article/47
【特征选择】
http://www.imtechcenter.com/?/article/46
【EM算法的应用与关键步骤分析】
http://www.imtechcenter.com/?/article/41
【贝叶斯与多项式拟合】
http://www.imtechcenter.com/?/article/38
【LARS与Lasso和Forward Stagewise】
http://www.imtechcenter.com/?/article/43
【梯度提升(Gradient Boosting)】
http://www.imtechcenter.com/?/article/44
 
下期专题分享会预告
将会重点探讨概率图模型(HMM,MEMM,CRF等)、word2vecor、SVM等算法。
 
下期专题分享会预告
将会重点探讨深度学习等。

  查看全部
数据挖掘兴趣小组本学期第一次分享会于11月18日18:30在院楼224举行。分享会共有六位同学展示了自己最近的实践经历和学习成果,讨论从18:30持续到22:00。
 
来看看大家都讨论了哪些问题吧:
 
1.jpg


首先,14级情报学硕士刘伙玉以自己作为算法工程师的实习经历为切入点,给大家分享了构建推荐系统的流程,从推荐系统的框架到线上线下评估的方法,介绍了需要掌握的相关工具,让大家对推荐系统算法有了一个整体的了解。
 
同样是实践类的介绍,16级硕士李柯则选择了自己大三时的国创项目“木材切面纹理图像特征提取与选择”和毕业论文“基于视觉模型的量化索引调制数字水印算法研究”,主要介绍了算法设计选择的过程和改进方法。
 
2.jpg


而在算法方面,16级硕士陈超群主要介绍了逻辑回归(LR)算法,围绕逻辑回归模型,同时介绍了相关的优化算法,包括梯度下降算法、牛顿法、拟牛顿法、共轭梯度法等。14级本科生李新春则介绍了期望极大算法(EM),给出了含有隐变量的概率模型参数估计方法。
 
最后,16级硕士郜梦蕊从特征工程入手,介绍了特征清洗、特征采样、特征选择、特征监控等方面的内容;而14级本科生王开新则重点介绍了贝叶斯与多项式拟合、L1L2正则项、LARs算法、GBDT算法等多个方面。
 
3.jpg


附上相关资料链接:
 
【逻辑回归模型介绍以及优化算法】
http://www.imtechcenter.com/?/article/50
【如何处理正负样本不均衡】
http://www.imtechcenter.com/?/article/48
【特征降维】
http://www.imtechcenter.com/?/article/47
【特征选择】
http://www.imtechcenter.com/?/article/46
【EM算法的应用与关键步骤分析】
http://www.imtechcenter.com/?/article/41
【贝叶斯与多项式拟合】
http://www.imtechcenter.com/?/article/38
【LARS与Lasso和Forward Stagewise】
http://www.imtechcenter.com/?/article/43
【梯度提升(Gradient Boosting)】
http://www.imtechcenter.com/?/article/44
 
下期专题分享会预告
将会重点探讨概率图模型(HMM,MEMM,CRF等)、word2vecor、SVM等算法。
 
下期专题分享会预告
将会重点探讨深度学习等。

 

图像分割实现 SVM&Kmeans

李新春 发表了文章 • 1 个评论 • 217 次浏览 • 2016-11-14 22:48 • 来自相关话题

                                                               图像分割实现 SVM&Kmeans
 
    图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。简单来说就是给出一张图像,利用一定算法将图片分为几个特定的部分,最为常见的比如“抠图”,将一个物体(可以是一只猫、一棵树等)和背景分离,从而达到从原来图片中抠出该物体的效果。
   限于笔者刚接触图像处理领域不久以及自己的认知水平,下面就以最简单的“抠图”稍作介绍。显然我们可以利用功能强大的Photoshop来实现这一过程,我们可以利用魔棒、色彩选择、钢笔锚点等功能来简单地实现抠图过程,如果想更光滑地将图片抠出,可以考虑采用一些高级功能,比如蒙版、路径、通道等。由此也可见Photoshop的功能之强大。这些功能的原理以及如何用代码实现是一件非常有趣的事情,有兴趣的读者可以去了解相关资料。下面先简单介绍一下图像分割的常用算法。
    现在常用的图像分割算法主要有以下几种:基于阈值分割、基于边缘分割、基于区域分割、基于聚类分析分割、基于小波变换分割、基于数学形态分割、基于人工神经网络分割、基于遗传算法分割等。
    下面就笔者自己的理解对上面算法进行简单介绍。基于阈值的分割算法利用一个或多个阈值将图像灰度直方图分为几类,即完成对图像的分割;基于边缘的分割算法是检测灰度级别有突变的地方,这儿往往是图像中不同部分的交接之处,故在此分割即可将图像分成多个部分;基于区域的分割算法可以分为两种,从整体到部分逐渐分裂以及从部分到整体逐渐合并,从而达到分割图像的目的;基于聚类分析的算法是对图像中的所有像素点进行自动聚类;基于小波变换、数学形态、人工神经网络和遗传算法的分割算法都是利用了专门的数学方法和理论知识,这里不多介绍。本文中采取了SVM和K-means两大算法来实现简单的图像分割。两者都是机器学习领域“十大算法”中的成员。
    SVM算法: SVM算法是有监督学习中最为重要的算法之一,它基于训练集和测试集进行工作的,本次实验中的样本是像素点的(R,G,B)值。主要思路是先分别人工选取30个背景点和30个前景点作为训练集,30个背景点的标签都是0, 30个前景点的标签都是1。然后利用SVM对训练集进行训练,其中用到了K-交叉验证对参数(c, g)进行寻优。然后得到最优模型,继而对整张图像所有像素点的(R,G,B)值进行测试,即将图像像素点分为两类,从而完成了对图像的分割。代码见附件中的LibsvmPictureCut.m (程序所用包为台湾大学林智仁教授等开发的Libsvm包,可在参考文献2中的链接进行下载),详细过程截图请见图1至图3。
 
    图1:littleduck.jpg 选取训练集






 
    图2:littleduck.jpg 最后图像分割结果(左到右:原图、前景)

   





    图3:cat1.jpg 最终分割结果(左到右:原图、前景)






 
    K-means算法: K-means算法是无监督学习中最为重要的算法之一,本次实验中的样本也是像素点的(R,G,B)值。主要思路是将所有像素点的(R,G,B)值分为两类。代码见附件中的KmeansPictureCut.m ,详细过程截图请见图4至图5。
 
    图4:littleduck.jpg 分割结果(左到右:原图、前景、背景)






 
    图5: cat1.jpg 分割结果(左到右:原图、前景、背景)






 
    SVM和K-means算法对比分析:
    1.  SVM需要人工指定训练集,选取像素点时要注意选取有代表性的特征点;K-means是无监督学习,无需人工干预。
    2.  从littleduck.jpg来看,K-means工作效果和SVM差不多,但是K-means无需寻找最优参数,效率高,运行时间少,而SVM运行就比较慢;但是从cat1.jpg来看,显然SVM比K-means优秀,分析原因不难得知,cat1.jpg的猫身上有很多和背景颜色差不多的像素点,利用SVM可以人工干预将这些点标签为前景,但是K-means却没有人工干预,那么自然地将这些像素点分类为背景了。
    以上算法和附件里面程序仅适用于简单图片的分割,即类似于上面展示的图片,对于那些复杂的图片,还需更加强大的算法或更优的程序来实现。
    最后,本文未免有不足之处,欢迎大家对本文进行讨论,希望以后可以更多地接触机器学习和神经网络以及各种优化算法,同时也希望大家一块进步。源码、图片素材见附件。
 
参考文献:
[1] 王小川等.Matlab神经网络43个案例分析[M].北京: 北京航空航天大学出版社 ,2013:114-159
[2] Libsvm官网http://www.csie.ntu.edu.tw/~cjlin/libsvm/
  查看全部
                                                               图像分割实现 SVM&Kmeans
 
    图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。简单来说就是给出一张图像,利用一定算法将图片分为几个特定的部分,最为常见的比如“抠图”,将一个物体(可以是一只猫、一棵树等)和背景分离,从而达到从原来图片中抠出该物体的效果。
   限于笔者刚接触图像处理领域不久以及自己的认知水平,下面就以最简单的“抠图”稍作介绍。显然我们可以利用功能强大的Photoshop来实现这一过程,我们可以利用魔棒、色彩选择、钢笔锚点等功能来简单地实现抠图过程,如果想更光滑地将图片抠出,可以考虑采用一些高级功能,比如蒙版、路径、通道等。由此也可见Photoshop的功能之强大。这些功能的原理以及如何用代码实现是一件非常有趣的事情,有兴趣的读者可以去了解相关资料。下面先简单介绍一下图像分割的常用算法。
    现在常用的图像分割算法主要有以下几种:基于阈值分割、基于边缘分割、基于区域分割、基于聚类分析分割、基于小波变换分割、基于数学形态分割、基于人工神经网络分割、基于遗传算法分割等。
    下面就笔者自己的理解对上面算法进行简单介绍。基于阈值的分割算法利用一个或多个阈值将图像灰度直方图分为几类,即完成对图像的分割;基于边缘的分割算法是检测灰度级别有突变的地方,这儿往往是图像中不同部分的交接之处,故在此分割即可将图像分成多个部分;基于区域的分割算法可以分为两种,从整体到部分逐渐分裂以及从部分到整体逐渐合并,从而达到分割图像的目的;基于聚类分析的算法是对图像中的所有像素点进行自动聚类;基于小波变换、数学形态、人工神经网络和遗传算法的分割算法都是利用了专门的数学方法和理论知识,这里不多介绍。本文中采取了SVM和K-means两大算法来实现简单的图像分割。两者都是机器学习领域“十大算法”中的成员。
    SVM算法: SVM算法是有监督学习中最为重要的算法之一,它基于训练集和测试集进行工作的,本次实验中的样本是像素点的(R,G,B)值。主要思路是先分别人工选取30个背景点和30个前景点作为训练集,30个背景点的标签都是0, 30个前景点的标签都是1。然后利用SVM对训练集进行训练,其中用到了K-交叉验证对参数(c, g)进行寻优。然后得到最优模型,继而对整张图像所有像素点的(R,G,B)值进行测试,即将图像像素点分为两类,从而完成了对图像的分割。代码见附件中的LibsvmPictureCut.m (程序所用包为台湾大学林智仁教授等开发的Libsvm包,可在参考文献2中的链接进行下载),详细过程截图请见图1至图3。
 
    图1:littleduck.jpg 选取训练集

1.png


 
    图2:littleduck.jpg 最后图像分割结果(左到右:原图、前景)

   
2.png


    图3:cat1.jpg 最终分割结果(左到右:原图、前景)

3.png


 
    K-means算法: K-means算法是无监督学习中最为重要的算法之一,本次实验中的样本也是像素点的(R,G,B)值。主要思路是将所有像素点的(R,G,B)值分为两类。代码见附件中的KmeansPictureCut.m ,详细过程截图请见图4至图5。
 
    图4:littleduck.jpg 分割结果(左到右:原图、前景、背景)

4.png


 
    图5: cat1.jpg 分割结果(左到右:原图、前景、背景)

5.png


 
    SVM和K-means算法对比分析:
    1.  SVM需要人工指定训练集,选取像素点时要注意选取有代表性的特征点;K-means是无监督学习,无需人工干预。
    2.  从littleduck.jpg来看,K-means工作效果和SVM差不多,但是K-means无需寻找最优参数,效率高,运行时间少,而SVM运行就比较慢;但是从cat1.jpg来看,显然SVM比K-means优秀,分析原因不难得知,cat1.jpg的猫身上有很多和背景颜色差不多的像素点,利用SVM可以人工干预将这些点标签为前景,但是K-means却没有人工干预,那么自然地将这些像素点分类为背景了。
    以上算法和附件里面程序仅适用于简单图片的分割,即类似于上面展示的图片,对于那些复杂的图片,还需更加强大的算法或更优的程序来实现。
    最后,本文未免有不足之处,欢迎大家对本文进行讨论,希望以后可以更多地接触机器学习和神经网络以及各种优化算法,同时也希望大家一块进步。源码、图片素材见附件。
 
参考文献:
[1] 王小川等.Matlab神经网络43个案例分析[M].北京: 北京航空航天大学出版社 ,2013:114-159
[2] Libsvm官网http://www.csie.ntu.edu.tw/~cjlin/libsvm/
 

走近四大

任庄禹 发表了文章 • 0 个评论 • 162 次浏览 • 2016-08-12 11:29 • 来自相关话题

想学习会计的同学们对于“四大”这个名词一定不会陌生,四大基本是有志于财务方向的同学们的实习和最初就业的理想所在。“四大”即四大会计师事务所,指世界上著名的四个会计师事务所:普华永道(PwC)、德勤(DTT)、毕马威(KPMG)、安永(EY)。
 
普华永道普华永道是全球最具规模的专业服务机构,在全球一百四十二个国家拥有超过十二万五千名专业人士。普华永道融合他们所具备的渊博知识与丰富经验,以最高的职业操守为客户提供高质量的服务。普华永道为Price waterhouse Coopers国际网络成员公司。每一家Price waterhouse Coopers国际网络成员公司都是独立运作的法律实体。
普华永道是在中国大陆、香港及澳门处于领先地位的专业服务机构,在中国大陆、香港及澳门共拥有员工约五千五百人,其中包括二百二十六名合伙人,并在北京、重庆、大连、广州、上海、深圳、苏州、天津及西安等内地城市设立办事处。
普华永道不仅具备深厚的专门经验、广博的专业技能,更对中国大陆、香港及澳门的本土营商环境有透彻的认识。普华永道致力与客户忠诚合作,提供解决方案,协助客户应付千变万化的营商环境所带来的挑战。
 
毕马威毕马威是网络遍布全球的专业服务机构,设有由优秀专业人员组成的行业专责团队,致力提供审计、税务和谘询等专业服务。毕马威的成员机构遍及全球超过140个国家717个地区,拥有近94,000名员工。
1983年10月在北京设立了第一家常驻代表机构,广州、上海和深圳设有常驻代表处。1992年7月毕马威国际会计公司与北京的华振会计师事务所合作开办了毕马威华振会计师事务所,并于1998年12月在上海设立了上海分所。
今天,毕马威中国和香港特别行政区共设有六家办事处,拥有专业人员约4,200人。在当今国际会计 师事务所中,毕马威是唯一一家采用统一模式管理中国业务,并能够以最有效率的资源配置方式为广大中国客户服务的会计师事务所。
由于率先打入中国市场,毕马威在中国积累了丰富的市场经验,并为国内多家知名企业提供专业服务。随着中国企业融入全 球经济和境外企业大举进入中国市场,毕马威将结合其国际经验和对市场的深入认识这两大优势,在日趋复杂但又机遇处处 的中国市场为客户提供高效服务。
毕马威的专家队伍由多个领域的专业人员组成,以专注了解客户所处的行业情况和独特需求,尤其重视以行业专责团队 整合行业知识,提供优质服务。
在国内已经建立起银行、金融、电讯、石化、消费品和工业品行业划分的专责团队。同时,来自日本、美国、英国和德 国的资深毕马威人员能够处理各国的特殊专业问题,并依据当地的公认会计准则出具报告。
 
德勤德勤通常指的是“德勤全球”(Deloitte Touche Tohmatsu)的下属实体,或者这家瑞士组织遍布全球的分支机构和会员。1999年1月公布的德勤会计师行年收入为74亿美元,全球共有合伙人5145人、专业人员52520,办事机构695个。总部位于美国纽约。德勤在全球共有合伙人6000人、专业人员57000人,办事机构674个。
德勤全球在其国际化的战略指引下,在近150个国家和地区内拥有下属企业,汇集了12万多的专家,并致力于为客户提供卓越的专家服务和咨询,其主要业务集中在四个领域:审计、税务规划、咨询和财务顾问,全球有一半以上的大型企业、国有企业、公共机构、本地重要客户以及成功的成长期企业都在享受着德勤的服务。这家企业采纳了合伙制的形式,本身不直接提供服务,而是通过其全球的会员企业来聚敛财务。
作为根据瑞士法律组成的社团性质的组织,德勤全球或者其任何成员企业都是独立的实体,互相独立,在“勤业”、“勤业众信”、“德勤全球”的名号下开展自己的业务。
 
安永安永会计师事务所(Ernst & Young)为世界上最大的专业服务公司之一,它的前身是1903年成立於美国克利夫兰的恩斯特·恩斯特(1979年後合并为恩斯特·惠尼)会计师事务所和1906年成立於美国纽约的阿瑟·杨会计师事务所。安永在全球140个国家、700个城市拥有服务据点,共有员工135,000位。在福布斯的排行榜上,安永位列私人企业的第九位。总部位于伦敦。
在华业务由位于香港的中国区总部负责,在内地北京、天津、上海、成都、大连、广州、澳门、深圳、苏州、武汉、青岛、厦门、杭州设有分所。
 
 
在业内,“四大”虽然劳动强度高闻名,但是其报酬也很高。
“四大”在中国区级别一般分为五层,第一级是普通员工,下属又分为两级;第二级是资深员工,也分为三级;第三级是经理,第四级是高级经理,第五级为合伙人。
第一年来“四大”的普通员工常被称为A1或“小朋友”;在“四大”工作一年后,常被称为A2;资深员工常简称为“SA1、SA2、SA3”。其中,经理基本月薪为30000元(税前);高级经理基本月薪为47500元(税前)。而合伙人(即Partner)赚的比较多,最一般的合伙人每年都有100多万以上。
[四大的升职路径基本不变]
2年的Associate
3年的Senior Associate
CPA+个人变现+人品
入职第五年升职Manager
与投资银行一样从Manager升到Partner是没有年限的,完全取决于你的人脉关系和业务能力,有些人一辈子上不去,有些人坚持了10年做到Partner
 
一般学生投简历最多的集中在三个部门Audit审计,Tax税务,Advisory咨询。四大还有很多数不清的小部门,并不是说其他部门不重要,只是相对来说主要业务主要来源在这三块。
 
 
[四大的薪水]
*薪水具体数字可能随着地区,时间的变化会发生调整(四大xi数字已经有调整)
*谢谢西单的留言更新:7800德勤,其他三大也差不多,没突破八千
四大的第一年(在安永叫SA-1,普华永道叫SA-2)工资收入:RMB5500-5800
四大的第二年(在安永叫SA-2,普华永道叫SA-1)工资收入:RMB 6500-8000
四大的第三年,高级审计师第一年,工资收入:RMB10000-12600
四大的第四年,高级审计师第二年,工资收入:RMB13500-15500
四大的第五年,高级审计师第三年,工资收入:RMB17500-21000
 
我们常常遇到想去四大的学生说“我想去四大,因为四大是个很好的跳板!”有一天,我们问了几个四大的同事关于“跳板”的事,他们反问了一句:跳板在哪里?我们无从考究“把四大当跳板”出自何处,但非常有趣的是,其实职场中任何一个职位都是跳板,你可以从投行跳去私募,从银行跑去基金,只要你想离开,处处是跳板。
不可否认四大对于很多毕业生来说非常好的选择,在一个庞大的体系中可以非常有系统的学习,但也正因为他的规模化,你很难从中做出些出格的事情,或者实现创新的想法。规规矩矩的做事,规规矩矩的学习是在大企业工作的规矩。至于学到多少,完全取决于自己,虚心向前辈们求教总能学到东西,最忌讳的就是“傲慢”这在任何公司都不好使。名气、口碑、待遇对一个毕业生来说相对比较理想的场所,对于喜欢财务以及未来从业会涉及财务的申请人来说,是个不错去出。
四大工作的压力也相当大,前几年总听说四大有员工跳楼,相信也是因为压力。要在职场生存就是这样,想获得更好的未来,都需要在年轻的时候拼搏一把,付出比别人多,得到的自然也不会比别人少。离开四大后相信你对报表已经非常非常熟练,此时你几乎可以去任何一个需要编制或者分析报表的职位,这是四大的工作赐予员工的“福利”。
(以上引自知乎 李世峰 Frank 链接:http://www.zhihu.com/question/ ... 84944)
 
 
一个四大经理对于进入四大的一些基础能力要求:
 
在校生进入四大的门槛:
1.英语必须过六级(其他语言同等级),口语要好,面试时就突显了(不过,发现最近这几播英语都不错); 所以,你要锻炼口语,因为面试口语很重要,如果你正好碰到一个外籍经理或者合伙人就相当重要了。
2.要在学校班级或者系院有一定的社会职务
3.成绩好,到时候成绩单是一个考核指标;
4.你如果情况允许,可以先学习一下注会CPA,如果能通过,进入四大工资比非注会高一点点。如果在校就能过,也能说明你的实力,胜算更有把握。 而且,如果你学习了这个,你就不会再为以后的发展发愁了。
5.另外,提醒的就是四大招人都是提前招收,千万不要误了应届毕业生招收的时间。比如2008年7月毕业的,2007年底就招完了 。
6.如果可能,可以尽量争取一下在四大实习,或者去其他有名的公司实习。一定要有说的出名堂的实习经验来。

非应届进入四大基本条件:
1.英语6级(也就是说雅思,托福是作为国家6级之外的参考成绩来看的,只有托福雅思成绩是不行的。);
2.本科毕业学士学位;
3.工作经验:有审计经验优先,有会计相关经验优先。(不过,有的时候也可能没有任何相关经验,只是公司觉得你是个人才,比如以前有个外轮的“大付”也进来四大,那个人就是一年考过CPA。)我还有个同学以前在银行做,后来来四大的金融组(因为她考了ACCA)。总之,如果没有相关经验,就必须在某方面有所专长,让事务所觉得你是个不可多得的人才。

非应届毕业进入四大头一关笔试肯定是英语,非应届会有跟专业有关的题目,但是题目不定。

最后祝大家能够得偿所愿,找到符合自己的发展方向。
 
  查看全部
想学习会计的同学们对于“四大”这个名词一定不会陌生,四大基本是有志于财务方向的同学们的实习和最初就业的理想所在。“四大”即四大会计师事务所,指世界上著名的四个会计师事务所:普华永道(PwC)、德勤(DTT)、毕马威(KPMG)、安永(EY)。
 
普华永道普华永道是全球最具规模的专业服务机构,在全球一百四十二个国家拥有超过十二万五千名专业人士。普华永道融合他们所具备的渊博知识与丰富经验,以最高的职业操守为客户提供高质量的服务。普华永道为Price waterhouse Coopers国际网络成员公司。每一家Price waterhouse Coopers国际网络成员公司都是独立运作的法律实体。
普华永道是在中国大陆、香港及澳门处于领先地位的专业服务机构,在中国大陆、香港及澳门共拥有员工约五千五百人,其中包括二百二十六名合伙人,并在北京、重庆、大连、广州、上海、深圳、苏州、天津及西安等内地城市设立办事处。
普华永道不仅具备深厚的专门经验、广博的专业技能,更对中国大陆、香港及澳门的本土营商环境有透彻的认识。普华永道致力与客户忠诚合作,提供解决方案,协助客户应付千变万化的营商环境所带来的挑战。
 
毕马威毕马威是网络遍布全球的专业服务机构,设有由优秀专业人员组成的行业专责团队,致力提供审计、税务和谘询等专业服务。毕马威的成员机构遍及全球超过140个国家717个地区,拥有近94,000名员工。
1983年10月在北京设立了第一家常驻代表机构,广州、上海和深圳设有常驻代表处。1992年7月毕马威国际会计公司与北京的华振会计师事务所合作开办了毕马威华振会计师事务所,并于1998年12月在上海设立了上海分所。
今天,毕马威中国和香港特别行政区共设有六家办事处,拥有专业人员约4,200人。在当今国际会计 师事务所中,毕马威是唯一一家采用统一模式管理中国业务,并能够以最有效率的资源配置方式为广大中国客户服务的会计师事务所。
由于率先打入中国市场,毕马威在中国积累了丰富的市场经验,并为国内多家知名企业提供专业服务。随着中国企业融入全 球经济和境外企业大举进入中国市场,毕马威将结合其国际经验和对市场的深入认识这两大优势,在日趋复杂但又机遇处处 的中国市场为客户提供高效服务。
毕马威的专家队伍由多个领域的专业人员组成,以专注了解客户所处的行业情况和独特需求,尤其重视以行业专责团队 整合行业知识,提供优质服务。
在国内已经建立起银行、金融、电讯、石化、消费品和工业品行业划分的专责团队。同时,来自日本、美国、英国和德 国的资深毕马威人员能够处理各国的特殊专业问题,并依据当地的公认会计准则出具报告。
 
德勤德勤通常指的是“德勤全球”(Deloitte Touche Tohmatsu)的下属实体,或者这家瑞士组织遍布全球的分支机构和会员。1999年1月公布的德勤会计师行年收入为74亿美元,全球共有合伙人5145人、专业人员52520,办事机构695个。总部位于美国纽约。德勤在全球共有合伙人6000人、专业人员57000人,办事机构674个。
德勤全球在其国际化的战略指引下,在近150个国家和地区内拥有下属企业,汇集了12万多的专家,并致力于为客户提供卓越的专家服务和咨询,其主要业务集中在四个领域:审计、税务规划、咨询和财务顾问,全球有一半以上的大型企业、国有企业、公共机构、本地重要客户以及成功的成长期企业都在享受着德勤的服务。这家企业采纳了合伙制的形式,本身不直接提供服务,而是通过其全球的会员企业来聚敛财务。
作为根据瑞士法律组成的社团性质的组织,德勤全球或者其任何成员企业都是独立的实体,互相独立,在“勤业”、“勤业众信”、“德勤全球”的名号下开展自己的业务。
 
安永安永会计师事务所(Ernst & Young)为世界上最大的专业服务公司之一,它的前身是1903年成立於美国克利夫兰的恩斯特·恩斯特(1979年後合并为恩斯特·惠尼)会计师事务所和1906年成立於美国纽约的阿瑟·杨会计师事务所。安永在全球140个国家、700个城市拥有服务据点,共有员工135,000位。在福布斯的排行榜上,安永位列私人企业的第九位。总部位于伦敦。
在华业务由位于香港的中国区总部负责,在内地北京、天津、上海、成都、大连、广州、澳门、深圳、苏州、武汉、青岛、厦门、杭州设有分所。
 
 
在业内,“四大”虽然劳动强度高闻名,但是其报酬也很高。
“四大”在中国区级别一般分为五层,第一级是普通员工,下属又分为两级;第二级是资深员工,也分为三级;第三级是经理,第四级是高级经理,第五级为合伙人。
第一年来“四大”的普通员工常被称为A1或“小朋友”;在“四大”工作一年后,常被称为A2;资深员工常简称为“SA1、SA2、SA3”。其中,经理基本月薪为30000元(税前);高级经理基本月薪为47500元(税前)。而合伙人(即Partner)赚的比较多,最一般的合伙人每年都有100多万以上。
[四大的升职路径基本不变]
2年的Associate
3年的Senior Associate
CPA+个人变现+人品
入职第五年升职Manager
与投资银行一样从Manager升到Partner是没有年限的,完全取决于你的人脉关系和业务能力,有些人一辈子上不去,有些人坚持了10年做到Partner
 
一般学生投简历最多的集中在三个部门Audit审计,Tax税务,Advisory咨询。四大还有很多数不清的小部门,并不是说其他部门不重要,只是相对来说主要业务主要来源在这三块。
 
 
[四大的薪水]
*薪水具体数字可能随着地区,时间的变化会发生调整(四大xi数字已经有调整)
*谢谢西单的留言更新:7800德勤,其他三大也差不多,没突破八千
四大的第一年(在安永叫SA-1,普华永道叫SA-2)工资收入:RMB5500-5800
四大的第二年(在安永叫SA-2,普华永道叫SA-1)工资收入:RMB 6500-8000
四大的第三年,高级审计师第一年,工资收入:RMB10000-12600
四大的第四年,高级审计师第二年,工资收入:RMB13500-15500
四大的第五年,高级审计师第三年,工资收入:RMB17500-21000
 
我们常常遇到想去四大的学生说“我想去四大,因为四大是个很好的跳板!”有一天,我们问了几个四大的同事关于“跳板”的事,他们反问了一句:跳板在哪里?我们无从考究“把四大当跳板”出自何处,但非常有趣的是,其实职场中任何一个职位都是跳板,你可以从投行跳去私募,从银行跑去基金,只要你想离开,处处是跳板。
不可否认四大对于很多毕业生来说非常好的选择,在一个庞大的体系中可以非常有系统的学习,但也正因为他的规模化,你很难从中做出些出格的事情,或者实现创新的想法。规规矩矩的做事,规规矩矩的学习是在大企业工作的规矩。至于学到多少,完全取决于自己,虚心向前辈们求教总能学到东西,最忌讳的就是“傲慢”这在任何公司都不好使。名气、口碑、待遇对一个毕业生来说相对比较理想的场所,对于喜欢财务以及未来从业会涉及财务的申请人来说,是个不错去出。
四大工作的压力也相当大,前几年总听说四大有员工跳楼,相信也是因为压力。要在职场生存就是这样,想获得更好的未来,都需要在年轻的时候拼搏一把,付出比别人多,得到的自然也不会比别人少。离开四大后相信你对报表已经非常非常熟练,此时你几乎可以去任何一个需要编制或者分析报表的职位,这是四大的工作赐予员工的“福利”。
(以上引自知乎 李世峰 Frank 链接:http://www.zhihu.com/question/ ... 84944
 
 
一个四大经理对于进入四大的一些基础能力要求:
 
在校生进入四大的门槛:
1.英语必须过六级(其他语言同等级),口语要好,面试时就突显了(不过,发现最近这几播英语都不错); 所以,你要锻炼口语,因为面试口语很重要,如果你正好碰到一个外籍经理或者合伙人就相当重要了。
2.要在学校班级或者系院有一定的社会职务
3.成绩好,到时候成绩单是一个考核指标;
4.你如果情况允许,可以先学习一下注会CPA,如果能通过,进入四大工资比非注会高一点点。如果在校就能过,也能说明你的实力,胜算更有把握。 而且,如果你学习了这个,你就不会再为以后的发展发愁了。
5.另外,提醒的就是四大招人都是提前招收,千万不要误了应届毕业生招收的时间。比如2008年7月毕业的,2007年底就招完了 。
6.如果可能,可以尽量争取一下在四大实习,或者去其他有名的公司实习。一定要有说的出名堂的实习经验来。

非应届进入四大基本条件:
1.英语6级(也就是说雅思,托福是作为国家6级之外的参考成绩来看的,只有托福雅思成绩是不行的。);
2.本科毕业学士学位;
3.工作经验:有审计经验优先,有会计相关经验优先。(不过,有的时候也可能没有任何相关经验,只是公司觉得你是个人才,比如以前有个外轮的“大付”也进来四大,那个人就是一年考过CPA。)我还有个同学以前在银行做,后来来四大的金融组(因为她考了ACCA)。总之,如果没有相关经验,就必须在某方面有所专长,让事务所觉得你是个不可多得的人才。

非应届毕业进入四大头一关笔试肯定是英语,非应届会有跟专业有关的题目,但是题目不定。

最后祝大家能够得偿所愿,找到符合自己的发展方向。
 
 

【数据可视化】Excel暗含可视化神器?微软Power BI手把手指南(多图预警)

宗晨霜 发表了文章 • 0 个评论 • 208 次浏览 • 2016-08-11 10:44 • 来自相关话题

 作者:Simon--阿文   公众号:我懂个P 
 原文链接:http://mp.weixin.qq.com/s?__biz=MzA5OTMwMDIzMA==&mid=403215117&idx=1&sn=a316939a97393418cb947f571be0a25e&scene=4#wechat_redirect

小小的Excel也能做出炫目的可视化?是的,如果你依照如下教程学会新工具Power BI,静态图表就能快速化身生动报表。







 
Excel 2016悄悄更新了一个功能:将工作簿上载到Power BI







 
但这新功能并不显眼,藏在【发布】里:

 






然而,按照微软的一贯风格,功能隐藏越深,装逼效果越佳。你看“ Power Bi ”本身用拼音念起来就很牛逼的样子!下面一起来看看怎么玩!

注:BI其实是Business Intelligence的缩写,意思是商业智能,分开读,别念歪哈~








Power BI是微软官方推出的可视化数据探索和交互式报告工具。说人话,就是一款能把丑逼静态数据瞬间变成屌炸动态报表的神器。

 






针对不同的使用场景,这个工具有在线版/桌面版/移动版,而Excel 2016连接的就是在线版。

也就是说,现在我们可以把Excel中的数据一键导入到Power BI中。然后通过简单的图表配置,生成一份超高颜值的报表:







 
这种动态的数据报表在商业场景很常见,通常用来给客户/老板看各种关键数据指标以及总体情况,一览无余,所以被形象地被称为仪表盘(Dashboard)。







 
但这并不意味着我们普通用户不能玩,下面教大家如何get炫酷技能。








如果你电脑上还没有Excel 2016,,大家可以先下载一个Power BI桌面版试玩,官网上就有免费下载链接:https://powerbi.microsoft.com/en-us/desktop/








下载安装后打开,你会发现Power BI长得有点像PPT和Excel生的儿子。








 
上方工具栏主要用于数据编辑,右侧是图表工具栏,配置好的图表会放在画布上。熟悉界面后,我们可以开搞了。


【第1步】:把数据导入Power BI本案例我准备了一组销售数据,记录了3个推销员2016年每天的销售情况。







 
打开Power BI,点击左上方的【获取数据源】,导入上面的Excel表格。

 






上传成功后,右侧的图表配置栏会自动读取Excel表格的所有字段,这不就是数据透视表么!








 
【第2步】:对数据进行可视化处理

只需要通过勾选/拖拽字段,就能配置图表。比如我勾选【推销员】和【销售金额】字段,再选择一个合适的图表类型,就能自动生成图表!

 






接下来,我想看全年每个月的销售概况,只需要勾选【日期】和【销售金额】字段,就能生成一个图表。但此时的横坐标是以年为单位,只有一根柱子。

怎么办?这时只需要我们点击左上角的往下深化,就能把数据进行细分:年》季度》月份。
 







完整的操作如下,细分完后把图表拉伸至合适大小。

 






同理,我可以把我想看的其他数据也一起配置到画布上,然后加上标题,调整一下颜色,搞定!!







 
你以为这就完了?好玩的才刚开始呢:

*自动筛选功能

各个图表中的数据互相关联,互相约束。比如:我想看其中一个推销员的数据,点击饼图中的一部分,其余图表会自动筛选出相应的数据!
 






* 缩放功能

点击图表右上角,还可以放大其中图表进行细看。
 







* 超强扩展图表库

有同学抱怨,Power BI提供的图表类型不够多。那你就错了!在官网中其实还隐藏着一个巨大的扩充图表库,大家感受一下:
 





选择自己喜欢的类型,下载并导入到Power BI中,就能轻松应用到报表中。简单到哭!







 
比如,我刚导入了一个气泡图扩充包,然后选中其中一个图表,直接修改图表类型就能秒用!!








 
就这样,我们有了一份帅气的数据报表了!

我仿佛看到了老板眼角的泪光…


【第3步】:发布动态报表

报表设计完后,直接点击发布即可。还没注册的同学需要用工作邮箱或者学校邮箱注册一个账号。
 





发布后,你在任何地方登录Power BI都能查看或修改这份报表!你还可以生成一个链接,把报表发给客户。
 





在任何终端,打开链接就能看到你的报表!!
 





整个流程,就是这!么!简!单!






 
以上只讲了Power BI万分之一的功能,如果你想深入研究这款产品,推荐一些资源给大家,所有网站都打包在以下链接中,大家自行领取。

http://naotu.baidu.com/file/e4 ... 6fd08 
 
  查看全部
 作者:Simon--阿文   公众号:我懂个P 
 原文链接:
http://mp.weixin.qq.com/s?__biz=MzA5OTMwMDIzMA==&mid=403215117&idx=1&sn=a316939a97393418cb947f571be0a25e&scene=4#wechat_redirect

小小的Excel也能做出炫目的可视化?是的,如果你依照如下教程学会新工具Power BI,静态图表就能快速化身生动报表。


2.jpg


 
Excel 2016悄悄更新了一个功能:将工作簿上载到Power BI


3.jpg


 
但这新功能并不显眼,藏在【发布】里:

 
4.jpg



然而,按照微软的一贯风格,功能隐藏越深,装逼效果越佳。你看“ Power Bi ”本身用拼音念起来就很牛逼的样子!下面一起来看看怎么玩!

注:BI其实是Business Intelligence的缩写,意思是商业智能,分开读,别念歪哈~


标题一.jpg



Power BI是微软官方推出的可视化数据探索和交互式报告工具。说人话,就是一款能把丑逼静态数据瞬间变成屌炸动态报表的神器。

 
5.jpg



针对不同的使用场景,这个工具有在线版/桌面版/移动版,而Excel 2016连接的就是在线版。

也就是说,现在我们可以把Excel中的数据一键导入到Power BI中。然后通过简单的图表配置,生成一份超高颜值的报表:


6.jpg


 
这种动态的数据报表在商业场景很常见,通常用来给客户/老板看各种关键数据指标以及总体情况,一览无余,所以被形象地被称为仪表盘(Dashboard)。


7.jpg


 
但这并不意味着我们普通用户不能玩,下面教大家如何get炫酷技能。


标题二.jpg



如果你电脑上还没有Excel 2016,,大家可以先下载一个Power BI桌面版试玩,官网上就有免费下载链接:https://powerbi.microsoft.com/en-us/desktop/


8.jpg



下载安装后打开,你会发现Power BI长得有点像PPT和Excel生的儿子。


9.jpg



 
上方工具栏主要用于数据编辑,右侧是图表工具栏,配置好的图表会放在画布上。熟悉界面后,我们可以开搞了。


【第1步】:把数据导入Power BI本案例我准备了一组销售数据,记录了3个推销员2016年每天的销售情况。


10.jpg


 
打开Power BI,点击左上方的【获取数据源】,导入上面的Excel表格。

 
11.jpg



上传成功后,右侧的图表配置栏会自动读取Excel表格的所有字段,这不就是数据透视表么!


12.jpg



 
【第2步】:对数据进行可视化处理

只需要通过勾选/拖拽字段,就能配置图表。比如我勾选【推销员】和【销售金额】字段,再选择一个合适的图表类型,就能自动生成图表!

 
13.gif



接下来,我想看全年每个月的销售概况,只需要勾选【日期】和【销售金额】字段,就能生成一个图表。但此时的横坐标是以年为单位,只有一根柱子。

怎么办?这时只需要我们点击左上角的往下深化,就能把数据进行细分:年》季度》月份。
 

14.gif



完整的操作如下,细分完后把图表拉伸至合适大小。

 
15.gif



同理,我可以把我想看的其他数据也一起配置到画布上,然后加上标题,调整一下颜色,搞定!!


16.jpg


 
你以为这就完了?好玩的才刚开始呢:

*自动筛选功能

各个图表中的数据互相关联,互相约束。比如:我想看其中一个推销员的数据,点击饼图中的一部分,其余图表会自动筛选出相应的数据!
 
17.gif



* 缩放功能

点击图表右上角,还可以放大其中图表进行细看。
 

18.gif



* 超强扩展图表库

有同学抱怨,Power BI提供的图表类型不够多。那你就错了!在官网中其实还隐藏着一个巨大的扩充图表库,大家感受一下:
 
19.jpg


选择自己喜欢的类型,下载并导入到Power BI中,就能轻松应用到报表中。简单到哭!


20.jpg


 
比如,我刚导入了一个气泡图扩充包,然后选中其中一个图表,直接修改图表类型就能秒用!!


21.gif



 
就这样,我们有了一份帅气的数据报表了!

我仿佛看到了老板眼角的泪光…


【第3步】:发布动态报表

报表设计完后,直接点击发布即可。还没注册的同学需要用工作邮箱或者学校邮箱注册一个账号。
 
22.jpg


发布后,你在任何地方登录Power BI都能查看或修改这份报表!你还可以生成一个链接,把报表发给客户。
 
23.jpg


在任何终端,打开链接就能看到你的报表!!
 
24.jpg


整个流程,就是这!么!简!单!

25.jpg


 
以上只讲了Power BI万分之一的功能,如果你想深入研究这款产品,推荐一些资源给大家,所有网站都打包在以下链接中,大家自行领取。

http://naotu.baidu.com/file/e4 ... 6fd08 
 
 

【数据可视化】二十大数据可视化工具点评

宗晨霜 发表了文章 • 0 个评论 • 198 次浏览 • 2016-08-09 08:52 • 来自相关话题

转自IT经理网,作者:刘朝阳   
原文链接:http://www.ctocio.com/hotnews/8874.html

如今学习应用数据可视化的渠道有很多,你可以跟踪一些专家博客,但更重要的一点是实践/实操,你必须对目前可用的数据可视化工具有个大致了解。以下 是Netmagzine列举的二十大数据可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要。更加美妙的是,这些工具大多免费。
 
 
第一部分:入门级工具
1.Excel






 
Excel的图形化功能并不强大,但Excel是分析数据的理想工具,上图是Excel生成的热力地图
作为一个入门级工具,Excel是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上可选择的范围有限,这 也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。但是作为一个高效的内部沟通工具,Excel应当是你百宝箱中必备的工具之一。
 
2.CSV/JSON

CSV(逗号分隔值)和JSON(JavaScript对象注释)虽然并不是真正的可视化工具,但却是常见的数据格式。你必须理解他们的结构,并懂得如何从这些文件中导入或者导出数据。以下将要介绍的所有数据可视化工具都支持CSV、JSON中至少一种格式。
 
第二部分:在线数据可视化工具
 
3.Google Chart API
 






Google Chart API工具集中取消了静态图片功能,目前只提供动态图表工具。能够在所有支持SVG\Canvas和VML的浏览器中使用,但是Google Chart的一个大问题是:图表在客户端生成,这意味着那些不支持JavaScript的设备将无法使用,此外也无法离线使用或者将结果另存其他格式,之 前的静态图片就不存在这个问题。尽管存在上述问题,不可否认的是Google Chart API的功能异常丰富,如果没有特别的定制化需要,或者对Google视觉风格的抵触,那么你大可以从Google Chart开始。
 
4.Flot







Flot是一个优秀的线框图表库,支持所有支持canvas的浏览器(目前主流的浏览器如火狐、IE、Chrome等都支持)。
 
5.Raphaël
 





Raphaël是创建图表和图形的JavaScript库,与其他库最大的不同是输出格式仅限SVG和VML。SVG是矢量格式,在任何分辨率下的显示效果都很好。
 
6.D3
 





D3(Data Driven Documents)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、 树形图、圆形集群和单词云等。虽然D3能够提供非常花哨的互动图表,但你在选择数据可视化工具时,需要牢记的一点是:知道在何时保持简洁。
 
7.Visual.ly
 





如果你需要制作信息图而不仅仅是数据可视化,目前也有大把的工具可用。Visual.ly就是最流行的一个选择。虽然Visual.ly的主要定位是:“信息图设计师的在线集市”,但是也提供了大量信息图模板。虽然功能还有很多限制,但是Visual.ly绝对是个能激发你灵感的地方。
 
第三部分:互动图形用户界面(GUI)控制
如果数据可视化的互动性强大到可以作为GUI界面会怎样?随着在线数据可视化的发展,按钮、下拉列表和滑块都在进化成更加复杂的界面元素,例如能够 调整数据范围的互动图形元素,推拉这些图形元素时输入参数和输出结果数据会同步改变,在这种情况下,图形控制和内容已经合为一体。以下这些工具能够帮你实 现这些功能:
 
8.Crossfilter
 





当我们为方便客户浏览数据开发出更加复杂的工具时,我们已经能够创建出既是图表,又是互动图形用户界面的小程序。JavaScript库Crossfilter就是这样的工具。
Crossfilter应用:当你调整一个图表中的输入范围时,其他关联图表的数据也会随之改变。
 
9.Tangle
 





JavaScript库Tangle进一步模糊了内容与控制之间的界限。在下图这个应用实例中,Tangle生成了一个负载的互动方程,读者可以调整输入值获得相应数据。
 
第四部分:地图工具
地图生成是web上最困难的任务之一。Google Maps的出现完全颠覆了过去人们对在线地图功能的认识。而Google发布的Maps API则让所有的开发者都能在自己的网站中植入地图功能。
近年来,在线地图的市场成熟了很多,如果你需要在数据可视化项目中植入定制化的地图方案,目前市场上已经有很多选择,但是知道在何时选择何种地图方案则成了一个很关键的业务决策。地图方案看上去功能都很强大,但是切忌:“有了一把锤子,看什么都像钉子。”
 
10. Modest Maps
 





顾名思义,Modest Maps是一个很小的地图库,只有10KB大小,是目前最小的可用地图库。这似乎意味着Modest Maps只提供一些基本的地图功能,但是不要被这一点迷惑了。在一些扩展库的配合下,例如Wax,Modest Maps立刻会变成一个强大的地图工具。
 
11.Leaflet
 





CloudMade团队为大家带来了Leaflet,这是另外一个小型化的地图框架,通过小型化和轻量化来满足移动网页的需要。Leaflet和Modest Maps都是开源项目,有强大的社区支持,是在网站中整合地图应用的理想选择。
 
12. PolyMaps
 





Polymaps是另外一个地图库,但主要面向数据可视化用户。Polymaps在地图风格化方面有独到之处,类似CSS样式表的选择器,是不可错过的好东西。
 
13.OpenLayers
 





OpenLayers可能是所有地图库中可靠性最高的一个。虽然文档注释并不完善,且学习曲线非常陡峭,但是对于一些特定的任务来说,OpenLayers无可匹敌。例如能够提供一些其他地图库都没有的特殊工具。
 
14.Kartograph
 





Kartograph的标记线是对地图绘制的重新思考,我们都已经习惯了莫卡托投影(Mercator projection),但是Kartograph为我们带来了更多的选择。如果你不需要调用全球数据,而仅仅是生成某一区域的地图,那么Kartogaph将使你脱颖而出。
 
15.CartoDB
 





CartoDB是一个不可错过的网站。你可以用CartoDB很轻易就把表 格数据和地图关联起来,这方面CartoDB是最优秀的选择。例如,你可以输入CSV通讯地址文件,CartDB能将地址字符串自动转化成经度/维度数据 并在地图上标记出来。目前CartoDB支持免费生成五张地图数据表,更多使用需要支付月费。
Charting Fonts
 





(随着iPad3等高清移动设备的普及)web开发的一个最新趋势是将符号字体与字体整合(把符号变成字体),创建出漂亮的矢量化图标。在这些新型字体中,例如FF Chartwell和Chartjunk是专门用来显示图表和图形的。他们与OpenType碰到的问题一样,就是不能被所有的浏览器支持,但是不久的未来这些矢量字体将是数据可视化工作中需要考虑到的因素。
 
第五部分:进阶工具
如果你准备用数据可视化做一些“严肃”的工作,那么你可能不会对在线可视化工具或者web小程序有太大兴趣,你需要的是桌面应用和编程环境。
 
16. Processing
 





Processing是数据可视化的招牌工具。你只需要编写一些简单的代码,然后编译成Java。目前还有一个Processing.js项 目,可以让网站在没有Java Applets的情况下更容易地使用Processing。由于端口支持Objective-C,你也可以在iOS上使用Processing。虽然 Processing是一个桌面应用,但也可以在几乎所有平台上运行,此外经过数年发展,Processing社区目前已近拥有大量实例和代码。
 
17.NodeBox
 





NodeBox是OS X上创建二维图形和可视化的应用程序。你需要了解Python程序,NodeBox与Processing类似,但是没有Processing的互动功能。
 
第六部分:专家级工具
与Excel相对的是专业数据分析工具。如果你是一个专业的数据分析师,那么你就必须对下面将要介绍的工具有所了解(如果不是精通的话)。众所周知,SPSS和SAS是数据分析行业的标准工具,但是这些工具的费用不菲,只有大型组织和学术机构才有机会使用,下面我们介绍几种免费的替代工具,这些开源工具的共同特征是都有强大的社区支持。开源分析工具性能不输老牌专业工具,插件的支持甚至更好。
 
18.R





 
作为用来分析大数据集的统计组件包,R是一个非常复杂的工具,需要较长的学习实践,学习曲线也是本文所介绍工具中最陡峭的。但是R拥有强大的社区和组件库,而且还在不断成长。当你能驾驭R的时候,一切付出都是物有所值的。
 
19.Weka
 





当你成长成一名数据科学家的时候,你需要将个人能力从数据可视化扩展到数据挖掘领域。Weka是一个能根据属性分类和集群大量数据的优秀工具,Weka不但是数据分析的强大工具,还能生成一些简单的图表。
 
20. Gephi
 





Gephi是进行社交图谱数据可视化分析的工具,不但能处理大规模数据集并生成漂亮的可视化图形,还能对数据进行清洗和分类。Gephi是一种非常特殊的软件,也非常复杂,先于他人掌握Gephi将使你一骑绝尘。
 
  查看全部

转自IT经理网,作者:刘朝阳   
原文链接:http://www.ctocio.com/hotnews/8874.html

如今学习应用数据可视化的渠道有很多,你可以跟踪一些专家博客,但更重要的一点是实践/实操,你必须对目前可用的数据可视化工具有个大致了解。以下 是Netmagzine列举的二十大数据可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要。更加美妙的是,这些工具大多免费。
 
 
第一部分:入门级工具
1.Excel

2.jpg


 
Excel的图形化功能并不强大,但Excel是分析数据的理想工具,上图是Excel生成的热力地图
作为一个入门级工具,Excel是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上可选择的范围有限,这 也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。但是作为一个高效的内部沟通工具,Excel应当是你百宝箱中必备的工具之一。
 
2.CSV/JSON

CSV(逗号分隔值)和JSON(JavaScript对象注释)虽然并不是真正的可视化工具,但却是常见的数据格式。你必须理解他们的结构,并懂得如何从这些文件中导入或者导出数据。以下将要介绍的所有数据可视化工具都支持CSV、JSON中至少一种格式。
 
第二部分:在线数据可视化工具
 
3.Google Chart API
 
3.jpg



Google Chart API工具集中取消了静态图片功能,目前只提供动态图表工具。能够在所有支持SVG\Canvas和VML的浏览器中使用,但是Google Chart的一个大问题是:图表在客户端生成,这意味着那些不支持JavaScript的设备将无法使用,此外也无法离线使用或者将结果另存其他格式,之 前的静态图片就不存在这个问题。尽管存在上述问题,不可否认的是Google Chart API的功能异常丰富,如果没有特别的定制化需要,或者对Google视觉风格的抵触,那么你大可以从Google Chart开始。
 
4.Flot


4.gif


Flot是一个优秀的线框图表库,支持所有支持canvas的浏览器(目前主流的浏览器如火狐、IE、Chrome等都支持)。
 
5.Raphaël
 
5.jpg


Raphaël是创建图表和图形的JavaScript库,与其他库最大的不同是输出格式仅限SVG和VML。SVG是矢量格式,在任何分辨率下的显示效果都很好。
 
6.D3
 
6.jpg


D3(Data Driven Documents)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、 树形图、圆形集群和单词云等。虽然D3能够提供非常花哨的互动图表,但你在选择数据可视化工具时,需要牢记的一点是:知道在何时保持简洁。
 
7.Visual.ly
 
7.jpg


如果你需要制作信息图而不仅仅是数据可视化,目前也有大把的工具可用。Visual.ly就是最流行的一个选择。虽然Visual.ly的主要定位是:“信息图设计师的在线集市”,但是也提供了大量信息图模板。虽然功能还有很多限制,但是Visual.ly绝对是个能激发你灵感的地方。
 
第三部分:互动图形用户界面(GUI)控制
如果数据可视化的互动性强大到可以作为GUI界面会怎样?随着在线数据可视化的发展,按钮、下拉列表和滑块都在进化成更加复杂的界面元素,例如能够 调整数据范围的互动图形元素,推拉这些图形元素时输入参数和输出结果数据会同步改变,在这种情况下,图形控制和内容已经合为一体。以下这些工具能够帮你实 现这些功能:
 
8.Crossfilter
 
8.gif


当我们为方便客户浏览数据开发出更加复杂的工具时,我们已经能够创建出既是图表,又是互动图形用户界面的小程序。JavaScript库Crossfilter就是这样的工具。
Crossfilter应用:当你调整一个图表中的输入范围时,其他关联图表的数据也会随之改变。
 
9.Tangle
 
9.gif


JavaScript库Tangle进一步模糊了内容与控制之间的界限。在下图这个应用实例中,Tangle生成了一个负载的互动方程,读者可以调整输入值获得相应数据。
 
第四部分:地图工具
地图生成是web上最困难的任务之一。Google Maps的出现完全颠覆了过去人们对在线地图功能的认识。而Google发布的Maps API则让所有的开发者都能在自己的网站中植入地图功能。
近年来,在线地图的市场成熟了很多,如果你需要在数据可视化项目中植入定制化的地图方案,目前市场上已经有很多选择,但是知道在何时选择何种地图方案则成了一个很关键的业务决策。地图方案看上去功能都很强大,但是切忌:“有了一把锤子,看什么都像钉子。”
 
10. Modest Maps
 
10.gif


顾名思义,Modest Maps是一个很小的地图库,只有10KB大小,是目前最小的可用地图库。这似乎意味着Modest Maps只提供一些基本的地图功能,但是不要被这一点迷惑了。在一些扩展库的配合下,例如Wax,Modest Maps立刻会变成一个强大的地图工具。
 
11.Leaflet
 
11.gif


CloudMade团队为大家带来了Leaflet,这是另外一个小型化的地图框架,通过小型化和轻量化来满足移动网页的需要。Leaflet和Modest Maps都是开源项目,有强大的社区支持,是在网站中整合地图应用的理想选择。
 
12. PolyMaps
 
12.jpg


Polymaps是另外一个地图库,但主要面向数据可视化用户。Polymaps在地图风格化方面有独到之处,类似CSS样式表的选择器,是不可错过的好东西。
 
13.OpenLayers
 
13.gif


OpenLayers可能是所有地图库中可靠性最高的一个。虽然文档注释并不完善,且学习曲线非常陡峭,但是对于一些特定的任务来说,OpenLayers无可匹敌。例如能够提供一些其他地图库都没有的特殊工具。
 
14.Kartograph
 
14.gif


Kartograph的标记线是对地图绘制的重新思考,我们都已经习惯了莫卡托投影(Mercator projection),但是Kartograph为我们带来了更多的选择。如果你不需要调用全球数据,而仅仅是生成某一区域的地图,那么Kartogaph将使你脱颖而出。
 
15.CartoDB
 
15.jpg


CartoDB是一个不可错过的网站。你可以用CartoDB很轻易就把表 格数据和地图关联起来,这方面CartoDB是最优秀的选择。例如,你可以输入CSV通讯地址文件,CartDB能将地址字符串自动转化成经度/维度数据 并在地图上标记出来。目前CartoDB支持免费生成五张地图数据表,更多使用需要支付月费。
Charting Fonts
 
Fontfont-dingbat_sampler_600.png


(随着iPad3等高清移动设备的普及)web开发的一个最新趋势是将符号字体与字体整合(把符号变成字体),创建出漂亮的矢量化图标。在这些新型字体中,例如FF Chartwell和Chartjunk是专门用来显示图表和图形的。他们与OpenType碰到的问题一样,就是不能被所有的浏览器支持,但是不久的未来这些矢量字体将是数据可视化工作中需要考虑到的因素。
 
第五部分:进阶工具
如果你准备用数据可视化做一些“严肃”的工作,那么你可能不会对在线可视化工具或者web小程序有太大兴趣,你需要的是桌面应用和编程环境。
 
16. Processing
 
16.jpg


Processing是数据可视化的招牌工具。你只需要编写一些简单的代码,然后编译成Java。目前还有一个Processing.js项 目,可以让网站在没有Java Applets的情况下更容易地使用Processing。由于端口支持Objective-C,你也可以在iOS上使用Processing。虽然 Processing是一个桌面应用,但也可以在几乎所有平台上运行,此外经过数年发展,Processing社区目前已近拥有大量实例和代码。
 
17.NodeBox
 
17.jpg


NodeBox是OS X上创建二维图形和可视化的应用程序。你需要了解Python程序,NodeBox与Processing类似,但是没有Processing的互动功能。
 
第六部分:专家级工具
与Excel相对的是专业数据分析工具。如果你是一个专业的数据分析师,那么你就必须对下面将要介绍的工具有所了解(如果不是精通的话)。众所周知,SPSS和SAS是数据分析行业的标准工具,但是这些工具的费用不菲,只有大型组织和学术机构才有机会使用,下面我们介绍几种免费的替代工具,这些开源工具的共同特征是都有强大的社区支持。开源分析工具性能不输老牌专业工具,插件的支持甚至更好。
 
18.R

18.gif

 
作为用来分析大数据集的统计组件包,R是一个非常复杂的工具,需要较长的学习实践,学习曲线也是本文所介绍工具中最陡峭的。但是R拥有强大的社区和组件库,而且还在不断成长。当你能驾驭R的时候,一切付出都是物有所值的。
 
19.Weka
 
19.gif


当你成长成一名数据科学家的时候,你需要将个人能力从数据可视化扩展到数据挖掘领域。Weka是一个能根据属性分类和集群大量数据的优秀工具,Weka不但是数据分析的强大工具,还能生成一些简单的图表。
 
20. Gephi
 
20.jpg


Gephi是进行社交图谱数据可视化分析的工具,不但能处理大规模数据集并生成漂亮的可视化图形,还能对数据进行清洗和分类。Gephi是一种非常特殊的软件,也非常复杂,先于他人掌握Gephi将使你一骑绝尘。
 
 

【数据可视化】1. Hello,data visualization!

宗晨霜 发表了文章 • 0 个评论 • 126 次浏览 • 2016-08-08 10:12 • 来自相关话题

第一次发文,作为一个IM小透明内心忐忑万分~~~感谢学长学姐的信任,撒花~~~

=========================这是鸡冻的昏割线=======================

OK(严肃脸),我们先来解读一下标题。谈到数据可视化,相信我们院的不少同学和我一样,印象最深的就是邵波老师的信息传播课程(大二上学期的课)。课程要求中有用可视化工具citespace来分析文献(大多是知网和Web of science 数据库中的文献),最后制成PPT展示。BTW,邵波老师的课后作业大多是小组完成,需要自行查找阅读资料,并且老师对PPT的美观程度有较高要求,注意色彩搭配、排版布局、字体等。(本来想上传一份citespace中文手册的,可是文件过大,上传不了,大家自行百度吧。)

言归正传,到底什么是数据可视化?

百度百科的解释:
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。

难读又难懂,不管他,先上图:





Twitter 利用自身的数据以评估今年欧洲杯期间因进球而产生的兴奋程度。





这个迷人的视觉图深入展现了英国人饮食的变化,是由开放数据研究所编制,采用了环境部、食品和农业部的数据。





上图来自《纽约时报》的报道,它展示了美国同性婚姻立法的变化情况。





从Maya Angelou 到Charles Dickens,这幅五颜六色的图表深入体现了他们的日常安排。





NESTA接着又给出了一个有趣的视图来展示最抢手的就业技能,分解成数码科技行业、创意界和其它行业。





这是一个时间推移视图,展示了美国两百年间移民数量的变化。这个来自Metrocosm(工具)的动态图还突出了一段时间内提供移民数量的前三位国家。

看了以上几张图,相信大家不用看晦涩难懂的百科也都能理解可视化是什么了吧。简单来说,就是把数据转换成静态或动态的图表,使人能够最直观地观测、把握数据。最常见的Excel中的柱状图、散点图、折线图就是可视化图表。

接下来再简单介绍一下基本图表的使用:





饼图
传统的饼图一般用来表达一维数据的比例,如果我们把饼图和地图组合起来使用,就可以大大拓展饼图的使用方式,下图是通过百度ECharts制作的混合饼 图,用户展现全国各省的GDP数据,其中地图上的颜色越深代表数值越高,同时用户还可以通过交互的方式在地图上选择参与饼图对比的区域;一方面可以通过地 图形象的看到全国最高的省份,同时通过交互式选择也避免了对比条目太多,无法区分重点,把选择的权利交给用户,用户可以根据自己的疑问去设置,进行对比。





散点图
当想要再深入挖掘一些数据,但不确定不同信息的关联方式,或者是否有关联时,可以选择散点图。散点图是大概了解趋势、集中度、极端数值的有效方式。下图是通过百度ECharts制作的散点图样例,展现的是男女身高体重的分布,可以一目了然的看出平均分布和极端数值。





气泡图
气泡图是一种动态的多维度可视化方法,展示维度包括气泡的x坐标、y 坐标、大小、颜色、时间等5个维度。通过数据多属性的同步可视化以及时间动画,方便用户探查数据的差异变化以及演变趋势。下图是通过淘宝的DataV组件 制作的气泡图样例,展示的是茶叶的销量情况分布,x坐标是搜索指数,y坐标是销售指数,大小是数值,颜色用来分区分类,一张图呈现数据的多维性。





树形图
当希望一目了然看清您的数据,发现不同部分与整体的关系时,可以选择 树形图。顾名思义,把这种图表中的数据想成一棵树:每根树枝都赋予一个矩形,代表其包含的数据量。每一矩形再细分为更小的矩形(或者分枝),仍然以其相对 于整体的比例为依据。树形图还能有效利用空间,便于您一目了然地看到整个数据集。下图是通过淘宝的DataV组件制作的树形图样例,用于展现3C数码配件 的销售分布,以及不同分类的数据占比关系。图中的每个矩形代表树的一个节点,大矩形中的小矩形代表父节点包含的子节点。不同的节点用不同的颜色加以区分, 节点的值用矩形面积的大小表示。每个节点可以点击进入查看更细分类的数据占比。





箱形图
箱形图又称盒须图,是显示数据分布情况的重要方式。其名称显示这种图 的两个部分:盒,包含数据的中位数,以及第1和第3个四分位数(比中位数分别大、小25%);须,一般代表四分位距1.5倍以内的数据(第1和第3个四分 位数之间的差)。“须”也可用来显示数据内的最高和最低点。当需要展现一组数据的分布情况时,可以选择箱形图:例如,查看数据如何向某一段偏斜,查看数据 中的异常值。下图是通过Tableau制作的盒须图样例,用于展现大学招生的成绩的数据分布,可以看出数学专业和建筑专业平均分最高,机械工程专业和金融 专业的分数跨越较大。

=========================================================

今天的可视化专题(启蒙篇)先写到这里啦,接下来还会有相关文章更新,从不同角度来解读蜜汁可视化。如果你对该专题感兴趣,欢迎关注话题~~~

本文参考
1.公众号:大数据文摘,原文链接http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651642820&idx=1&sn=2cb294a4dbf9b2d3baeacc39e8a33792&scene=0#wechat_redirect
2.《今日头条》,原文链接 http://toutiao.com/i6236041334 ... share 查看全部
第一次发文,作为一个IM小透明内心忐忑万分~~~感谢学长学姐的信任,撒花~~~

=========================这是鸡冻的昏割线=======================

OK(严肃脸),我们先来解读一下标题。谈到数据可视化,相信我们院的不少同学和我一样,印象最深的就是邵波老师的信息传播课程(大二上学期的课)。课程要求中有用可视化工具citespace来分析文献(大多是知网和Web of science 数据库中的文献),最后制成PPT展示。BTW,邵波老师的课后作业大多是小组完成,需要自行查找阅读资料,并且老师对PPT的美观程度有较高要求,注意色彩搭配、排版布局、字体等。(本来想上传一份citespace中文手册的,可是文件过大,上传不了,大家自行百度吧。)

言归正传,到底什么是数据可视化?

百度百科的解释:
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。

难读又难懂,不管他,先上图:

2.jpg

Twitter 利用自身的数据以评估今年欧洲杯期间因进球而产生的兴奋程度。

3.jpg

这个迷人的视觉图深入展现了英国人饮食的变化,是由开放数据研究所编制,采用了环境部、食品和农业部的数据。

4.jpg

上图来自《纽约时报》的报道,它展示了美国同性婚姻立法的变化情况。

5.jpg

从Maya Angelou 到Charles Dickens,这幅五颜六色的图表深入体现了他们的日常安排。

6.jpg

NESTA接着又给出了一个有趣的视图来展示最抢手的就业技能,分解成数码科技行业、创意界和其它行业。

7.jpg

这是一个时间推移视图,展示了美国两百年间移民数量的变化。这个来自Metrocosm(工具)的动态图还突出了一段时间内提供移民数量的前三位国家。

看了以上几张图,相信大家不用看晦涩难懂的百科也都能理解可视化是什么了吧。简单来说,就是把数据转换成静态或动态的图表,使人能够最直观地观测、把握数据。最常见的Excel中的柱状图、散点图、折线图就是可视化图表。

接下来再简单介绍一下基本图表的使用:

8.jpg

饼图
传统的饼图一般用来表达一维数据的比例,如果我们把饼图和地图组合起来使用,就可以大大拓展饼图的使用方式,下图是通过百度ECharts制作的混合饼 图,用户展现全国各省的GDP数据,其中地图上的颜色越深代表数值越高,同时用户还可以通过交互的方式在地图上选择参与饼图对比的区域;一方面可以通过地 图形象的看到全国最高的省份,同时通过交互式选择也避免了对比条目太多,无法区分重点,把选择的权利交给用户,用户可以根据自己的疑问去设置,进行对比。

9.jpg

散点图
当想要再深入挖掘一些数据,但不确定不同信息的关联方式,或者是否有关联时,可以选择散点图。散点图是大概了解趋势、集中度、极端数值的有效方式。下图是通过百度ECharts制作的散点图样例,展现的是男女身高体重的分布,可以一目了然的看出平均分布和极端数值。

10.jpg

气泡图
气泡图是一种动态的多维度可视化方法,展示维度包括气泡的x坐标、y 坐标、大小、颜色、时间等5个维度。通过数据多属性的同步可视化以及时间动画,方便用户探查数据的差异变化以及演变趋势。下图是通过淘宝的DataV组件 制作的气泡图样例,展示的是茶叶的销量情况分布,x坐标是搜索指数,y坐标是销售指数,大小是数值,颜色用来分区分类,一张图呈现数据的多维性。

11.jpg

树形图
当希望一目了然看清您的数据,发现不同部分与整体的关系时,可以选择 树形图。顾名思义,把这种图表中的数据想成一棵树:每根树枝都赋予一个矩形,代表其包含的数据量。每一矩形再细分为更小的矩形(或者分枝),仍然以其相对 于整体的比例为依据。树形图还能有效利用空间,便于您一目了然地看到整个数据集。下图是通过淘宝的DataV组件制作的树形图样例,用于展现3C数码配件 的销售分布,以及不同分类的数据占比关系。图中的每个矩形代表树的一个节点,大矩形中的小矩形代表父节点包含的子节点。不同的节点用不同的颜色加以区分, 节点的值用矩形面积的大小表示。每个节点可以点击进入查看更细分类的数据占比。

12.jpg

箱形图
箱形图又称盒须图,是显示数据分布情况的重要方式。其名称显示这种图 的两个部分:盒,包含数据的中位数,以及第1和第3个四分位数(比中位数分别大、小25%);须,一般代表四分位距1.5倍以内的数据(第1和第3个四分 位数之间的差)。“须”也可用来显示数据内的最高和最低点。当需要展现一组数据的分布情况时,可以选择箱形图:例如,查看数据如何向某一段偏斜,查看数据 中的异常值。下图是通过Tableau制作的盒须图样例,用于展现大学招生的成绩的数据分布,可以看出数学专业和建筑专业平均分最高,机械工程专业和金融 专业的分数跨越较大。

=========================================================

今天的可视化专题(启蒙篇)先写到这里啦,接下来还会有相关文章更新,从不同角度来解读蜜汁可视化。如果你对该专题感兴趣,欢迎关注话题~~~

本文参考
1.公众号:大数据文摘,原文链接http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651642820&idx=1&sn=2cb294a4dbf9b2d3baeacc39e8a33792&scene=0#wechat_redirect
2.《今日头条》,原文链接 http://toutiao.com/i6236041334 ... share