- 1数据分析前景
- 2常用挖掘工具介绍
- 3R及RStudio的安装
- 4R语言工作空间
- 5包
- 6基本语法
- 7读取数据
- 8缺失值与异常值
- 9描述性统计分析
- 10R语言绘图基础
- 11高级绘图函数
- 12交互式绘图
- 13交互式网站Shiny框架
- 其他学习资源
昨天晚上师兄发给我这么一篇文章《Shiny和Plotly实现可交互DNA甲基化分析包ChAMP》,让看着学习如何用Shiny和Plotly开发一个R包。看完以后我觉得这个作者写得实在太好了,就好像是Jimmy师兄写得一样。我就去翻该作者后面的博文,发现有个R极简教程写得也是非常好,不知不觉就看到了凌晨一点钟。今天接着学,并且做了点笔记。
1数据分析前景
1: 科研学术界从古至今都是数据分析的最大提供方和需求方。尤其到了当代,数据分析的需求简直可以用“饥渴”来形容。计算生物学、计算化学、计算物理学、计算社会学、计算天文学……这些学科,其实全部都是基于那些领域的数据分析工作。而且难度一点都不小。
2:数据分析搞的厉害真的很难,需要常年的积累和不断地学习。现在有太多人搞一些很粗浅的数据分析,然后就自称数据分析师了。哎……我博士都快毕业了,都不敢称,因为我统计说不上大师。
3:现在数据分析真的应该更多地被人重视。经济学新闻的那些数据分析统计,很多都是错的,或者隐瞒了很多问题。雄安新区规划发布了,有没有人研究一下,上海浦东20年发展的状况呢?
4: 数据分析是非常非常依赖分析员本身的,我也觉得目前还不存在被AI替代的可能性。因为分析什么、用什么分析、分析的结果是怎样的,这些都是问题,而这些问题都需要分析员本身去解决,可以这么说,分析这个行业没有什么具体的规范:咨询师可以成为分析师、博士后也是分析师……高下是很难判断的。
生信的数据分析并不是大家想的写写胶水性代码,跑跑流程那么简单。每一步的数据转换后面都有很多的统计学原理,所以既会数据处理也要懂统计学才能真正挖掘出真正有用的。对了,还有生物学问题。做好生信,在IT和统计界应该也是高手。
url:http://blog.csdn.net/joshua_hit/article/details/73740996
2常用挖掘工具介绍
简而言之,我推荐R语言作为“分析语言”(R语言的优势:免费、算法实现容易、数据可视化、交互平台做的好;R语言的劣势:IDE太少、R包质量不一定高、受到内存限制),Python可以作为“全能工具”语言,另外需要学习一门建站语言。除此以外,最好学会Markdown,git(svn),linux bash. 此外,鉴于现在数据量越来越大,感觉最好学一学Scala和Spark集群。
作者推荐R语言作为生信数据分析的主要工具,这跟jimmy师兄教给大家一样。学生信先学R语言就好。后面的Python我不会,但是正在学习中……Markdown,git,Linux,这些我都会。Scala没有听说过,但是Spark倒是经常在一些大数据文章里可以看到。
url:http://blog.csdn.net/joshua_hit/article/details/73741034
3R及RStudio的安装
记得在Window下面安装好R后,把它添加到环境变量;这样子就可以在cmd命令行界面运行R了,并可以运行Rscript脚本,就跟Perl、Python一样,是用R语言写的程序啦~
url:http://blog.csdn.net/joshua_hit/article/details/73741139
4R语言工作空间
查看源代码:R语言可以很方便地让你查看每一个函数的源代码,其实严格来说,其原因是每一个函数都是一系列复制给了一个变量,你只不过是查看了这个变量而已。不过这确实让人们可以很轻易地查看R里的函数源代码。比如说,我们想要查看lm这个函数的源代码,只需要直接输入lm,不加括号就可以实现。
运行脚本:再很多时候,你不想每一次跑程序都很重新些,也不想要复制粘贴。所以可以写成R脚本的形式,然后直接运行。R脚本就是普通的文件,只需要再命名文件的时候,结尾用.R来结尾就行了。运行R脚本的方式有很多,不过最常用的大概有两种,一个与交互框有关——通过source()命令运行,另一种是直接再bash命令中调用Rscript运行。
查看源代码、source()的方法来运行R脚本,从来没有看到过。还有上周末学习的Rdata、Rproject,说明R语言还有好多我没有学习过的。
url:http://blog.csdn.net/joshua_hit/article/details/73741206
5包
讲解如何修改维护一个R包。文章里面用pheatmap包为例,讲解如何在这个包中添加一个boxplot函数。上周听Y叔直播,说写R包是一件很自然的事情,水平到了,就像写作文写博客一样。但并不是每一个人写作文写得都很好,包自然也有好坏之分。_很多包是很多科研工作者为了发表文章而写的,用起来不是特别好用。_导师不太指导我的工作,也没有很好的数据可以用来分析,到现在宏基因组方面还没有跑过完完整整的流程,还是半吊子在那里。还好跟jimmy师兄学习转录组入门,准备先精通它再说,各种组学分析概念都是一样的。
url:http://blog.csdn.net/joshua_hit/article/details/73741362
6基本语法
写R语言最重要的一点就是,脑子里一定要有向量、矩阵、列表这样的概念。
”判断一个人聪不聪明,就是看他有没有能力把复杂的问题拆散成小部分,然后逐个去完成,最后把整个问题综合起来解决。这句话很适合编程,无论需要写多大的程序,你都只需要把那个问题分散出来,分成一个部分,一个循环,一个判断,一个读取,一个输出……然后一步一步,像乐高积木一样去解决这个问题。“
R语言中的数据结构,主要有Vector, List, matrix, DataFrame, Array, Facter。其中最常用的有DaraFrame, matrix, list, vecter。
有时候,人们会分不清矩阵和DataFrame,感觉用起来差不多,但实际上DataFrame应该用来存储数据,而Matrix更适合单纯的运算分析。换言之,最好矩阵中的所有数值,都是一类的元素。不要列与列之间是不同的东西。
一定要掌握R语言中的apply函数族:http://blog.fens.me/r-apply/,进阶还是做师兄出的编程实战题来提升自己。
url:http://blog.csdn.net/joshua_hit/article/details/73741410
7读取数据
读取数据往往是进行数据分析的第一步,数据读取的方式很多,就R语言而言,常见的有几种:Load已经存好的RData,读取文本文件,读取excel文件,读取数据库文件,抓取网络数据。
个人觉得读取Excel文件最理想的办法,不就是把它存储成csv文件,然后直接用read.csv()读取吗?不过有很多很多其他的直接从Excel读取数据的方法:https://www.r-bloggers.com/a-million-ways-to-connect-r-and-excel/。比如
gdata
包就是不错的选择。用R语言链接数据库是非常方便的,直接从数据库读取,写入数据,畅快淋漓。而且连接方法很简单很简单,这使得R语言再生产环境下有了一大功能,就是直接对接上数据库进行操作。R语言对接数据库的步骤就散步:1. 载入函数包,2:连接数据库,3:进行数据操作。
网络爬虫就是一种可以抓取网络数据的方法,抓去完毕以后,就可以进行一些字符串处理等等。另外,抓取过程可以开并行运算加速,有些时候页面过不去,可以用tryCatch来防止错误阻断程序等等……总而言之,再复杂的爬虫程序,其实也是通过小脚本慢慢搭建起来的。
关于用读取数据,用的最多的就是read.table()
和read.csv
,数据库和网络爬虫接触过,通过KEGG这些数据库的API查询收集数据应该也算爬虫吧。
url:http://blog.csdn.net/joshua_hit/article/details/73741516
8缺失值与异常值
识别缺失数据的数目、分布和模式有两个目的:分析生成缺失数据的潜在机制,评价缺失数据对回答实质性问题的影响。我们需要弄清楚以下几个问题:
缺失数据的比例多大? 缺失数据是否集中在少数几个变量上,或者广泛存在? 缺失是随机产生的吗? 缺失数据间的相关性或与可观测数据间的相关性,是否可以表明产生缺失值的机制?
缺失值处理是一个比较需要经验的问题,一般来说我的处理办法是,如果样本数据很多,比如列有上百个,那就先对列做缺失值比例计算,将缺失达到10%的样本直接删除。然后再剩下的数据中,按行做缺失值比例调查,将比例高达一定阈值(比如20%)的删掉,然后对剩下的数据做impute过程。
impute(补足)过程可以使用
impute
R包,其中的impute.knn()
函数很好用。
异常值顾名思义就是偏离了“寻常值”的数据。但是多“异常”的值才能成为异常值,这就得看研究项目而定了。有些时候,异常值才是一个科研项目中应该去研究的问题。一般来说,有一个想对通用的检测异常值的标准,就是均值±三倍标准差。这个很好理解,你的均值是数据大部分“寻常值”的所在位置,标准差是其差异程度。那么3倍标准差很明显就说明一个数据严重地偏离了均值了。
有一个特别简单找出异常值的办法,就是使用boxplot函数。直接将boxplot存储成为一个变量tmp,tmp中的out子元素就是异常值。
对于异常值的处理也是花样繁多,有的人就直接把所有异常值设置成为NA,然后就回到了上边的缺失值部分。也有人保留他们,总之这方面算法很多,不一而足。异常值产生的原因很多,有很多时候,异常值其实不仅有意义,而且很重要:
比如,探查人流涌动,就是通过异常值来看那些地方突然人数激增?探查宇宙射线一类的科研,最关注的东西永远都是异常值。再大数定律横行其道的今天,几乎各种数据都是需要量化来达到规律总结的,这恰好令了“天鹅”一类事件越来越难以估计。所以对于异常值的处理和解读,其实正是数据分析人员的水平高下所在。
目前还没有接触过缺失值和异常值,先记下来,说是判断数据质量的好坏的两个指标。
url:http://blog.csdn.net/joshua_hit/article/details/73741593
9描述性统计分析
拿到一批数据,判断一下它离散程度最好办法,就是直接一个boxplot画出来。
这个作者很喜欢pheatmap和boxplot呀,哈哈。
url:http://blog.csdn.net/joshua_hit/article/details/73741688
10R语言绘图基础
R语言的原生绘图系统已经非常强大了,根本不需要其他东西的辅助,就可以绘制非常炫目的图片,需要的仅仅是耐心。另外R语言还有一系列的绘图辅助R包,比如著名的
ggplot2
,我经常用的plotly
都是很好的工具。
Shiny
框架,可以用R语言快速写成一个网页,这简直不能更方便。R已经能做分布式大数据了RSpark,建站还会远吗?RColorBrewer,这个包的功能主要就是提供一些自己已经配好色的R颜色,另外提供一系列颜色的分配,比如你想要从正黄色到正蓝色直接过度10个颜色,就可以用这个包
构图函数:首先就是,如果你想在一张图上绘制多个图形怎么办?使用
par(mfrow=c(2,3))
命令可以完成比较规则的构图,其中参数中,前一个代表行,后一个代表列,我这里的意思就是,把图片分成两行三列。还有另外一种更为厉害的分屏:layout(matrix(c(1,1,2,3), 2, 2, byrow = TRUE))
其中的设置都是在layout里边的matrix,里边你可以无限多地设置函数,每一张图可以通过数字连起来,这样就可以做出各种形状的组合图形。
我也经常用plotly配合ggplot2画图哦,像以前用它来找进化树每个节点的数值,不知道他们不用plotly包,是怎么看的。之前有段时间想要用python学习建站搭建数据库平台,上个月国庆数据库看了几天,接下来就没有看了,不知道我学啥没有继续了。想想,好像说是等着我实验室同级小伙伴搭建好了以后,在她的基础上直接改。也想让熊猫弟弟帮忙做,我来负责数据库那部分内容,然后就没有然后了。
小伙伴最近又不搭建了,熊猫弟弟忙着找工作,所以呢凡事都要靠自己。我做数据库平台的目的是凑博士工作量,并不是想发表。最近看到一篇文章开发了一个整合了26个人类肠道宏基因组数据集,加起来有5716个样本,它就把原始数据和相关的metadata下载下来,整合分析后,做了点可视化,可以通过调用函数下载原始数据,自己比较分析啥的。原来R包也可以写类似数据库的功能呀!
url:http://blog.csdn.net/joshua_hit/article/details/73742264
11高级绘图函数
boxplot函数中将
notch
参数设置为TRUE,这样的boxplot会展现出更多细节。boxplot的前几个参数有很多种写法,可以输入一个matrix,这样boxplot会自动提取每一列做一个boxplot,也可以输入单个的一个个vector,无限多的输入。另外,也可以先输入一个长长的vector,然后用~
符号跟一个分割vector,意思也就是,前一个vector根据后一个vector进行分割,其中每一个部分,都绘制一个boxplot。散点图矩阵是散点图的高维扩展,它从一定程度上克服了在平面上展示高维数据的困难,在展示多维数据的两两关系时有着不可替代的作用。负责这方面工作的函数是
pairs()
函数。散点图矩阵的意思就是,针对一个矩阵中的不同的列,每两列做一个散点图,直接看出是否有两个列之间是显著相关的,这在你的数据有很多维度,你想要确定分析那两个维度的时候尤其有用。详见不同版本的散点图矩阵:https://cosx.org/2009/03/scatterplot-matrix-visualization
用plotly画美丽的气泡图:https://plot.ly/r/bubble-charts/。Circular plot,就是圈圈图,我一直认为这种图很难读懂,但是大家就是那么喜欢,据说表现几个变量之间的关系是非常好的。
url:http://blog.csdn.net/joshua_hit/article/details/73743932
12交互式绘图
目前绘制R语言交互图的主要Rchart,Highchart和plotly,我用过plotly,但还是停留在对ggplot构造的对象进行交互式而已,就是ggploty(p)
就可以对本来的ggplot画的图变成可交互的了。
url:http://blog.csdn.net/joshua_hit/article/details/73744018
13交互式网站Shiny框架
所以Shiny的模式基本上就是,从前段接受参数,传到到后端,后端处理完的图片,直接传递到前段。写代码的时候,要有前后端的概念。
具体特点暂时没有体会,但是Shiny用户界面可以用纯R语言构建,也可以直接用HTML、CSS和JavaScript来写,对于我没学过前端的小白,可以很快写成一个小应用,上次数据,展示数据,调调参数,可以重新画个图呀,下载绘制的图片。现在很多用shiny开发web工具箱,上半年的时候倒腾过一段时间。由于没有想好用Shiny来做比较实际的事情(可以用来发文章,现在愁啊~)。手头上的数据不太好呀,想要开发软件凑文章。Jimmy师兄推荐我用R包来写软件。不管咋样,先学起来再说,好好学,好好想,至少不能写个辣鸡软件。
url:http://blog.csdn.net/joshua_hit/article/details/73744064
其他学习资源
R语言资源汇总:http://guoshipeng.com/2017/10/17/01_R_resource/
果子师兄收集的资料,除了用R学习统计以外,用R编程处理数据也要跟上了!