欢迎来到Introzo百科

Introzo百科

当前位置：网站首页 > 技术 > R语言（入门小练习篇）

R语言（入门小练习篇）

日期：2023-09-16 08:36

-->

问题：

　　一组学生参加了数学、科学和英语考试。为了给所有的学生确定一个单一的成绩衡量指标，需要将这些科目的成绩组合起来。另外，还想将前20%的学生评定为A，接下来20%的学生评定为B，以此类推。最后，希望按字母顺序对学生排序。

Excel中的数据表（自己一个个敲的，最讨厌做的事情TT）

StuId	StuName	Math	Science	English
1	John Davis	502	95	25
2	Angela Williams	465	67	12
3	Bull Jones	621	78	22
4	Cheryl Cushing	575	66	18
5	Reuven Ytzrhak	454	96	15
6	Joel Knox	634	89	30
7	Mary Rayburn	576	78	37
8	Greg England	421	56	12
9	Brad Tmac	599	68	22
10	Tracy Mcgrady	666	100	38

step1：输入数据——R语言导入xlsx

#1数据输入
install.packages("xlsx")
library(xlsx)
workbook<-"D:/R语言/code/R语言实战前五章小试身手/StuScore.xlsx"#也可用‘\\’注意转义字符
StuScore<-read.xlsx(workbook,)#1表示sheet1
StuScore

step2：数据预处理——将变量进行标准化

因为数学，科学和英语考试的分值不同（均值和标准差均有较大差异），在组合之前要让他们变得可以比较

方法：变量标准化，把每科成绩都用单位标准差表示

　　tips：

所谓数据的标准化是指中心化之后的数据在除以数据集的标准差，即数据集中的各项数据减去数据集的均值再除以数据集的标准差。
例如有数据集1, , , , ，其均值为3,其标准差为1.，那么标准化之后的数据集为(-)/1.87,(-)/1.87,(-)/1.87,(-)/1.87,(-)/1.87,即：-1.069,-0.535,,1.604, 数据中心化和标准化的意义是一样的，为了消除量纲对数据结构的影响。

　　这里使用scale()可以直接实现

> #2数据预处理
> options(digits=)#限定为2位小数
> afterscale<-scale(StuScore[,:])
> afterscale
Math Science English
[,] -0.58 1.040 0.20
[,] -1.02 -0.815 -1.17
[,] 0.82 -0.086 -0.12
[,] 0.28 -0.881 -0.54
[,] -1.15 1.106 -0.86
[,] 0.98 0.643 0.73
[,] 0.29 -0.086 1.47
[,] -1.54 -1.544 -1.17
[,] 0.56 -0.749 -0.12
[,] 1.35 1.372 1.57
attr(,"scaled:center")
Math Science English attr(,"scaled:scale")
Math Science English
84.7 15.1 9.5

　　这里，有两个疑问：

　　1.说好的输出两位小数呢？Science那一栏输出的都是三位小数，怎么回事？

　　2.这是什么东东？

attr(,"scaled:center")
Math Science English attr(,"scaled:scale")
Math Science English
84.7 15.1 9.5
scale方法中的两个参数center和scale的解释：
www.introzo.com和scale默认为真,即T或者TRUE
www.introzo.com为真表示数据中心化
3.scale为真表示数据标准化

　　　也就是说：center表示一列数据的均值，scale则表示标准差（有兴趣的同学，可以用Excel的STDEV函数验证一下）

step3:通过函数mean()来计算各行的均值以及获得综合得分，并使用cbind()将其添加到花名册中

> #3在afterscale中计算标准差均值，并将其添加到StuScore
> score<-apply(afterscale,,mean)#1表示行，mean表示均值函数
> StuScore<-cbind(StuScore,score)
> StuScore
StuId StuName Math Science English score
John Davis 0.22
Angela Williams -1.00
Bull Jones 0.21
Cheryl Cushing -0.38
Reuven Ytzrhak -0.30
Joel Knox 0.78
Mary Rayburn 0.56
Greg England -1.42
Brad Tmac -0.10
Tracy Mcgrady 1.43

Step4:函数quantile()给出学生综合得分的百分位数

　　quantile(x,probs):求分位数，其中x为待求分位数的数值型向量，probs为一个由[0,1]之间的概率值组成的数值向量

> afterquantile<-quantile(score,c(.,.,.,.))
> afterquantile
% % % %
0.60 0.21 -0.18 -0.50

step5：使用逻辑运算符，把score转为等级（离散型）

> #5使用逻辑运算符，把score转为等级（离散型）
> StuScore$grade[score>=afterquantile[]]<-"A"
> StuScore$grade[score=afterquantile[]]<-"B"
> StuScore$grade[score=afterquantile[]]<-"C"
> StuScore$grade[score=afterquantile[]]<-"D"
> StuScore$grade[score > StuScore
StuId StuName Math Science English score grade
John Davis 0.22 B
Angela Williams -1.00 E
Bull Jones 0.21 B
Cheryl Cushing -0.38 E
Reuven Ytzrhak -0.30 E
Joel Knox 0.78 B
Mary Rayburn 0.56 B
Greg England -1.42 E
Brad Tmac -0.10 E
Tracy Mcgrady 1.43 B

Step6:使用strsplit()以空格为界把学生姓名拆分为姓氏和名字

> #Step6:使用strsplit()以空格为界把学生姓名拆分为姓氏和名字
> name<-strsplit((StuScore$StuName)," ")
Error in strsplit((StuScore$StuName), " ") : non-character argument
> name
[] "Jim" "Tony" "Lisa" "Tom"

　　这里出错了，原因很明确，没有字符型的参数传入，反应过来，原来是用execl导入的时候，StuName那一列默认的是什么类型的呢？我们来检测一下

> is.numeric(StuScore$StuName)
[] FALSE
> is.logical(StuScore$StuName)
[] FALSE
> is.character(StuScore$StuName)
[] FALSE
> is.complex(StuScore$StuName)
[] FALSE
> help(type)
> typeof(StuScore$StuName)
[] "integer"

　　因此，我们把他改为字符型

> #Step6:使用strsplit()以空格为界把学生姓名拆分为姓氏和名字
> StuScore$StuName<-as.character(StuScore$StuName)
> is.character(StuScore$StuName)
[] TRUE
> name<-strsplit(StuScore$StuName," ")
> name
[[]]
[] "John" "Davis" [[]]
[] "Angela" "Williams" [[]]
[] "Bull" "Jones" [[]]
[] "Cheryl" "Cushing" [[]]
[] "Reuven" "Ytzrhak" [[]]
[] "Joel" "Knox" [[]]
[] "Mary" "Rayburn" [[]]
[] "Greg" "England" [[]]
[] "Brad" "Tmac" [[]]
[] "Tracy" "Mcgrady"

Step7：把name分成Firstname和LastName，加入到StuScore中

> #7把name分成Firstname和LastName，加入到StuScore中
> FirstName<-sapply(name,"[",)
> LastName<-sapply(name,"[",)
> StuScore<-cbind(FirstName,LastName,StuScore[,-])
> StuScore
FirstName LastName LastName StuName Math Science English score grade
John Davis Davis John Davis 0.22 B
Angela Williams Williams Angela Williams -1.00 E
Bull Jones Jones Bull Jones 0.21 B
Cheryl Cushing Cushing Cheryl Cushing -0.38 E
Reuven Ytzrhak Ytzrhak Reuven Ytzrhak -0.30 E
Joel Knox Knox Joel Knox 0.78 B
Mary Rayburn Rayburn Mary Rayburn 0.56 B
Greg England England Greg England -1.42 E
Brad Tmac Tmac Brad Tmac -0.10 E
Tracy Mcgrady Mcgrady Tracy Mcgrady 1.43 B
>

Step8：order排序

> #8order()排序
> StuScore[order(LastName,FirstName),]
FirstName LastName LastName StuName Math Science English score grade
Cheryl Cushing Cushing Cheryl Cushing -0.38 E
John Davis Davis John Davis 0.22 B
Greg England England Greg England -1.42 E
Bull Jones Jones Bull Jones 0.21 B
Joel Knox Knox Joel Knox 0.78 B
Tracy Mcgrady Mcgrady Tracy Mcgrady 1.43 B
Mary Rayburn Rayburn Mary Rayburn 0.56 B
Brad Tmac Tmac Brad Tmac -0.10 E
Angela Williams Williams Angela Williams -1.00 E
Reuven Ytzrhak Ytzrhak Reuven Ytzrhak -0.30 E
>

　　虽然是照着书本上做的，但是，代码必须要自己敲一遍，过程中遇到的一些小问题也解决了，就算菜鸟简单入门。这样样例还可以继续拓展，把R语言实战前5章的内容尽可能用一边，可以绘制一些图，等等，本文还会继续更新。

为ScienceScore绘制条形图

　　根据不同的分数等级，显示不同的颜色。

#为StuScore绘制分组条形图
install.packages("vcd")
library(vcd)
fill_colors<-c() #不同的等级，不同的颜色显示
for(i in 1:length(StuScore$Science)){
if(StuScore$Science[i]==100){
fill_colors<-c(fill_colors,"red")
}else if(StuScore$Science[i]<100&&StuScore$Science[i]>=80){
fill_colors<-c(fill_colors,"yellow")
}else if(StuScore$Science[i]<80&&StuScore$Science[i]>=60){
fill_colors<-c(fill_colors,"blue")
}else{
fill_colors<-c(fill_colors,"green")
}
}
barplot(StuScore$Science, #条形图
main="Science Score",
xlab="Name",ylab="ScienceScore",
col=fill_colors,
20 names.arg=(paste(substr(FirstName,1,1),".",LastName)), #设定横坐标名称
border=NA, #条形框不设置边界线
font.main=4,
font.lab=3,
beside=TRUE)
legend(x=8.8,y=100, #左上角点的坐标
cex=.8, #缩放比例
inset=5,
c("Excellent","Good","Ordinary","Bad"),
pch=c(15,16,17,19), #图例中的符号
col=c("red","yellow","blue","green"),
bg="#821122", #背景色
xpd=TRUE, #可以在绘图区之外显示
text.font=8,
text.width=.6,
text.col=c("red","yellow","blue","green")
)

遇到的问题说明：

　　起初在设置了20行的名称时，显示了全名，因此出现了一下情况：

　　　　因为名称太挤，显示不出来。

　　解决办法有三：

保存img时，增大像素值；
把名词改为简写，即John Davis——>J.Davis
把名称倾斜，与水平线呈一定的夹角
利用cex.names=.8对条形图的表情进行微调（减小字号）

　　由于3没有找到相应的设置参数，所以这里采用了第二种方法。

　　最后的效果图：

-->

最近发表

猜你喜欢

关灯