negdata <- word[word$id %in% ind.neg$id, ]是什么意思
时间: 2024-02-09 12:07:01 浏览: 30
这也是在R语言中对数据框操作,将 ind.neg 中的 id 列与 word 数据框中的 id 列进行匹配。若 word 数据框中的某一行的 id 值也在 ind.neg 中的 id 值中出现过,则将该行提取出来,组成新的数据框 negdata。
简单来说,就是从 word 数据框中提取出 id 列值与 ind.neg 数据框中的 id 列值相匹配的所有行,组成新的数据框 negdata。
相关问题
ind.neg <- subset(meidi.posneg, meidi.posneg$weight < 0, select = c("id"))是什么意思
这是在R语言中对数据框(meidi.posneg)进行子集(subset)操作,筛选出其中 weight 列的值小于0的行,并从中选择 id 列作为新的数据框 ind.neg。
简单来说,就是把 meidi.posneg 中 weight 列小于0的行的 id 列提取出来作为 ind.neg 数据框。
#------(一)方法1:基于指标体系1的结果---- #--------1.数据导入------------- library(xlsx) d1.1 <- read.xlsx('data.xlsx', '2022', encoding = "UTF-8") #读取数据 head(d1.1,10) colnames(d1.1) d1 <- d1.1[,5:ncol(d1.1)] d1 <- abs(d1) #---------2.归一化处理--------------- Rescale = function(x, type=1) { # type=1正向指标, type=2负向指标 rng = range(x, na.rm = TRUE) if (type == 1) { (x - rng[1]) / (rng[2] - rng[1]) } else { (rng[2] - x) / (rng[2] - rng[1]) } } #---------3.熵值法步骤---------- #定义熵值函数 Entropy = function(x) { entropy=array(data = NA, dim = ncol(x),dimnames = NULL) j=1 while (j<=ncol(x)) { value=0 i=1 while (i<=nrow(x)) { if (x[i,j]==0) { (value=value) } else { (value=value+x[i,j]*log(x[i,j])) } i=i+1 } entropy[j]=value*(-1/log(nrow(x))) j=j+1 } return(entropy) } Entropy_Weight = function(X, index) { pos = which(index == 1) neg = which(index != 1) X[,pos] = lapply(X[,pos], Rescale, type=1) X[,neg] = lapply(X[,neg], Rescale, type=2) P = data.frame(lapply(X, function(x) x / sum(x))) e = Entropy(P) d = 1 - e # 计算信息熵冗余度 w = d / sum(d) # 计算权重向量 list(X = X,P = P, w=w) } #-------4.代入数据计算权重----- # -------二级指标权重------ ind=array(rep(1,ncol(d1))) aa=Entropy_Weight(X = d1,index = ind) weight=as.data.frame(aa["w"]) weigh X <- as.data.frame(aa["X"]) X P <- as.data.frame(aa["P"]) P d1.a <- X[,c(grep("A",colnames(X)))] d1.b <- X[,c(grep("B",colnames(X)))] d1.c <- X[,c(grep("C",colnames(X)))] d1a <- as.matrix(d1.a) d1b <- as.matrix(d1.b) d1c <- as.matrix(d1.c) n1 <- ncol(d1a) n2 <- ncol(d1b) n3 <- ncol(d1c) wa <- weight[1:n1,1] wb <- weight[(n1+1):(n1+n2),1] wc <- weight[(n1+n2+1):(n1+n2+n3),1] wa <- as.matrix(wa,ncol =1) wb <- as.matrix(wb,ncol =1) wc <- as.matrix(wc,ncol =1) indexa <- d1a%*%wa indexb <- d1b%*%wb indexc <- d1c%*%wc d1abc <- cbind(indexa,indexb,indexc) 参考以上代码,用不同一级指标下分别计算二级指标权重,
根据以上代码,可以分别针对不同的一级指标,使用熵值法计算出各自的二级指标权重。具体的实现步骤如下:
1. 读取数据并选择需要计算的指标列。
```
library(xlsx)
d1.1 <- read.xlsx('data.xlsx', '2022', encoding = "UTF-8")
d1 <- d1.1[,5:ncol(d1.1)]
d1 <- abs(d1)
```
2. 进行归一化处理。
```
Rescale = function(x, type=1) {
# type=1正向指标, type=2负向指标
rng = range(x, na.rm = TRUE)
if (type == 1) {
(x - rng[1]) / (rng[2] - rng[1])
} else {
(rng[2] - x) / (rng[2] - rng[1])
}
}
d1[,1:4] = lapply(d1[,1:4], Rescale, type=1)
d1[,5:ncol(d1)] = lapply(d1[,5:ncol(d1)], Rescale, type=2)
```
3. 定义熵值函数。
```
Entropy = function(x) {
entropy=array(data = NA, dim = ncol(x),dimnames = NULL)
j=1
while (j<=ncol(x)) {
value=0
i=1
while (i<=nrow(x)) {
if (x[i,j]==0) {
(value=value)
} else {
(value=value+x[i,j]*log(x[i,j]))
}
i=i+1
}
entropy[j]=value*(-1/log(nrow(x)))
j=j+1
}
return(entropy)
}
```
4. 定义计算二级指标权重的函数。
```
Entropy_Weight = function(X, index) {
pos = which(index == 1)
neg = which(index != 1)
X[,pos] = lapply(X[,pos], Rescale, type=1)
X[,neg] = lapply(X[,neg], Rescale, type=2)
P = data.frame(lapply(X, function(x) x / sum(x)))
e = Entropy(P)
d = 1 - e # 计算信息熵冗余度
w = d / sum(d) # 计算权重向量
list(X = X,P = P, w=w)
}
```
5. 代入数据计算二级指标权重。
```
# 计算一级指标 A 的二级指标权重
d1.a <- d1[,c(grep("A",colnames(d1)))]
aa <- Entropy_Weight(X = d1.a, index = rep(1, ncol(d1.a)))
wa <- aa$w
# 计算一级指标 B 的二级指标权重
d1.b <- d1[,c(grep("B",colnames(d1)))]
aa <- Entropy_Weight(X = d1.b, index = rep(1, ncol(d1.b)))
wb <- aa$w
# 计算一级指标 C 的二级指标权重
d1.c <- d1[,c(grep("C",colnames(d1)))]
aa <- Entropy_Weight(X = d1.c, index = rep(1, ncol(d1.c)))
wc <- aa$w
```
6. 根据计算出来的二级指标权重,计算每个样本的综合得分。
```
indexa <- d1.a %*% wa
indexb <- d1.b %*% wb
indexc <- d1.c %*% wc
d1abc <- cbind(indexa, indexb, indexc)
```
以上代码可以根据实际情况进行调整,具体实现时需要注意数据的格式以及代码的正确性。