Wie bekomme ich einen Datenrahmen mit den gleichen Daten wie eine bereits vorhandene Matrix?
Ein vereinfachtes Beispiel meiner Matrix:
mat <- matrix(c(0, 0.5, 1, 0.1, 0.2, 0.3, 0.3, 0.4, 0.5),
ncol = 3, nrow = 3,
dimnames = list(NULL, c("time", "C_0", "C_1")))
> mat
time C_0 C_1
[1,] 0.0 0.1 0.3
[2,] 0.5 0.2 0.4
[3,] 1.0 0.3 0.5
Ich möchte einen Datenrahmen erstellen, der folgendermaßen aussieht:
name time val
1 C_0 0.0 0.1
2 C_0 0.5 0.2
3 C_0 1.0 0.3
4 C_1 0.0 0.3
5 C_1 0.5 0.4
6 C_1 1.0 0.5
Alle meine Versuche sind ziemlich unbeholfen, zum Beispiel:
data.frame(cbind(c(rep("C_1", 3), rep("C_2", 3)),
rbind(cbind(mat[,"time"], mat[,"C_0"]),
cbind(mat[,"time"], mat[,"C_1"]))))
Hat jemand eine Idee, wie das eleganter geht? Bitte beachten Sie, dass meine realen Daten einige weitere Spalten (40 Spalten) enthalten.
Wenn Sie Ihre time
-Spalte in Zeilennamen ändern, können Sie as.data.frame(as.table(mat))
für einfache Fälle wie diese verwenden.
Beispiel:
> data <- c(0.1, 0.2, 0.3, 0.3, 0.4, 0.5)
> dimnames <- list(time=c(0, 0.5, 1), name=c("C_0", "C_1"))
> mat <- matrix(data, ncol=2, nrow=3, dimnames=dimnames)
> as.data.frame(as.table(mat))
time name Freq
1 0 C_0 0.1
2 0.5 C_0 0.2
3 1 C_0 0.3
4 0 C_1 0.3
5 0.5 C_1 0.4
6 1 C_1 0.5
In diesem Fall sind Zeit und Name beide Faktoren. Möglicherweise möchten Sie die Zeit zurück in eine Zahl konvertieren, oder es spielt keine Rolle.
Sie können stack
aus dem Basispaket verwenden. Sie müssen jedoch zunächst Ihre Matrix zu einem data.frame
zwingen und die Spalten nach dem Stapeln der Daten neu anordnen.
mat <- as.data.frame(mat)
res <- data.frame(time= mat$time,stack(mat,select=-time))
res[,c(3,1,2)]
ind time values
1 C_0 0.0 0.1
2 C_0 0.5 0.2
3 C_0 1.0 0.3
4 C_1 0.0 0.3
5 C_1 0.5 0.4
6 C_1 1.0 0.5
Beachten Sie, dass stack
im Allgemeinen effizienter ist als das reshape2
-Paket.
melt()
aus dem Paket reshape2 bringt Sie in die Nähe ...
library(reshape2)
(res <- melt(as.data.frame(mat), id="time"))
# time variable value
# 1 0.0 C_0 0.1
# 2 0.5 C_0 0.2
# 3 1.0 C_0 0.3
# 4 0.0 C_1 0.3
# 5 0.5 C_1 0.4
# 6 1.0 C_1 0.5
... obwohl Sie die Ergebnisse nachbearbeiten möchten, um Ihre bevorzugten Spaltennamen und -reihenfolgen zu erhalten.
setNames(res[c("variable", "time", "value")], c("name", "time", "val"))
# name time val
# 1 C_0 0.0 0.1
# 2 C_0 0.5 0.2
# 3 C_0 1.0 0.3
# 4 C_1 0.0 0.3
# 5 C_1 0.5 0.4
# 6 C_1 1.0 0.5
Verwendung von dplyr
und tidyr
:
library(dplyr)
library(tidyr)
df <- as_data_frame(mat) %>% # convert the matrix to a data frame
gather(name, val, C_0:C_1) %>% # convert the data frame from wide to long
select(name, time, val) # reorder the columns
df
# A tibble: 6 x 3
name time val
<chr> <dbl> <dbl>
1 C_0 0.0 0.1
2 C_0 0.5 0.2
3 C_0 1.0 0.3
4 C_1 0.0 0.3
5 C_1 0.5 0.4
6 C_1 1.0 0.5
Ich habe festgestellt, dass der folgende "Cheat" sehr ordentlich und fehlerfrei funktioniert
> dimnames <- list(time=c(0, 0.5, 1), name=c("C_0", "C_1"))
> mat <- matrix(data, ncol=2, nrow=3, dimnames=dimnames)
> head(mat, 2) #this returns the number of rows indicated in a data frame format
> df <- data.frame(head(mat, 2)) #"data.frame" might not be necessary
Et voila!