Prima di tutto, questo potrebbe essere il Forum sbagliato per questa domanda, in quanto è dannatamente R + Bioconductor specifico. Ecco quello che ho:R + Bioconductor: combinazione di sonde in un ExpressionSet
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
Ora cd4T è un oggetto ExpressionSet che avvolge una grande matrice con 19794 righe (probesets) e 15 colonne (campioni). La linea finale elimina tutti i probesets che non hanno simboli genetici corrispondenti. Ora il problema è che la maggior parte dei geni in questo set sono assegnati a più di un probe. Si può vedere questo facendo
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
Quindi solo 6897 dei miei 19794 probesets avere probeset unica -> mappature genetiche. Mi piacerebbe in qualche modo combinare i livelli di espressione di ciascun sonde associato a ciascun gene. Non mi interessa molto dell'ID sonda reale per ogni sonda. Mi piacerebbe molto finire con un ExpressionSet che contiene le informazioni unite poiché tutte le mie analisi downstream sono progettate per funzionare con questa classe.
Penso di poter scrivere un codice che lo faccia a mano e creare una nuova espressione impostata da zero. Tuttavia, presumo che questo non possa essere un nuovo problema e che esista un codice per farlo, utilizzando un metodo statisticamente valido per combinare i livelli di espressione genica. Sto indovinando c'è anche un nome corretto per questo, ma i miei google non si mostrano molto utili. Qualcuno può aiutare?
Si consiglia di provare biostar.stackexchange.com - si tratta di un sito di tipo StackOverflow esclusivamente per domande di bioinformatica. –
(anche se penso che questa sia una domanda appropriata anche qui). –
cool - lo hai messo anche su biostar. –