R + Bioconductor: Kombinieren in einem probesets ExpressionSet

https://stackoverflow.com/questions/2775231

03-10-2019
|

Frage

Zunächst einmal, kann dies für diese Frage die falsche Forum, da es verflixt R + Bioconductor spezifisch ist. Hier ist, was ich habe:

library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]

Jetzt CD4T ist ein ExpressionSet Objekt, das eine große Matrix mit 19.794 Zeilen umbrochen (probesets) und 15 Spalten (Samples). Die letzte Zeile wird von allen probesets befreien, die nicht entsprechende Gen Symbole haben. Nun das Problem ist, dass die meisten Gene in dieser Menge auf mehr als eine Probeset zugeordnet sind. Sie können dies sehen, indem Sie

gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897

So nur 6897 meiner 19794 probesets haben einzigartige Probeset -> Gen-Mappings. Ich möchte irgendwie die Expressionsniveaus jedes Probeset kombinieren mit jedem Gen in Verbindung gebracht. Ich weiß nicht viel über die tatsächliche Sonde ID für jede Sonde. Ich mag sehr viel mit einem ExpressionSet das fusionierte Informationen enthält, um am Ende als alle meine Downstream-Analyse zur Arbeit mit dieser Klasse ausgelegt ist.

Ich glaube, ich kann einige Code schreiben, dies von Hand tun wird, und einen neuen Ausdruck Satz von Grund auf neu machen. Allerdings gehe davon aus ich dies kein neues Problem, und das Code sein kann, existiert, es zu tun, eine statistisch gesicherte Methode verwendet, um die Genexpressionsniveaus zu kombinieren. Ich vermute, es gibt einen richtigen Namen für das auch, aber meine Googles sind nicht viel Gebrauch zeigt nach oben. Kann mir jemand helfen?

Lösung

Ich bin kein Experte, aber von dem, was ich in den letzten Jahren gesehen habe jeder hat seine eigene Liebling Weise probesets zu kombinieren. Die beiden Methoden, dass ich die meisten in großem Umfang verwendet, wurde nur die Probeset die die größte Abweichung über den Ausdruck Matrix und die andere zu übernehmen den Mittelwert der probesets und die Schaffung eines Meta-Probeset aus ihm heraus verwendet gesehen . Für kleinere Blöcke von probesets habe ich Menschen beteiligt Blick auf Parzellen pro-Probeset verwenden intensivere Methoden gesehen, um ein Gefühl dafür zu bekommen, was los ist ... im Allgemeinen, was passiert, ist, dass man Probeset stellt sich heraus, die ‚gut‘ zu sein und die Rest ist nicht sehr gut.

Ich habe nicht verallgemeinerte Code gesehen, dies zu tun -. Als Beispiel wir in meinem Labor vor kurzem festgestellt, dass einige von uns unsere eigenen Funktionen haben diese gleiche Sache zu tun

Andere Tipps

Das Wort Sie suchen, ist 'nsFilter' in R genefilter Paket. Diese Funktion assign zwei wichtige Dinge, ist es für nur entrez Gen sieht Ids , Rest der probesets werden herausgefiltert. Wenn ein entrez id mehrere probesets hat, dann wird der größte Wert beibehalten werden und entfernt die anderen. Jetzt haben Sie einzigartige entrez Gen-ID zugeordnet Matrix. Hoffe, das hilft.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow