Pregunta

En primer lugar, este puede ser el mal Foro para esta pregunta, ya que es bastante maldito I + Bioconductor específica. Aquí es lo que tengo:

library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]

Ahora CD4T es un objeto ExpressionSet que envuelve una matriz grande con 19794 filas (sondas) y 15 columnas (muestras). La última línea se deshace de todos los grupos de sondas que no tienen símbolos de genes correspondientes. Ahora el problema es que la mayoría de los genes en este conjunto se asignan a más de una de sondas. Esto se puede ver haciendo

gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897

Por lo que sólo 6.897 de mis 19794 sondas tienen probeset única -> asignaciones de genes. Me gustaría combinar de alguna manera los niveles de expresión de cada uno de sondas asociados con cada gen. No me importa mucho acerca de la identificación real de la sonda para cada sonda. Me gustaría mucho para terminar con un ExpressionSet que contiene la información combinada como todos los de mi análisis de aguas abajo está diseñado para trabajar con esta clase.

creo que puedo escribir un código que va a hacer esto a mano, y hacer un nuevo conjunto expresión a partir de cero. Sin embargo, estoy asumiendo que esto no puede ser un problema nuevo y existe ese código para hacerlo, utilizando un método estadísticamente sólida para combinar los niveles de expresión génica. Supongo que hay un nombre propio para esto también, pero mis gafas no se están presentando tanto de uso. ¿Alguien puede ayudar?

¿Fue útil?

Solución

No soy un experto, pero por lo que he visto en los últimos años cada uno tiene su propia forma favorita de la combinación de sondas. Los dos métodos que he visto aplicar más a gran escala ha estado utilizando sólo el de sondas que tiene la varianza más grande a través de la matriz de expresión y el otro ser tomar la media de las sondas y la creación de un meta-probeset fuera de él . Para bloques más pequeños de sondas que he visto personas utilizan métodos más intensivos que implican mirando parcelas por-probeset a tener una idea de lo que está pasando ... en general, lo que ocurre es que uno de sondas resulta ser la 'buena' una y la resto no son muy buenas.

No he visto código generalizada para hacer esto -. Como ejemplo recientemente hemos dado cuenta en mi laboratorio que algunos de nosotros tenemos nuestros propios eventos privados que hacer esto mismo

Otros consejos

La palabra que buscas es 'nsFilter' en R paquete genefilter. Esta función de asignación de dos cosas importantes, se ve sólo el gen Entrez ids , resto de las sondas será filtrado. Cuando un id Entrez tiene múltiples sondas, entonces el valor más grande será retenido y los demás eliminado. Ahora usted tiene Entrez Gene ID única matriz asignada. Espero que esto ayude.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top