Pergunta

Tenho um índice de qualidade FASTQ que é apresentado como uma série de caracteres ASCII.Neste caso (provável) O caractere ASCII 64 a 126 representa a pontuação a de 0 a 62 (presumindo que é Illumina).Isto dá origem à sequência subjacente :

feffefdfbefdfffcfdeTddaYddffbfcI`S_KKX_]]MR[D_TY[VTVXQ]`Q_BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB

Como faço para extrair Qual é o número dos caracteres ASCII?

Obrigado San

Editar:Esta sequência denota a qualidade de uma sequência biológica composta por bases (a partir de pares de bases em ácidos nucleicos, ou seja, um carácter (ATGC)).Uma qualidade de base é a probabilidade de erro de base em escala phred que é igual a -10 log10 Pr{base is wrong}.

Foi útil?

Solução

Bem, como disse Marek :você pode encontrar uma função para converter os escores de qualidade Illumina no Biocondutor.Você pode perguntar em biostar.stackexchange.com.

Usando funções básicas, você pode usar charToRaw():

> x <- "feeffdbefc`\\KKX]_BBBB"
> charToRaw(x)
 [1] 66 65 65 66 66 64 62 65 66 63 60 5c 4b 4b 58 5d 5f 42 42 42 42
> as.numeric(charToRaw(x))
 [1] 102 101 101 102 102 100  98 101 102  99  96  92  75  75  88  93  95  66  66  66  66
> as.character(charToRaw(x))
 [1] "66" "65" "65" "66" "66" "64" "62" "65" "66" "63" "60" "5c" "4b" "4b" "58" "5d" "5f" "42" "42" "42" "42"

Lembre-se, você terá que escapar da barra invertida, ou você terá problemas.Isso depende de como você lê seus dados e assim por diante.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top