Récupération séquence génomique efficace en Python?
-
02-10-2019 - |
Question
Comment puis-je récupérer efficacement la séquence génomique en utilisant Python? Par exemple, à partir d'un fichier ou .fa un autre format facile à obtenir? Je veux essentiellement un fetch_seq d'interface (chrom, brin, début, fin) qui renvoie la séquence [début, fin] sur le chromosome donné sur le brin spécifié.
De manière analogue, est-il une interface Python programmatique pour obtenir des scores phastCons?
merci.
La solution
Voir ma réponse à votre question sur au Biostar:
Utilisez SeqIO avec des fichiers Fasta et vous récupérerez des objets record pour chaque élément dans le fichier. Ensuite, vous pouvez faire:
region = rec.seq[start:end]
pour retirer les tranches. La chose agréable à utiliser une bibliothèque standard est que vous n'avez pas à vous soucier des sauts de ligne dans le fichier FASTA d'origine.
Autres conseils
Récupération des données de séquence de fichiers volumineux chromosome humain peut être inefficace mémoire sage, donc si vous êtes à la recherche d'efficacité de calcul, vous pouvez formater les données de séquence à une chaîne binaire emballé et rechercher en fonction de l'emplacement d'octets. J'ai écrit des routines pour faire en Perl (disponible ) et python a le même
Jetez un oeil à biopython , qui prend en charge plusieurs formats de séquences de gènes. Plus précisément, il supporte FASTA et les fichiers GenBank , pour appeler couple.
pyfasta ??em> est le module que vous recherchez. De la description
un accès rapide mémoire efficace, pythonique (et ligne de commande) aux fichiers de séquence FASTA