Récupération séquence génomique efficace en Python?

https://stackoverflow.com/questions/3191774

02-10-2019
|

Question

Comment puis-je récupérer efficacement la séquence génomique en utilisant Python? Par exemple, à partir d'un fichier ou .fa un autre format facile à obtenir? Je veux essentiellement un fetch_seq d'interface (chrom, brin, début, fin) qui renvoie la séquence [début, fin] sur le chromosome donné sur le brin spécifié.

De manière analogue, est-il une interface Python programmatique pour obtenir des scores phastCons?

merci.

La solution

Voir ma réponse à votre question sur au Biostar:

http://biostar.stackexchange.com/questions/1639/getting-genomic-sequences-and-phastcons-scores-using-python-from-ensembl-ucsc

Utilisez SeqIO avec des fichiers Fasta et vous récupérerez des objets record pour chaque élément dans le fichier. Ensuite, vous pouvez faire:

region = rec.seq[start:end]

pour retirer les tranches. La chose agréable à utiliser une bibliothèque standard est que vous n'avez pas à vous soucier des sauts de ligne dans le fichier FASTA d'origine.

Autres conseils

Récupération des données de séquence de fichiers volumineux chromosome humain peut être inefficace mémoire sage, donc si vous êtes à la recherche d'efficacité de calcul, vous pouvez formater les données de séquence à une chaîne binaire emballé et rechercher en fonction de l'emplacement d'octets. J'ai écrit des routines pour faire en Perl (disponible ) et python a le même

Jetez un oeil à biopython , qui prend en charge plusieurs formats de séquences de gènes. Plus précisément, il supporte FASTA et les fichiers GenBank , pour appeler couple.

pyfasta est le module que vous recherchez. De la description

un accès rapide mémoire efficace, pythonique (et ligne de commande) aux fichiers de séquence FASTA

https://github.com/brentp/pyfasta

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow