سؤال

كيف يمكنني جلب التسلسل الجيني بكفاءة باستخدام Python؟ على سبيل المثال ، من ملف .fa أو بعض التنسيق الذي تم الحصول عليه بسهولة؟ أريد أساسًا واجهة Fetch_seq (كروم ، حبلا ، ابدأ ، نهاية) والتي ستعيد التسلسل [start ، end] على الكروموسوم المحدد على حبلا محدد.

بشكل مماثل ، هل هناك واجهة بيثون برمجية للحصول على درجات phastcons؟

شكرًا.

هل كانت مفيدة؟

المحلول

انظر إجابتي على سؤالك في Biostar:

http://biostar.stackexchange.com/questions/1639/getting-genomic-equences-and-phastcons-scores-using-python-frombl-ucsc

استخدم seqio مع ملفات fasta وستحصل على كائنات السجل لكل عنصر في الملف. ثم يمكنك أن تفعل:

region = rec.seq[start:end]

لسحب الشرائح. الشيء الجميل في استخدام مكتبة قياسية هو أنه لا داعي للقلق بشأن فترات الفواصل في ملف Fasta الأصلي.

نصائح أخرى

يمكن أن يكون استرداد بيانات التسلسل من ملفات الكروموسوم البشرية الكبيرة غير فعالة للذاكرة ، لذلك إذا كنت تبحث عن الكفاءة الحسابية ، فيمكنك تنسيق بيانات التسلسل إلى سلسلة ثنائية معبأة والبحث بناءً على موقع البايت. كتبت إجراءات للقيام بذلك في بيرل (متاح هنا ) ، والبيثون لديه نفس الشيء حزمة وتفريغ الروتين - لذلك يمكن القيام بذلك ، ولكن يستحق ذلك فقط إذا كنت تتجول في مشكلة مع ملفات كبيرة على جهاز محدود. وإلا استخدم Biopython Seqio

ألق نظرة على Biopython, ، والتي لديها دعم للعديد من تنسيقات تسلسل الجينات. على وجه التحديد ، لديها دعم ل ملفات Fasta و GenBank, ، على سبيل المثال لا الحصر.

pyfasta هي الوحدة التي تبحث عنها. من الوصف

وصول سريع وفعال الذاكرة ، والثاني (خط الأوامر) إلى ملفات تسلسل fasta

https://github.com/brentp/pyfasta

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top