基因组数据可以进行什么样的研究？

https://datascience.stackexchange.com/questions/6172

16-10-2019
|

题

众所周知，科学为我们提供了大量的免费可访问数据，例如 http://www.1000genomes.org 和 http://www.ncbi.nlm.nih.gov/genbank. 。我们如何访问数据并应用数据科学/机器学习？有什么想法？

我自己的想法：

生物数据可视化
使用Hidden-Markov模型的基因预测

还有吗？

解决方案

确定基因的功能和调节整个基因组基因的元素。
查找人们之间DNA序列的变化，并确定其意义。最常见的遗传变异类型被称为单个核苷酸多态性或SNP（发音为“ SNIP”）。这些微小的差异可能有助于预测一个人的特定疾病风险和对某些药物的反应。
发现蛋白质的三维结构并确定其功能。
探索DNA和蛋白质如何相互作用，并与环境相互作用以创建复杂的生活系统。
制定并应用基于基因组的策略，以早期检测，诊断和治疗疾病。
序列其他生物的基因组，例如大鼠，牛和黑猩猩，以比较物种之间的相似基因。
开发新技术来大规模研究基因和DNA，并有效地存储基因组数据。
继续探索基因组研究提出的道德，法律和社会问题。
资源

其他提示

您可以构建模型以按人群对基因组进行分类。运行无监督的学习（聚类），以查看模型中是否重建种群。构建模型以推断缺失的基因型

要进行可扩展的DNA分析，您可以检查亚当基于Apache Spark的软件

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange