質問

科学が私たちに大量の無料アクセス可能なデータを与えてくれたことはよく知られています。 http://www.1000genomes.orghttp://www.ncbi.nlm.nih.gov/genbank. 。どのようにしてデータを遊んで、データサイエンス/機械学習を適用できますか?いくつかのアイデアは何でしょうか?

私自身のアイデア:

  • 生物学的データの視覚化
  • Hidden-Markov-Modelを使用した遺伝子予測

もう?

役に立ちましたか?

解決

  • 遺伝子の機能と、ゲノム全体で遺伝子を調節する要素を決定します。
  • 人々の間のDNA配列のバリエーションを見つけ、それらの重要性を決定します。最も一般的なタイプの遺伝的変異は、単一のヌクレオチド多型またはSNPとして知られています(「Snip」と発音)。これらの小さな違いは、特定の病気のリスクと特定の薬に対する反応を予測するのに役立つかもしれません。
  • タンパク質の3次元構造を発見し、それらの機能を特定します。
  • DNAとタンパク質が互いにどのように相互作用し、環境と相互作用して複雑な生活システムを作成するかを調べます。
  • 疾患の早期発見、診断、治療のためのゲノムベースの戦略を開発および適用します。
  • 種間で類似の遺伝子を比較するために、ラット、牛、チンパンジーなどの他の生物のゲノムを配列します。
  • 遺伝子とDNAを大規模に研究し、ゲノムデータを効率的に保存するための新しい技術を開発します。
  • ゲノム研究によって提起された倫理的、法的、社会的問題を調査し続けます。
  • ソース

他のヒント

母集団ごとにゲノムを分類するモデルを構築できます。監視されていない学習(クラスタリング)を実行して、モデルで集団が再構築されているかどうかを確認します。欠落している遺伝子型を推測するモデルを構築します

スケーラブルなDNA分析を行うには、確認できます アダム Apache Sparkに基づくソフトウェア

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top