るプログラミング言語のどちらを使えば良い統合の異なる解析ソフトウェアパッケージ?

datascience.stackexchange https://datascience.stackexchange.com/questions/13589

  •  16-10-2019
  •  | 
  •  

質問

私が現在文書をパッケージの効率化データ分析のための研究。複数の解析ソフトウェアパッケージを使用して、unix、matlab、ほとんど使われていません)。代表的なデータセットは250GB(原)、少なくとも4種類の前処理操作を解析する完成品は、通常、終了を約1TB.私たちはパッケージには、ユーザーを選び、既存のパッケージを利用の各ステップの前に分析した上で、そのプログラムを実行しないで更にユーザーの介入です。てる必要がありますことを目指しこれらの異なるパッケージ、書面の協力が欠かせないということを思決定のプログラムにbashでは、実際の分析スクリプトなどの言語で書きます。

プログラムの開始に伴ってきて、それは非常に複雑で様々な特異な期待は、規約の解析パッケージです。を実現bashきない場合に最適な言語の複雑なタスクがなどもお楽しみいただけると思います電話のスクリプトの異なる言語であることになるので比較的簡単です。このプログラムは多くのファイルの取り扱い、bashは良いです。一方で、今でも非常に遅い、も無骨がらに複雑化してきております。

った場合はbashは最適な選択肢はこの課題です。いての提案、その他の言語の組み合わせたり、言語、その方が良いかもしれないのに適したの私のニーズ?

私はあることに注意しなければ私自身がプログラマ、これは私の初めてのグの課題です。私は主に知bash、matlab、Rや少しのpythonしてしまいましたが、まず私に新しいことを知るもの(Cか?).また、これらはすべてを走unix.

役に立ちましたか?

解決

の場合はステッチと呼他のソフトウェアのようなunixユーティリティ(awk grep,sed...)、python、matlabスクリプト、bash では、イブレア城、イブレア大 またはその疑いのあるものジョブを構築し簡単なパイプラインのワークフロー

でもbashを読みユーザー入力,大切に保管してくださ変数を他のソフトウェアによっては設定の変数.で完全に十分速く、余裕があります。が、何といっても得意です。

また利用bashのための前処理そのもののように、ループを通じてファイルラインによるライン、梱包-開梱タブ区切りの値を配列等 こexcruciatinglyいわゆお勧めします。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top