Linuxディスクバッファキャッシュは、Python Cpickleを棚よりも効率的にしますか?
質問
Linuxディスクバッファキャッシュのため、IOは、すべてのオブジェクトを1つの大きな棚に保存する代わりに、頻繁にアクセスしたPythonオブジェクトを個別のcpickleファイルとして保存する場合、より効率的ですか?
これら2つのシナリオでは、効率に関してディスクバッファキャッシュの動作が異なりますか?
何千もの大きなファイル(通常は100MB前後ですが、1GB)がありますが、多くのRAM(例えば64 GB)があります。
解決
どの方法がより速いかを決定する理論的な方法はわかりません。それでは、いくつかのコードを書いてテストしましょう。
ピクルス/シェルブマネージャーをクラスで共通のインターフェイスでパッケージ化すると、コードの内外を簡単に交換できます。したがって、将来の時点で、一方が他のポイントよりも優れていることを発見した場合(または、さらに良い方法を発見します)、同じインターフェイスでクラスを書くだけで、新しいクラスをコードに接続できるようになります。他のものへの変更はほとんどありません。
test.py:
import cPickle
import shelve
import os
class PickleManager(object):
def store(self,name,value):
with open(name,'w') as f:
cPickle.dump(value,f)
def load(self,name):
with open(name,'r') as f:
return cPickle.load(f)
class ShelveManager(object):
def __enter__(self):
if os.path.exists(self.fname):
self.shelf=shelve.open(self.fname)
else:
self.shelf=shelve.open(self.fname,'n')
return self
def __exit__(self,ext_type,exc_value,traceback):
self.shelf.close()
def __init__(self,fname):
self.fname=fname
def store(self,name,value):
self.shelf[name]=value
def load(self,name):
return self.shelf[name]
def write(manager):
for i in range(100):
fname='/tmp/{i}.dat'.format(i=i)
data='The sky is so blue'*100
manager.store(fname,data)
def read(manager):
for i in range(100):
fname='/tmp/{i}.dat'.format(i=i)
manager.load(fname)
通常、このようなPickLemanagerを使用します。
manager=PickleManager()
manager.load(...)
manager.store(...)
あなたがこのようにシェルヴェマンジャーを使用する間:
with ShelveManager('/tmp/shelve.dat') as manager:
manager.load(...)
manager.store(...)
しかし、パフォーマンスをテストするために、このようなことをすることができます。
python -mtimeit -s'import test' 'with test.ShelveManager("/tmp/shelve.dat") as s: test.read(s)'
python -mtimeit -s'import test' 'test.read(test.PickleManager())'
python -mtimeit -s'import test' 'with test.ShelveManager("/tmp/shelve.dat") as s: test.write(s)'
python -mtimeit -s'import test' 'test.write(test.PickleManager())'
少なくとも私のマシンでは、結果は次のようになりました:
read (ms) write (ms)
PickleManager 9.26 7.92
ShelveManager 5.32 30.9
したがって、シェルヴェマンジャーは読書がより速くなるかもしれませんが、ピックルマネージャーは執筆がより速くなる可能性があります。
これらのテストを自分で実行してください。 TimeITの結果は、Python、OS、ファイルシステムタイプ、ハードウェアなどのバージョンによって異なります。
また、私のことに注意してください write
と read
関数は非常に小さなファイルを生成します。ユースケースにより似たデータでこれをテストする必要があります。