Linuxディスクバッファキャッシュは、Python Cpickleを棚よりも効率的にしますか？

https://stackoverflow.com/questions/4060937

27-09-2019
|

質問

Linuxディスクバッファキャッシュのため、IOは、すべてのオブジェクトを1つの大きな棚に保存する代わりに、頻繁にアクセスしたPythonオブジェクトを個別のcpickleファイルとして保存する場合、より効率的ですか？

これら2つのシナリオでは、効率に関してディスクバッファキャッシュの動作が異なりますか？

何千もの大きなファイル（通常は100MB前後ですが、1GB）がありますが、多くのRAM（例えば64 GB）があります。

解決

どの方法がより速いかを決定する理論的な方法はわかりません。それでは、いくつかのコードを書いてテストしましょう。

ピクルス/シェルブマネージャーをクラスで共通のインターフェイスでパッケージ化すると、コードの内外を簡単に交換できます。したがって、将来の時点で、一方が他のポイントよりも優れていることを発見した場合（または、さらに良い方法を発見します）、同じインターフェイスでクラスを書くだけで、新しいクラスをコードに接続できるようになります。他のものへの変更はほとんどありません。

test.py：

import cPickle
import shelve
import os

class PickleManager(object):
    def store(self,name,value):
        with open(name,'w') as f:
            cPickle.dump(value,f)
    def load(self,name):
        with open(name,'r') as f:
            return cPickle.load(f)

class ShelveManager(object):
    def __enter__(self):
        if os.path.exists(self.fname):
            self.shelf=shelve.open(self.fname)
        else:
            self.shelf=shelve.open(self.fname,'n')
        return self
    def __exit__(self,ext_type,exc_value,traceback):
        self.shelf.close()
    def __init__(self,fname):
        self.fname=fname
    def store(self,name,value):
        self.shelf[name]=value        
    def load(self,name):
        return self.shelf[name]

def write(manager):                
    for i in range(100):
        fname='/tmp/{i}.dat'.format(i=i)
        data='The sky is so blue'*100
        manager.store(fname,data)
def read(manager):        
    for i in range(100):
        fname='/tmp/{i}.dat'.format(i=i)        
        manager.load(fname)

通常、このようなPickLemanagerを使用します。

manager=PickleManager()
manager.load(...)
manager.store(...)

あなたがこのようにシェルヴェマンジャーを使用する間：

with ShelveManager('/tmp/shelve.dat') as manager:        
    manager.load(...)
    manager.store(...)

しかし、パフォーマンスをテストするために、このようなことをすることができます。

python -mtimeit -s'import test' 'with test.ShelveManager("/tmp/shelve.dat") as s: test.read(s)'
python -mtimeit -s'import test' 'test.read(test.PickleManager())'
python -mtimeit -s'import test' 'with test.ShelveManager("/tmp/shelve.dat") as s: test.write(s)'
python -mtimeit -s'import test' 'test.write(test.PickleManager())'

少なくとも私のマシンでは、結果は次のようになりました：

                  read (ms)     write (ms)
PickleManager     9.26          7.92 
ShelveManager     5.32          30.9

したがって、シェルヴェマンジャーは読書がより速くなるかもしれませんが、ピックルマネージャーは執筆がより速くなる可能性があります。

これらのテストを自分で実行してください。 TimeITの結果は、Python、OS、ファイルシステムタイプ、ハードウェアなどのバージョンによって異なります。

また、私のことに注意してください write と read 関数は非常に小さなファイルを生成します。ユースケースにより似たデータでこれをテストする必要があります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow