「epub」情報を抽出するためのpythonライブラリ[閉じた

https://stackoverflow.com/questions/3114786

29-09-2019
|

質問

PythonでiBook to iBookにEpubアップローダーを作成しようとしています。本情報を抽出するには、Python libが必要です。自分でこれを実装する前に、誰かがすでに作られたPython libを知っているのではないかと思います。

解決

AN .EPUBファイルは、Meta-INFディレクトリを含むZIPエンコードされたファイルで、container.xmlという名前のファイルが含まれています。（に基づく要約 http://www.jedisaber.com/ebooks/tutorial.asp ;完全な仕様 http://www.idpf.org/2007/opf/opf2.0/download/ )

次のPythonコードは、.EPUBファイルから基本的なメタ情報を抽出し、DICTとして返します。

import zipfile
from lxml import etree

def get_epub_info(fname):
    ns = {
        'n':'urn:oasis:names:tc:opendocument:xmlns:container',
        'pkg':'http://www.idpf.org/2007/opf',
        'dc':'http://purl.org/dc/elements/1.1/'
    }

    # prepare to read from the .epub file
    zip = zipfile.ZipFile(fname)

    # find the contents metafile
    txt = zip.read('META-INF/container.xml')
    tree = etree.fromstring(txt)
    cfname = tree.xpath('n:rootfiles/n:rootfile/@full-path',namespaces=ns)[0]

    # grab the metadata block from the contents metafile
    cf = zip.read(cfname)
    tree = etree.fromstring(cf)
    p = tree.xpath('/pkg:package/pkg:metadata',namespaces=ns)[0]

    # repackage the data
    res = {}
    for s in ['title','language','creator','date','identifier']:
        res[s] = p.xpath('dc:%s/text()'%(s),namespaces=ns)[0]

    return res

サンプル出力：

{
    'date': '2009-12-26T17:03:31',
    'identifier': '25f96ff0-7004-4bb0-b1f2-d511ca4b2756',
    'creator': 'John Grisham',
    'language': 'UND',
    'title': 'Ford County'
}

他のヒント

何かのようなもの epub-tools, 、例えば？しかし、それはほとんどです 書き込み epub 形式（さまざまな可能なソースから）、 epubtools （同様のスペル、異なるプロジェクト）。にとって読むそれは、コンパニオンプロジェクトを試してみます Threepress, 、ブラウザにepubの本を表示するためのdjangoアプリ - そのコードを見ていませんが、本を表示するためには、最初にそれを読むことができなければならないと思います;-)。

をチェックしてください epubモジュール. 。簡単なオプションのように見えます。

似たようなものを探した後、私はここで巻き込まれ、ボスウェル氏のコードスニペットに触発され、自分のプロジェクトを開始しました。誰かが興味を持っているなら... http://epubzilla.odeegan.com/

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow