掻き複数のhtmlファイルをCSV

https://stackoverflow.com/questions/923318

06-09-2019
|

質問

っ象の列の間1200.htmファイルと自分を破壊することはありません。コンピュータちの方はぜひご参加ください！'file:///home/phi/Data/NHL/pl07-08/PL020001.HTM'.されます。htmのファイルから順次*20001.htm まで*21230.htm.私のプランは最終的にtoss私のデータはMySQLまたはPostgresqlを通スプレッドシートアプリだけで直進していきます。csvファイルのことです。

これは私の初めての試みでコード(Python)、削り、私が設置されUbuntu9.04私の友達にpentium IV.言うまでもなく私newbとして事業運営.

どうやっていけばいいですか？機械化のすべてのディレクトリ内のファイルを。できる機械化もない。できる機械化/Python/BeautifulSoupを読む'file:///'スタイルのurlやしおりを付けることができる点でhome/phi/Data/NHL/pl07-08/PL020001.HTM?でスマートには100 250ファイル単位で送信1230?

まく行から始まること"<tr class="evenColor">"了者を対象としたものです"</tr>".理想的にしていただくの行が含まれる"撮影"|"ミ"|"目標"、そしてそれらの集まりがたいの全行（毎にもなります。なお、"目標"は太字でないと、指定。が3のアメニティをすべて表示htmファイルです。

もう名前の親会社のファイルpl020001.htm) することを行っ象だったのでidと思って頂くためにはちょっとカラムの最終データベース.私は全く身に覚えがないのですが始めるかを知る。アドバイスをお聞かせ下さい:

#/usr/bin/python
from BeautifulSoup import BeautifulSoup
import re
from mechanize import Browser

mech = Browser()
url = "file:///home/phi/Data/NHL/pl07-08/PL020001.HTM"
##but how do I do multiple urls/files? PL02*.HTM?
page = mech.open(url)

html = page.read()
soup = BeautifulSoup(html)
##this confuses me and seems redundant
pl = open("input_file.html","r")
chances = open("chancesforsql.csv,"w")

table = soup.find("table", border=0)
for row in table.findAll 'tr class="evenColor"'
#should I do this instead of before?
outfile = open("shooting.csv", "w")

##how do I end it?

うれをアイドルやのようなものです。でターミナルUbuntu9.04?

解決

な機械化.私は確かにHTMLコンテンツ、私がどうマッチします。このように:

import glob
from BeautifulSoup import BeautifulSoup

for filename in glob.glob('/home/phi/Data/*.htm'):
    soup = BeautifulSoup(open(filename, "r").read()) # assuming some HTML
    for a_tr in soup.findAll("tr", attrs={ "class" : "evenColor" }):
        print a_tr

そしてそのものにしたいと書きを標準出力に出力をカンマ区切りで入力（リダイレクトでファイル).たは書き込みをcsv介します。

他のヒント

MYYNの回答のような素晴らしいスタートを決めました。もったい、そんな夢のある:

import glob
    for file_name in glob.glob('/home/phi/Data/*.htm'):
        #read the file and then parse with BeautifulSoup

私の両方を発見 os や glob 輸入れによって運営を通じてファイルをクリックします。

また、再利用のためのループをこのように、また、 file_name できる変更の出力ファイルの出力ファイル名の入力ファイル名.

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow