コピペ厨シリーズ4:wgetを使ってサイト内データを連鎖ぶっこ抜き

こんにちは!今日のコピペ厨エントリーはこんなのです。
3秒ウェイトでぶっこぬく。
サイト内リンクは相対リンクに変換して保存するので、サイトデータの手元保存用として使える。(認証系が途中である等複雑なのはムリ)
取得済みは再取得しない・別サイトや上位リンクはたどらないオプション付き。

wget -c -np -m -k -nH -x -w 3 -e robots=off -r http://ぶっこぬき先URL/

細かいオプションは自分で調べるべし。サイト関係のお仕事で何かと便利だにょ。
(もちろん酷い使い方には注意が必要だが、それは方法の紹介とは別の話。念のため)



ちなみにuser_agent偽装は、~/.wgetrcに、

user_agent=Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.2.3) Gecko/20100401 Firefox/3.6.3 (.NET CLR 3.5.30729)

とでも書いておけば良いよ。



ではでは!