Home‎ > ‎ProgramTool‎ > ‎

Wget

wgetは、コマンドラインで動く一種のクローラー(ロボット)みたいなモノです。
web屋がこれを何に使うかと言えば、サイトリニューアル前、まだサイトのソースをいただけない間の構造解析、ファイルリストの作成です

インストール

基本的な使い方 

wget -r -l 0 サイトurl(http://付で)

wget -r -l 0  http://www.xxxxx.co.jp/

www.xxxxx.co.jp というフォルダができて、その中にファイルができます。
オプションの指定は、再帰的に、階層構造を上限なく辿ることになります。
やり過ぎかもとおもうときは、 -l 5 とかにしてみましょう。

http://www.geocities.jp/horiuchimasaru/wget.html

wget -r -l 0 -np -nc -A htm,html http://www.xxxxx.co.jp/    htmlファイルだけ取得
wget -r -l 0 -np -nc -R pdf,gif,jpg,swf,doc,xls,zip,exe http://www.xxxxx.co.jp/   逆にいらないファイルを指定 

SSLかかってるところからとってくる

wget -r -l 0 -np -nc --no-check-certificate -R pdf,gif,jpg,swf,doc,xls,zip,exe https://www.xxxxx.co.jp/

ちょっと上級向け 

wgetはデフォルトでは、robot.txtの指定に従います。
従って、検索エンジンよけなどしてあるディレクトリ以下で取得できないファイルもあります。
これは、ホームディレクトリに .wgetrc ファイルを作成し、 robots = off を記述することで無視させることができます。 但し、明らかにマナー違反なので、そこそこにしましょう。当然サーバに負荷をかけますし、ipでどこから来ているかもわかります。

取得したファイルのリストを作る 

通常、取得したファイルからエクセルでリストを作ることになるでしょう。
Excellisterが便利かも。mac用ですが。

Comments