データダウンロードの豆知識

大量のデータをダウンロードするためのヒント (wget の使い方)

wget とは?

Wget はオープンソースソフトウエア(OSS)の強力な非対話式のネットワークダウンロードツールです。 http 上のドキュメントダウンロードに威力を発揮しますが、ftp でも使用可能です。 大量、かつ大容量のデータダウンロード時には、グラフィカルユーザインターフェイスを持たず、コマンドで、かつバックグラウンドで処理可能なツールが有効です。

wget の入手方法

  • UNIX/Linux の場合:

最近のPC-UNIX/Linuxをご利用の方はデフォルトで入っているはずです。 wget と打って反応がある場合には既に install 済みです。 そうでない場合でも、distributionで用意している場合が多いので、それを使われることをお勧めします。

  • Windows の場合:

Cygwin をinstallすると、 ほぼ同時にwgetもインストールされます。DOS窓用のwegtも上記wget本家の downloading wget [英文] で示されています。また “windows wget”とgoogle 等の検索エンジンで検索すると多くヒットしますので、 検索してみることをお勧めします。

コマンド例

以下のようなコマンドオプション(詳しくは man wget 等コマンドライン上で打つと 詳細な情報を得られます)で必要なデータを取得することが可能です。 ↓の例は NOAA/AVHRR データが収納されているサーバ ( ftp://avhrr.cr.chiba-u.ac.jp ) から 2007 年4月のNOAA18号のproductをゲットする方法です。 必要なデータセットに応じ、適宜読みかえてください。

$ wget -np -nH –cut-dir=2 –limit-rate=2M ftp://avhrr.cr.chiba-u.ac.jp/products/200704/n18*

ここで -np はそれより上のdirectory に行かない、-nH はヘッダ (ftp://avhrr.cr.chiba-u.ac.jp) 部分の directory を download する側では作らない、 –cut-dir=2 はカットする directory 数 (この場合は2なので、 /product/200704/ をdownload 側では作らない)、–limit-rate=2M は download の転送速度を指定する方法 (ここでは試しに 2Mbps としています)で、 最後のワイルドカード前で “n18” で NOAA-18 を指定しています。

wget の真髄はこれを shell の for 文等と組み合わせ、データ群をダウンロード -> データを処理(処理が終わったデータセットから削除) -> 次のデータ群をダウンロード、と自分のHDD容量を使いきらない方法で大量のデータ処理が可能となることです。shell の組み方はここでは記載しませんが、 是非 try してみてください。

千葉大学環境リモートセンシング研究センター
タイトルとURLをコピーしました