Steeler について

$Date:: 2011-05-02 #$
(In English)

Steeler とは

Steeler 東京大学 喜連川研究室 で運用している Web クローラ (ロボット), すなわち自動的に Web 上のページを渡り歩くソフトウェアです. Web サイトのアクセスログに,

        Mozilla/5.0 (compatible; Steeler/3.5; http://www.tkl.iis.u-tokyo.ac.jp/~crawler/)
のような文字列が含まれるか, アクセス元の IP アドレスが,
157.82.156.129 - 157.82.156.254
の範囲にある場合, Steeler によるアクセスであることを示しています.

当研究室では Web 上に公開された文書を可能な範囲で収集し, 様々な社会現象の分析に活用することを目的としています. もし, Steeler のアクセスがサイト運営に支障を来すようでしたら, 下記の方法で ロボット除け の設定をして頂くか, 当方までご連絡 下さい. ご協力よろしくお願いします.

注: あなたが Web サーバの設定や HTML ファイル (テンプレート) をカスタマイズできない場合 (例えば, ブログサービス等を利用されている場合), 以下の説明はほとんど役に立ちません. このような場合, 当方へのご連絡 と合わせ, サービス事業者にご相談頂くこともご検討下さい. 利用者の方に提供されるアクセスログの集計方法等, 技術的な詳細は事業者にしか分からないためです.

「クローラお断り」の意思表示

サイト管理者やページ作者がクロールを防ぐ (制御する) 手段として ロボット除け規約 が定着しています. その設定方法には以下の2通りの方法があります.

  1. robots.txt ファイル
  2. あなたがサイト管理者で, 必要な権限を持っているなら, クローラへの指示を記述した /robots.txt というファイルをサイトのトップに 置いて下さい (http://www.your-site.com/robots.txt など). 例えば, 以下の記述は Steeler があなたのサイトからダウンロードするのを 全面的に 禁止します.

            User-agent: Steeler
            Disallow: /
    

    Disallow にはパス名の先頭部分 (プレフィックス) の他, ワイルドカード "*" や パス末尾を表す "$" を使うことができます. 例えば, 以下の記述は /images ディレクトリ以下のコンテンツとともに, 拡張子 .gif を持つコンテンツをアクセス禁止にします.

            User-agent: Steeler
            Disallow: /images/
            Disallow: *.gif$
    

    アクセスの頻度が問題になる場合, Crawl-delay を指定して下さい. 例えば, 以下の記述はサイトへのアクセスの間隔を 少なくとも 30 秒空けるよう指示します.

            User-agent: Steeler
            Crawl-delay: 30.0
    

  3. Robots メタタグ
  4. あなたが HTML (テンプレート) のソースを編集できるなら, robots メタタグ を利用することもできます. HTML 文書のヘッダに

            <META NAME="robots" CONTENT="noindex,nofollow">
    
    という行を記述すると, Steeler はその文書からのリンクを たどらなくなります.

注: Steeler が参照している ロボット除け規約 は, 2008年頃から大手サーチエンジンが採用しているものであり, 1990年代に提案された オリジナルの規約 に拡張が加えられたものです.

Steeler の挙動について

当方へのご連絡

ご質問やご要望は crawler (at) tkl.iis.u-tokyo.ac.jp ("(at)" は @ を表します) まで email でお寄せ下さい. その際は当方で確実に対処できるよう, あなたのサイトのホスト名 (別名も含め) や IP アドレスを 明記して下さるようお願いします.