トップ «前の日記(2006-05-23) 最新 次の日記(2006-05-25)» 編集

豊田正史のSLとは関係ございません


2006-05-24

_ [WWW2006] 本会議1日目

今日から本会議。オープニングではSir Tim Berners-Lee他3名がパネル討論でセマンティックセマンティックとおっしゃっていた。参加したセッションは、Fighting Search SpamBrowsersWeb Mining。Web Miningセッションでは自分の論文発表。反省点多し。以下、後で読もうと思っている論文と、私の論文の紹介。

Topical TrustRank: Using Topicality to Combat Web Spam

PageRankをTopic Sensitive PageRankにしたように、TrustRankをTopicalTrustRankにした。のか?良くわからなかったので後で読む。

Detecting Spam Web Pages through Content Analysis

ページコンテンツの特徴だけでスパムを識別できるかトライ。タイトルがめちゃくちゃ長いとか、アンカーテキストの量が多いとか、内容の重複が激しいとか、いろいろなスパムっぽさの特徴量を取り出して、人手で作った正解セットで学習して分類器を作成。そこそこうまくいっているようだ。

Finding Advertising Keywords on Web Pages

マイクロソフトリサーチの発表。アドセンスのような広告システムを実現する際には、看板を置くページに適切な広告を選ぶ必要がある。そのために、看板を置くページからターゲットキーワードをどうやって抽出するかというお話。関連研究の紹介で「この人とこの人はリッチになった」などとやけに生々しい事を言っていたのが印象的ではあった。

What's Really New on the Web? Identifying New Pages from a Series of Unstable Web Snapshots

すみません、私のです。ウェブの変化は実世界の変化に連動する傾向を強めており、ウェブの進化データは社会学やマーケティングの観点から重要な情報源になりつつある。定期的にウェブを大規模収集することでウェブの進化を観察することができる。しかし、毎回すべてのページを収集しつくすことは不可能なため、新規に収集したページが本当に新しいとは限らない。たまたま前に収集されていなかっただけかもしれない。こういった不安定なアーカイブからでも、リンク解析を用いて確実に新しいと思われるページを取り出せる手法を提案した。

_ [WWW2006] レセプションと晩御飯

レセプションはエジンバラ城で立食形式。お酒と簡単なつまみが出た。小さなポテトにハギスと何かがのったものとか、鳥串とか。かなり貧弱な感じだったので、さっさと抜けて松尾さん大向さんらとお城の近くのTHAI ORCHIDというタイ料理レストランでトムヤムクンとカレーを食す。ちょっと量が多めだったがなかなか旨い。やはりイギリスはタイ料理だな。

本日のツッコミ(全3件) [ツッコミを入れる]
_ あずま (2006-05-30 15:42)

豊田のやつをスキミングいたした。畑違いなので内容にはコメントしようがないのだが、がんばって豊田もリッチになるとよいね。で、いつ戻ってくるのかな。<br><br>ちなみに検索語の例で「プリウス」を見つけたが、日本語と違って英語つづりPriusのPには母音が無いため強勢がプに来ることはない。強勢のつきどころはiuしか無いので、イギリスでもプリーゥスみたいに読まれてると思うが如何?

_ とよだ (2006-05-30 16:18)

もう戻ってきてるよ。この日記は1週間遅れくらいですな。<br>ところで、流し読みのことをスキミングというのか。知らなかった。しかしいくらなんでもリッチになりそうなネタでないのはわかるでしょうに。<br>プリウスを向こうの人がどう発音するのかはちょっとわからんかったです。

_ あずま (2006-05-30 20:30)

カタカナでスキミングと言うと磁気カードデータを盗むことを言うのか。<br><br>いわれてみればそういうニュースを観たことがある気がする。ついでにちなみにnewsの読みはニューズだよな。最初に「ニュース」と言った人は罪作りだ。


README日記の書き方