2010年3月11日 (木)

地味に仕事など。

カテゴリ: 未分類 — admin @ 15:41:06

地味に自宅作業。 この時期ひまに感じるのは錯覚に過ぎぬ。 やはりatokがないと仕事にならん。 steam をインストールしていて、自分用には最近は英語版をインストールするようにしているが、 英語版の選択肢が、星条旗に English と書かれてるのはさすがに違和感ある。 星条旗がイギリスの国旗みたいだからなのだが。

steam で assasin’s creed 2 を買うべきかどうか悩むが、 それよりも tomb raider: anniversary + legend + underground に last remnant がついて 37.39us$ なのがめちゃくちゃ気になる。 いわゆる weekend deals。 それから、bioshock 2。

2010年3月10日 (水)

くじらカツ

カテゴリ: 未分類 — admin @ 14:45:27

今日も生協でくじらカツ。 晴れてきた。

いきなりはまった。

カテゴリ: 未分類 — admin @ 01:23:16

最近の wikipedia はトヨタ自動車の大規模リコール 辺りが編集速い。

微妙に enbug してたので直す。 次の 20100306で反映されると思う。

超簡単プログラミング「MS Small Basic」が正式版で無料公開、サンデープログラミングにどうですか? よさげ。 カメを自由自在に動かそう。 turtle graphicsか。

新しい windows 7 マシンが結局は初期不良らしかった。 疲れ果てた。 microsoft の OS のせいではない。 某メーカーのせいだ。 fedora 12 も試してみたがインストール中にフリーズ。 最近立て続けに裏切られた。某バッテリーとか。 valve の steam が mac でも動くようになったと聞き、 発作的に mac ユーザになろうかと思ったくらいだ。 ましかしここはいったん冷静になって。 さてどうしてくれようか。 これからはきちんとした価格のきちんとしたサポート付きの国産しか買わないとかな。 あるいは大学生協お薦めのPCしか買わないとかな。 mac 買う金出せばだいたいまともなPCは買えるだろう。 あるいはもう自作PCしか使わないとかそっち方向行っちゃうとか。 ていうかデスクトップも mac mini 程度で良いと思っているのだよね。 静かだし、持ち運べるし。ファンレスだし。 だけど研究室くらいはどしっとデスクトップでも良いと思うのだよ。 夜中寝てうるさいとかいう状況はないわけだし。

ノートPCを hdmi 接続してデスクトップ風に使うのも良いかと思ったが、 アナログRGB接続した方がなぜかきれいに全画面表示できる。 ハードウェア的にスムージングかかってるからなんだろう。 そのへんもあまり釈然としないものはある。 よくわからんが、hdmi は 32型とかそれ以上のものには有効だが、 24型とかデスクトップ用のディスプレイでは美しくないということか。

portal 2 より half-life 2 episode 3 を出せよ(笑)。

2010年3月8日 (月)

やや。

カテゴリ: 未分類 — admin @ 10:40:11

もう3月8日か。 できる仕事は今のうちに。 gmail の迷惑メール判定間違いにはほんと困るわ。 結局 twitter はボット走らせるだけで自分じゃほとんど見ない状態に。 html5 ってすごいのかな。 canvas ?

粛々と仕事。 adobe clp で master collection cs4 を買い、 インストール方法がわからんので生協に聞きにいくと、 2月4日に adobe からお手紙が来ていたはずだといわれ、 調べてみたが見当たらないんでこれは gmail の迷惑メイルに落ちていたのが30日経って消えてしまったのだろう。 しょうがないので adobe のサイトをぐるぐる調べて回り、 lws (licence website だと。 lightwave sceneファイルみたいな名前だよなあ) にログインしてなんとかシリアル番号がわかった。 で、インストール。たぶんこれで合っているのだと思う。

microsoft office 2007 も3ライセンスまとめ買いしたのだが、 これもインストールメディアの中には communicator というソフトしか入っておらず、 communicator のサイトはメンテナンスのためにしばらく使えませんとかいわれて呆然とする。 しかし生協にいわれたとおりeopenから入りやったらなぜかうまくいった。 最初から生協に相談しておけばよかったわけだが。

新しく買った windows 7 マシンに 1.5TB の SATAを2台積む。 あわせて3TB これはすごい。 HDDの容量にだけは21世紀を感じざるを得ない。 だが、こいつを共有フォルダにしてよそのマシンからばんばんファイルを転送しているとなぜか pfn list corrupt とか bluescreeen エラーが出てしまう。 メモリ不良ではないらしく、 意味わからん。HDD増設したせいかもしれんが、 ファイル転送する以外のときは落ちないので、あれこれやるのもめんどくさいので、そのまま使うことにする。

学科のネットワークもリプレイス以来あまり安定しないのであれこれ。 はやくメンテナンスの仕事なんてやめたい。

生協食堂に「くじらカツ」があったので食べる。 231円。 捕鯨推進(笑)。 東大 にもある。 慶応 にもある。 東工大にもあるようだ。 大学生協GJ! 学食どっとこーぷ に詳細情報が。 3月からの新メニューのようだ。 よし、毎日くじらカツ食いに来るか(笑)。 特に仕事があるわけじゃないが。

2010年3月1日 (月)

もう三月だ。

カテゴリ: 未分類 — admin @ 01:11:30

四月の新年度に向けて粛々と仕事を片付けるのみ。 とりあえず gmail にスターを付ける(笑)。 最近あまり論文を書いてなくて困る。紀要はあるが・・・。

2010年2月28日 (日)

ログ統合

カテゴリ: wikipedia — admin @ 10:46:13

なんかデバッグにけっこう手間取ったのだが、やっとウィキペディア日本語版のログ分離された項目を現行項目と統合して解析できた。 つまりこないだ公開した紀要の「5.3 ログ落ち項目の対応について」はすでに解決済みということ。 ダンプは20100217のもの。

編集回数

  1. ONE PIECEの登場人物一覧 6553件
  2. 仮面ライダー電王 5509件
  3. クイズ!ヘキサゴンII 5066件
  4. 銀魂の登場人物一覧 4919件
  5. 仮面ライダーディケイド 4719件
  6. 銀魂 4491件
  7. BLEACH 4410件
  8. ONE PIECE 4315件
  9. コードギアス 反逆のルルーシュ 4111件
  10. 舞-乙HiME 4049件

上位10位まですべてアニメマンガバラエティ系ですどうもありがとうございました。 「ONE PIECE」圧倒的に強い。 「ほげほげの登場人物一覧」のほうが「ほげほげ」そのものよりも編集回数が多い、 という現象をどう説明すれば良いのか。

編集した登録ユーザ数

  1. 日本 643人
  2. 大韓民国 419人
  3. 日本の漫画家一覧 406人
  4. 麻生太郎 403人
  5. フジテレビジョン 402人
  6. 涼宮ハルヒシリーズ 381人
  7. 織田信長 373人
  8. 2ちゃんねる 372人
  9. トヨタ自動車 371人
  10. 第二次世界大戦 358人

登録ユーザはどちらかと言えばメインカルチャーに属する項目を編集したがる。 これも以前からわかっていたこと。 おそらく登録ユーザだからというよりは、編集「回数」ではなく編集「人数」で順位付けしたからだろう。 登録ユーザは個体識別ができるからこういう統計もできる(もちろん一人で複数のユーザ登録をしてたりボットユーザなどもいるわけだが)。 あれほど編集回数が多い「ONE PIECE」も全然上位には出てこない。 つまり、ごく一部のユーザが頻繁に細かく何度も編集している、ということがわかる。 「日本」「大韓民国」などは多くのユーザが少しずつ編集しているわけだ。 こちらは、編集に関与したユーザの総数の順であってそれぞれのユーザが何度編集したかは反映されてない。

実は、編集「回数」ではなく編集「人数」で順位付けした統計結果というのは、 うち以外ではほとんど見かけない、たぶん無い、と思う。 日本語版のログを統合したものもなおさら無いはず。

編集速度。 比較的最近流行っている項目が抽出される傾向があるが、 編集回数があまりにも多いと古いものでも上位に来ることがある。

  1. 仮面ライダーディケイド 347件/月
  2. ハイチ地震 (2010年) 244件/月
  3. 仮面ライダー×仮面ライダー W&ディケイド MOVIE大戦2010 235件/月
  4. 仮面ライダーW 210件/月
  5. イナズマイレブンの登場人物 173件/月
  6. 天装戦隊ゴセイジャー 163件/月
  7. 2009年新型インフルエンザの世界的流行 160件/月
  8. 侍戦隊シンケンジャー 153件/月
  9. 鳩山由紀夫内閣 146件/月
  10. 仮面ライダー電王 142件/月

しかし日本人はなぜそんなに戦隊ものや仮面ライダーなどの着ぐるみアクションドラマが好きなのだろうか。

尚美学園大学情報表現学科卒展

カテゴリ: 未分類 — admin @ 10:42:03

今年は10周年で池袋のメトロポリタンの芸術劇場でやるというので見にいった。 久しぶりの池袋でやや舞い上がる。

2010年2月26日 (金)

コウゲイ.net

カテゴリ: 未分類 — admin @ 02:12:52

コウゲイ.netって深夜の2:00~5:00は使えないのね。 知らなかった。 せっかくやる気出したのに(笑)。

どうも夜から早朝はデフォルトでなんだかんだで使えないようだ。

2010年2月25日 (木)

シラバス

カテゴリ: 未分類 — admin @ 10:07:48

そろそろシラバス終わらせないと。 いつのまにこんなに授業担当してたんだ(笑)。 学科名称変更でカリキュラム変わった。 担当科目も微妙に変わった。 結果的にシラバスもかなり変わった。

某学会誌編集。 某学会展図録編集。 結局論文書いたり学会誌編集したり文章書いたりするのが好きだからやってるんだろうな。

昨日は結局10:00から17:00まで新学科のメールサーバの設定の仕事だった。 新学期用にPCのメンテナンスもしなきゃ。 学科のスターターキットどうするのとか。 しかし昨日は暖かかったな。今日も暖かい。

2010年2月23日 (火)

紀要

カテゴリ: wikipedia — admin @ 23:18:18

ウィキペディアのデータベース解析と考察。 著者初稿校正も終わったので、 やや早いですが公開します。 長文注意(笑)。

今から見ると、推薦システムや協調フィルタリングに関する記述はかなりいい加減です。 先に謝っておきます。

何か特定の団体や思想を批判したつもりはないのですが、 そんなふうに読める箇所があったらこそっと指摘してください。

協調フィルタリング

カテゴリ: wikipedia — admin @ 20:22:08

紀要原稿初稿校正。 やばい18ページもある。 あと少しで20ページいっちゃうところだった。 若干書き過ぎた。

さて、推薦システムには「協調フィルタリング」と「コンテントに基づくフィルタリング」とそれらを両方ハイブリッドにした方法があるらしいのだが、 顧客情報からアイテムの類似性を求めるというのは「協調フィルタリング」の方だけなので、 「コンテントに基づくフィルタリング」についてはとりあえず無視して良い。 また、私がやってることは単にアイテムの類似度(のようなもの)を出しているだけなので、推薦システムとはやや違うのかもしれない。

アイテム間の類似度を計算するには、評価値がなくてはならないのだが、 そもそも今のところ評価値を利用してないので類似度も計算できない。 もしかすると私のやっていることは協調フィルタリングに似ているが実は違うことだったのかもしれない。 まあともかく私として必要なのは類似した既存の手法があるかどうかを調べることなので、 類似手法が存在しないというのであればそれはそれで良い。

アイテム間(まったく双対なのでユーザ間、と言っても良い)の類似度を計算するには、 相関係数 (Pearson correlation coefficient) を使う方法、 コサイン(アイテム間の角度)を使う方法、 平均自乗誤差を使う方法、などがあるらしい。 今から私がやろうとしていることとは、あまり今は詳しく書きたくないが、 あまり関係ない気がしてきた。

というか、あるユーザAがあるアイテムIを編集した量(バイト数)や編集回数などを、 ユーザAのアイテムIに対する評価(rating)とみなしても良いのであり、 そうすると上の相関係数やら類似度やらを導入した推薦システムを作ることができ、 それはそれで有意義なのかもしれんが、 私としてはそういうものをたぶん作りたいわけではないのだろうなと思う。 つまり、何かマニアックなやつが居て、大量または頻繁に編集したとしてそれが結果に対して重み付けになり偏った傾向が出るのが嫌。 wikipedia の場合、一部の人がしつこく編集したアイテムよりも、 たくさんの人が少しずつ編集したアイテムの方が私には価値が高いと思えるのだ。

また、通常の推薦システムの場合には、ユーザAに適切に推薦するにはAとよく似た趣味の別のユーザBをうまく見つけ出さなくてはならず、 それが最大の問題となる。 AがマニアックならばBもマニアックでなくてはならず、 Aが一般人ならばBも一般人でなくてはならない。 AとBとはratingや購買履歴、書評などありとあらゆる統計学的指標が近くなくてはならない。 だが、今やっていることはユーザどうしの類似性というのはあまり重要ではなく、 アイテムどうしがどのくらい似ているか、関連しているかということだけがわかれば良い。 そしてあまりユーザ一人一人の特異な傾向が結果に反映されても困る、 できれば平均してならした結果がほしいというわけだ。

だがまあそれはそれとして、ユーザ間の相関も計算してみて、ユーザのグループ分けもしたいと考えているところではあるから、 そのうち相関係数も導入するかもしれん。

推薦システム

カテゴリ: wikipedia — admin @ 15:47:11

結構仕事のメイルが来る。

学科のwikiのメインページのアクセス数が100万回を越えていた。けっこうすごい。

さて、少しお勉強したのでまとめておく。

K-PAXLife of BrianMementoNotorious
Alice4324
BobΦ455
Cindy224Φ
David3Φ52

ユーザ空間とアイテム空間というものがあり、上記のようなマトリクスができる。 上の例ではアイテムとは映画で、 K-PAX、Life of Brian、Memento、Notoriousという四つのアイテムがアイテム空間内にある。 ユーザはAlice、Bob、Cindy、Davidの四人居る。 マトリクスの要素は映画の良さの評価(rating)で、1から5までで点数が付けてある。 Φは評価が欠落している場所である。 推薦システムの問題というのは、ユーザ空間、アイテム空間ともに非常に大きくなり、 しかもマトリクスの中で評価が欠落している箇所(値がΦとなっている箇所)が圧倒的多数を占める、ということである。 このΦの値を推測するのが、要するに、今日非常に重要性を増してきた推薦システムの問題だというわけだ。

しかし、私がやっていること、やりたいことは実はΦをできるかぎり正確に外挿補完すること、ではないのだ。 あるアイテムに対してそれに類似するアイテム群を探し出せばそれで良い。 それは推薦システムの副産物として得られるものではあるが、Φを推定することではない。

google scholar

カテゴリ: wikipedia — admin @ 13:11:31

ちょっとヒマになって来たので、論文を読み始めた。 というか、推薦システム関係で少しネタを思いついたのだが、 今までやったのは「推薦システムをWikipediaに応用しました」というもので、 明らかにまだ誰もやってなさそうなネタだったので(いや、サーベイ次第では先行事例が出てこないとも限らないし、実際皆無でもないわけだが)、 そのまんま突っ走って来たのだが、 今度は推薦システム自体の拡張ということになるんで、 新しいことかどうかサーベイしてから進もうと思ったわけです。

で、あまり話題になってないのだが、 google scholar というものがあってこれが論文検索、特に無料でダウンロードできるPDF版の論文の検索にとても便利。 そりゃまあ、ACM とか IEEE に行けば PDF はいくらでも degital library においてあるが全部有料で、 最近学会はことごとくやめてしまったから落とせない。 たぶん大学の図書館経由だと落とせるんだろうが、すこし面倒。 というのでとりあえず google scholar は便利。

推薦システムなんだけど、普通は、顧客に推薦する商品の精度をどうやって向上させるか、 という方向に最適化がはかられる。 つまり、ログインしたある特定のユーザの購買履歴や閲覧履歴などから、そのユーザが何を求めているかを推定するわけだが、 ここではユーザAと、Aが好むとしれたアイテム群 I が与えられたとき、 Aが好むかもしれない未知のアイテム群 X を推測するという問題なわけである。

ユーザAが好むと知れたアイテム群 Iと、 ユーザBが好むと知れたアイテム群 Jがあったとき、 IとJがどのくらい類似しているかとか近いかなどといった計算をする。 類似しているかどうかというのはつまり類似度とか一致度、 近いかどうかはつまりは距離、 距離を定義しようとなると距離空間の話になる。 類似度が大きいと距離は小さくなり、距離が大きくなると類似度は減る。 まあだからどっちも似たようなものだが反比例のような関係にある。

それで、たとえばだが、 phpに similar_text と Levenshtein 関数があるように、 距離とか類似度というものはかなりいかようにも計算できるもので、 でてくる結果はかなり違ってくる。 距離とか距離空間というものはかなり恣意的に定義できちゃうもんなのだよね。 で最近の研究はどちらかといえば personalized recommendation system、 つまり顧客一人一人にカスタマイズ可能な、 或いは顧客の満足度を最適化し、収益をどうやって増やすかみたいな方向に行くわけだが、 当然 web commerce 的にはそっち行くのがあたりまえだが、 そこでは距離空間はどうあるべきかのような緻密な議論はあまりしないように思える。 wikipedia の編集者たちはどのような「文化・趣味・学問グループ」に分かれ属しているか、 記事はどのような「暗黙のカテゴリー」に分類されるか、 それらアイテムやユーザは距離空間の定義によってどのようにクラスタ分けできるのか、 特に日本のような細分化されたサブカルチャー群に対してどのような全体像を与えられるか、 などといったことにアルゴリズムを最適化しようという動きは、たぶんまだないのではなかろうか。

2010年2月21日 (日)

通常の背景色(というよりは、背景画像の画素の色)と文字を選択した時の色がほとんど同じで困ったので調べてみた。

文字を選択した時の色+文字選択時のコネタ。 すばらしい。 そのものずばり。

たぶん選択した時の色は背景色を反転させているだけ(或いはそれに近い見やすい色)なのだろう。 背景画像を使うときも、文字の前景色を反転させたような色で背景色指定しておけば良いだけだが、 背景色をいじれないときはcss3拡張などで対応すると。 まあ、wordpress のテーマ作成などではしばしば遭遇する問題だ罠。

無言死

カテゴリ: wikipedia — admin @ 09:55:07

またまたRubyスクリプトが無言死した。 何のwarningも残らない。 たぶん原因は調べてもわからない。

対処療法的には、他のプロセスとの干渉を防ぐためにできるだけサービスを止めて、 安静な状態にして、もう一度やってみるしかない。

古い »