« ブログ投稿APIと認知度 | メイン | iTMS アフィリエイト Webサービス APIを希望 »
2005年08月04日
アクセス数という指標の曖昧さ
この三ヶ月、このサイトへのアクセス数はおかげさまで順調に倍程度増えている訳ですが、そんなことをチラッと人に話すと、「で、いくつなんだい」と数字を聞かれるんですよね。このいわゆるアクセス数、とんでもなく誤解される事が多くて以前から問題だと思っていました。
単に(あくまで例えば)月間9万アクセスがあります、というと、人によっては「ほう、9万人が読んでいるのかっ」と言われてしまうからです。知っている人は知っていると思うのですが、単純にアクセス数といっても何のアクセス数かどう解析したかによって数字はどうとでもなってしまいます。9万アクセスがあっても実は一人の特定の人間しかそのサイトを見ていないという事もありうるのです。
そういった知識のない方に単なる数字を話すのは、わざとうそをついているようであまり気分がよくありません。かといって数字を言わない理由を説明しようとすると、「これだからパソコンやってる奴は理屈だらけで...」と言われてしまい、とても凹みます...。単純に正直に話そうと思っているだけなんですが...。正直ものは馬鹿を見る...。
アクセス数といっても色々あります。(それに詳しい人はアクセス数とリクエスト数は違う、と言うかもしれませんし、ページビューというのもユニークIPとか色々あります)
ファイルへのアクセス(ヒット)数。
一ページのHTMLには場合によっては数十以上の画像やCSS、JavaScriptファイルが埋め込まれていて、一ページ読まれただけで、数十のアクセスが発生します。
フレームのページ。
フレームによってページを分割しているページ(これ自体アクセシビリティ最悪で非推奨だけど)の場合。例えば左、上、右に3分割している場合、一ページ読み込んだはずが、実は一度に4ページのアクセスがあるのです。
インターネット高速化・先読みツール。
こういったツールを利用すると、実際には読んでもないし読もうとも思っていないページにもアクセスが発生します。
ロボット・スパイダー。
よく更新されるサイトほど、検索エンジンのスパイダーが頻繁にチェックに来ます。最近では本当に様々な検索エンジンがありますし、同じ所から一日に何回もアクセスしてきます。これらは人が読んでいるのではなく、検索エンジンに反映させるために機械的にアクセスしているだけです。
スパマー。
ブログを設置していると、ブログのコメントやトラックバックに対する大量のスパム行為を受けます。実際ここでもかなり弾いています。(言及なしトラックバック弾くプラグインとか、コメント承認制とかで)。さらに、メールアドレスを収集するロボット等々。こういった英語・中国語等の意味のないスパマーからの機械的なアクセスも多いわけです。
RSSリーダー。
で最近顕著な問題となってきたのが、RSSリーダー。ほんの数ヶ月前まであるRSSリーダーで5分間隔でアクセスできるようなものもありました。という事は一人がRSSリーダーを10時間起動しているだけで、一日大量のアクセス(リクエスト)があることになります。そして、RSSで全文配信している場合、内容はしっかり読んでサイトには一度もアクセスしない事もあります。特に最近のRSS・Atomによる配信・購読という流れで、もう、一定数超えたら正確な訪問者数なんて計測するのは無理でしょ、見たいな気持ちです。
ちょうど、Webサイトのトラフィック計測基準,英国でRSS User-Agentsを削除という記事がありました。UAで弾くというものですが、世界中の無数にあるRSSリーダーをすべてリストアップするというのも中々大変そうです。
はてなアンテナやMyRSS等
通常のHTMLページの更新を見張るサービスも定期的にアクセスしてきます。
こういうのを見ても分かると思いますが、アクセスといっても色々なのが分かると思います。
実際、某広告営業の方がいらっしゃって話した時、「このサイトは10万アクセスがあって...ですから広告費は月20万です」と言われて見せられたのが、良くあるanalogのアウトプット。モロにファイルアクセス数....orz。つまり、仕事とかお金に関る所で単純にアクセス数、と言われた場合、鵜呑みにせず、アクセス数とはなんの事かしっかり質問して把握しましょうという事だったりします。
では一日に何人の人間がブラウザでサイト内のページを任意に読んだのか正確に知る方法はあるのでしょうか。結論から言うと通常、数学的な正確さでは不可能です。毎回パスワード入力させたりるか、会員制のサイトでは別ですけど。現状では、例えばすべてのページを動的生成にして、アクセスしてきたPCにクッキーを食わせて、かつアクセス元IPアドレス比較し、UAでロボットは除くようにして...というのがもっとも有望ですが、これもまったく正確とは言い難い。何しろGoogle等のキャッシュで読まれた場合、会社・学校等のプロキシ・NAT経由、クッキー無効、UA偽装...いくらでも補足しきれない要因があります。最近ブラウザーのセキュリティの向上で埋め込みビーコンも効かなくなってきているし。もちろん大規模サイトでは上記の併せ技を駆使して出来るだけ正確に近い数字を出しているところもあるでしょうが、普通のサイトでは難しいと思います。
と書いていて、我ながら、「これだからパソコンやってる奴は」と言われるのも分かる気がしてきました^^;。頭の中でif ..then .. else .. if .. if . select case ..case ... else...if...
もし、絶対確実な手法というのはなくても、アクセス数を計測する標準的なアルゴリズムというか手法が指針として確立されているならぜひ知りたいです(除くべきUAのリスト一覧とかも)。でなければ同じログ解析ツールを利用とかしないと、正確なアクセス数の他サイトとの比較などまったく意味をなさないです。
将来的にはアクセス数などだけではなく、RSS・Atomフィード購読者数やサイト内のパーマリンクに対する総ブックマーク数とかも一つの指標にしていけたらいいなと思うこの頃です。
追記:
Hits Files Pages Visits Sitesの違いについて、詳しい。やっぱり「ヒット数にだまされてはいけない!」「かなり曖昧」だそうです。
投稿者 BlogWrite担当 : 2005年08月04日 04:29
トラックバック
このエントリーのトラックバックURL:
http://www.witha.jp/b/mt-tb-hate-spam.cgi/307

