| -1 | アップデート | 5pt |
|---|---|---|
| -2 | ... | 4pt |
| -3 | からの | 3pt |
| -4 | Chapter.5 | 3pt |
| -5 | による | 3pt |
| -6 | PlayStation | 3pt |
| -7 | CEDEC | 2pt |
| -8 | レポート | 2pt |
| -9 | ディレクター | 2pt |
| 10 | アドバイス | 2pt |
| 所要時間 | 0.3892 sec. |
| 更新時間 | 2010/09/04 15:28 |
| エラー | None |
| 全記事数 | 60207 page |
| 全容量 | 262144 KByte |
| LoadAverage | m |
本サービスは、速報性を求めるために数多くのニュースサイトを不定期に、蒐集ロボットをクロールさせています。
ニュースを掲載する判断はすべて機械的に判断し、さらに関連ニュースをも機械的にまとめ上げます。また、カテゴリーを決定するカテゴライズもニュースに含まれる単語より判別し行います。
このように、一切人の手を介さずに記事の掲載を行うので、稀に全く無関係な記事をチョイスしてしまったり、カテゴライズがうまくいかないことが見られます。
よって当サイトでは、随時蒐集ロボットの改善を行っていますが、稀に無関係な記事を蒐集してしまうことをご了承ください。
蒐集ロボットなどは独自開発を行っています。それぞれのニュースサイトのトラフィック影響などを考え、一度蒐集を行ったサイトにはしばらくアクセスを行いません。また、複数台のプログラムで運用しています。
現在は日本語の形態素解析にはKAKASIを利用しています。将来的にMeCabを採用し、精度の高いカテゴライズ、頻出単語の抽出を目指そうと考えています。
また、ニュースのログはデータベース(MySQL)で一括整理しています。これにより、過去のニュースをも高速かつ正確に見つけ出すことが可能となりました。
先述したとおり、本システムはすべて機械的に行っているものです。よって、随時カテゴライズを行っているアルゴリズムを最適化する必要があります。
GCrawler v2以降では、頻出単語によるなんちゃって学習機能を備えましたが、こちらの機能も完全とはいえません。
以下では、カテゴライズを最適化すると共に、どのようなキーで分類されているのかを提示します。なお、「発売」などの曖昧なキーでは正確な分類が不可能と判断し、そのようなキーは複数のカテゴリーを評価するものとします。
なお、「海外」「その他」は別の条件によって分類されます。
連想キーの追加や修正、スコアの微調整など随時修正していく所存でありますので、ご協力いただける場合はお問い合わせからご連絡ください。