ゲムステ
ID:PASSWORD:?
中大特大

注目のニュース

頻出キーワード(1h)

-1アップデート5pt
-2...4pt
-3からの3pt
-4Chapter.53pt
-5による3pt
-6PlayStation3pt
-7CEDEC2pt
-8レポート2pt
-9ディレクター2pt
10アドバイス2pt

記事を探す

データ

所要時間0.3892 sec.
更新時間2010/09/04 15:28
エラーNone
全記事数60207 page
全容量262144 KByte
LoadAverage m

機械的な蒐集

本サービスは、速報性を求めるために数多くのニュースサイトを不定期に、蒐集ロボットをクロールさせています。

ニュースを掲載する判断はすべて機械的に判断し、さらに関連ニュースをも機械的にまとめ上げます。また、カテゴリーを決定するカテゴライズもニュースに含まれる単語より判別し行います。

このように、一切人の手を介さずに記事の掲載を行うので、稀に全く無関係な記事をチョイスしてしまったり、カテゴライズがうまくいかないことが見られます。

よって当サイトでは、随時蒐集ロボットの改善を行っていますが、稀に無関係な記事を蒐集してしまうことをご了承ください。

プログラムについて

蒐集ロボットなどは独自開発を行っています。それぞれのニュースサイトのトラフィック影響などを考え、一度蒐集を行ったサイトにはしばらくアクセスを行いません。また、複数台のプログラムで運用しています。

現在は日本語の形態素解析にはKAKASIを利用しています。将来的にMeCabを採用し、精度の高いカテゴライズ、頻出単語の抽出を目指そうと考えています。

また、ニュースのログはデータベース(MySQL)で一括整理しています。これにより、過去のニュースをも高速かつ正確に見つけ出すことが可能となりました。

カテゴライズについて

先述したとおり、本システムはすべて機械的に行っているものです。よって、随時カテゴライズを行っているアルゴリズムを最適化する必要があります。

GCrawler v2以降では、頻出単語によるなんちゃって学習機能を備えましたが、こちらの機能も完全とはいえません。

以下では、カテゴライズを最適化すると共に、どのようなキーで分類されているのかを提示します。なお、「発売」などの曖昧なキーでは正確な分類が不可能と判断し、そのようなキーは複数のカテゴリーを評価するものとします。

なお、「海外」「その他」は別の条件によって分類されます。

連想キーの追加や修正、スコアの微調整など随時修正していく所存でありますので、ご協力いただける場合はお問い合わせからご連絡ください。

トップページゲームニュース速報機械的な蒐集
Game:198 Access:3,812,937 Today:43 Now:19 ゲムステについて プライバシーポリシー お問い合わせ