[Java] Real-Time Topic Modeling of Microblogs

原文はこちら。
https://blogs.oracle.com/java/entry/real_time_topic_modeling_of

新しい記事がOTNのJavaページにUpされています。この記事のタイトルは“Real-Time Topic Modeling of Microblogs”で、インドのバンガロールにあるInfosys Limited Labs在籍のYogesh TewariとRajesh Kawadによるものです。この記事の中で、彼らが作った「アプリケーションに特有のマイクロブログやTweetの継続的なストリームからリアルタイムでトピックの抽出への挑戦」を探索しています。シンプルなTweetのテキストから、アプリケーションはTweetで説明された関連トピックを正確に提示し、Tweetのストリームから生成されたトピックに関するリアルタイム・タイムラインを提供するように設計されています。

彼らは、これがシンプルなタスクではないと説明しています。その理由はTweetが「言語資料と見なされており、最大140文字しかなく、第2にその簡潔さを考慮すれば、Tweetは有用な情報を提供しない可能性があったり、『スマイリー』や短縮URLのような様々なテキスト形式を含んだりする可能性があること、最後に、Tweetはリアルタイムに生成されるため」です。

YogeshとRajeshはLDA(latent Dirichlet allocation)をトピックモデルTweetに適用し、LDAの実装としてMachine Learning for Language Toolkit (MALLET) APIを使っています。これらは全てJava環境で動作します。LDAの実装はMALLET APIにカプセル化されており、ここでコマンドラインベースのJavaツールとして機能します。

彼らは以下のように言っています。
「我々の目標は、リアルタイムで必要な入力で呼び出すメソッドを持つ、LDAのロジックを実行する実際のJavaクラスです。Stormは、Javaで実装されたフリーでオープンソースの分散リアルタイム計算エンジンで、今回はこれを利用しました。これを分散モードで実行しています。Stormは非常にスケーラブルで、着信Tweetストリームを簡単に処理できます。Twitter4Jを使ってTweetを流しています。Tweetには有効なTwitterの認証が必要です。それゆえ、我々のタスクは、Tweetのストリームを取り込み、トピックのタイムラインを出力するトポロジーを設計することです。」
是非OTNの記事をご覧下さい。
Real-Time Topic Modeling of Microblogs (by Yogesh Tewari and Rajesh Kawad)
http://www.oracle.com/technetwork/articles/java/micro-1925135.html

0 件のコメント:

コメントを投稿