知識処理研究室 山梨大学 福本・李研究室

 


研究内容

  • 1. 知識獲得

  • A. 自然言語処理

     単語の形態や構文,意味などの情報は,計算機を用いたテキスト処理において必要不可欠な知識です. 私達は,これらの情報を人手で記述する代わりに,電子化された既存のテキストデータから機械学習や統計手法を用いて (半)自動的に抽出する研究を行っています。知識獲得に関する最近の研究には,以下の研究があります.

  • A.1. 対訳語の獲得

     電子化された二言語テキストデータ(コーパス)から"メダルを獲得する- earn medal"や"三振する-get strikeout"のような対訳語を自動的に獲得する研究です.

  • A.2. 分野依存語義の獲得

     本研究は,既存の辞書に記載された各語義が,どの分野で頻繁に使用されているかを自動的に推定する手法に関する研究です.

  • A.3. 未知語の意味推定

     本研究は,大規模新聞記事データから抽出した文の構造に関する統計情報を利用することにより,既存の辞書に記載されていない語義を辞書に追加する手法に関する研究です.

  • B. クラウドソーシング

    クラウドソーシングは,多数の非専門家を含む作業者により作成されたラベル,ペアワイズ,テキスト,非構造データなどの大規模データから価値ある情報を抽出したり,データそのものの質を向上するための研究です.データ競合や比較からのオブジェクトのランク付け手法,ペアワイズ競合の推定などの研究が含まれます.限られた予算の範囲内でのクラウドソーシングにより得られたデータの質を向上しつつ,大規模データを集積するためのコスト最適化に関する手法も含まれます.

  • C. ヒューマンコンピュテーション

    ヒューマンコンピュテーション,すなわち人間参加型による問題解決は,人間と計算機の協調作業により現実世界の複雑な問題を解決する研究です.例えば,インタラクティブな人間と計算機による機械学習を用いた高精度なモデル構築手法やクラウドベースに基づくデータクリーニング,クラウドベースのスキーママッチングなどの研究があります.

  • 2. 応用

  • A. 文書分類

     文書分類に関する研究は,機械学習が提案された90年代から教師あり学習を用いて分類する手法が主流となっています.さらに近年ビッグデータにも関心が寄せられ,それらのデータを高速・高精度で分類するための素性選択法や分野の階層構造を利用した分類法,あるいは機械学習法が提案されています. 文書分類に関する研究には,以下の研究があります.

  • A.1. 語彙の局所・大域的特徴量に基づく時間差適応学習を用いた文書の自動分類

     訓練文書とは作成時期が異なる未分類の文書を高精度で分類する研究に取り組んでいます.

  • A.2. ショートテキストの自動分類

     論文題目やツィート、レビューのような少ない語数から成る文書を分類する研究を行っています.

  • A.3. 階層構造の特徴に注目した巨大インターネットディレクトリィへのテキストの自動分類システムの開発

     Web検索サービスでは,ユーザが必要とする情報を効率良く検索するための手段として,ディレクトリィの階層構造を利用したカテゴリィ検索が提供されています.私達は,巨大なインターネットディレクトリィの階層構造の特徴に注目することにより,特に下位に位置する未分類の文書を高精度で分類する研究に取り組んでいます.

  • B. 文書要約

     文書要約は,計算機により文書の内容を端的に表現する処理をいいます. IoT時代といわれる今日において,要約技術はますますその必要性が高まっています. 私達は,多種多様なテキストデータを要約する研究に取り組んでいます.

  • C. 推奨
  • C.1. ユーザの嗜好を加味した宿泊施設の自動推奨

     過去にユーザが宿泊した施設のレビューデータから,ユーザの好みを自動的に推定した結果を用いて,ユーザにお奨めの宿泊施設を推奨する研究を行っています.

    C.2. 就職活動支援のための企業の自動推奨

     学生の就職において,最適なジョブマッチングを実現するために,企業と学生から得られる多種多様なデータを機械学習を用いて総合的に学習することにより,学生に対して企業を自動的に推奨するための就職支援システムを開発する研究を行っています.

  • D. 予測

     過去のデータを解析することにより,将来を予測する研究に取り組んでいます.予測に関する研究は以下の研究があります.

  • D.1. 研究開発力に基づく企業の将来性予測

     報道記事,特許取得数,論文公開数などの統計情報を用いることにより,企業の各事業分野における業務規模を予測する研究に取り組んでいます.

  • E. 情報検索

    検索対象となる膨大なデータを検索しやすい形式に表現する方法,ユーザが望む情報を高精度で抽出する検索モデル手法,抽出した複数の情報をランク付けする方法,得られた検索結果に対する評価手法などに関する研究を行っています.

  • F. 質問応答

    クラウドソーシングを利用して集積した大量の質問と回答のペアから,質問へ正しく回答するために必要な知識を抽出する研究,回答に用いる推論タイプの自動分類,質問とそれに関する内容のペアから質問への回答を作成する研究を行っています.