自然言語処理研究室 山梨大学 福本研究室

 


研究内容

  • 1. 知識獲得

     単語の形態や構文,意味などの情報は,計算機を用いたテキスト処理において必要不可欠な知識です. 私達は,これらの情報を人手で記述する代わりに,電子化された既存のテキストデータから機械学習や統計手法を用いて (半)自動的に抽出する研究を行っています。知識獲得に関する最近の研究には,以下の研究があります.

  • 対訳語の獲得

     電子化された二言語テキストデータ(コーパス)から"メダルを獲得する- earn medal"や"三振する-get strikeout"のような対訳語を自動的に獲得する研究です.

  • 分野依存語義の獲得

     本研究は,既存の辞書に記載された各語義が,どの分野で頻繁に使用されているかを自動的に推定する手法に関する研究です.

  • 未知語の意味推定

     本研究は,大規模新聞記事データから抽出した文の構造に関する統計情報を利用することにより,既存の辞書に記載されていない語義を辞書に追加する手法に関する研究です.

  • 2. 文書分類

     文書分類に関する研究は,機械学習が提案された90年代から教師あり学習を用いて分類する手法が主流となっています.さらに近年ビッグデータにも関心が寄せられ,それらのデータを高速・高精度で分類するための素性選択法や分野の階層構造を利用した分類法,あるいは機械学習法が提案されています. 文書分類に関する研究には,以下の研究があります.

  • 語彙の局所・大域的特徴量に基づく時間差適応学習を用いた文書の自動分類

     訓練文書とは作成時期が異なる未分類の文書を高精度で分類する研究に取り組んでいます.

  • ショートテキストの自動分類

     論文題目やツィート、レビューのような少ない語数から成る文書を分類する研究を行っています.

  • 階層構造の特徴に注目した巨大インターネットディレクトリィへのテキストの自動分類システムの開発

     Web検索サービスでは,ユーザが必要とする情報を効率良く検索するための手段として,ディレクトリィの階層構造を利用したカテゴリィ検索が提供されています.私達は,巨大なインターネットディレクトリィの階層構造の特徴に注目することにより,特に下位に位置する未分類の文書を高精度で分類する研究に取り組んでいます.

  • 3. 文書要約

     文書要約は,計算機により文書の内容を端的に表現する処理をいいます. IoT時代といわれる今日において,要約技術はますますその必要性が高まっています. 私達は,多種多様なテキストデータを要約する研究に取り組んでいます.

  • 4. 推奨

  • 生活習慣病改善のための食事メニュー推奨

     生活習慣病は,現代社会における深刻な病であり,予備群を含めると4人に1人が該当すると言われています.生活習慣病は,継続的な食生活の改善が重要です.しかし生活習慣病の予備群は,体の不調が生じるまで自分が予備群であることに気づかないため,日々の多忙な生活の中で食を見直す機会は多くありません.これらの問題を解決するためには,誰もが手軽に食生活を見直すことができるユビキタスシステムの構築が必要となります. 私達は,利用者の主体性・持続性を促すことで生活習慣病の改善・治癒へと導くための献立メニューを作成・提示するシステムを開発する研究に取り組んでいます.

  • ユーザの嗜好を加味した宿泊施設の自動推奨

     過去にユーザが宿泊した施設のレビューデータから,ユーザの好みを自動的に推定した結果を用いて,ユーザにお奨めの宿泊施設を推奨する研究を行っています.

  • 就職活動支援のための企業の自動推奨

     学生の就職において,最適なジョブマッチングを実現するために,企業と学生から得られる多種多様なデータを機械学習を用いて総合的に学習することにより,学生に対して企業を自動的に推奨するための就職支援システムを開発する研究を行っています.

  • 5. 予測

     過去のデータを解析することにより,将来を予測する研究に取り組んでいます.予測に関する研究は以下の研究があります.

  • 研究開発力に基づく企業の将来性予測

     報道記事,特許取得数,論文公開数などの統計情報を用いることにより,企業の各事業分野における業務規模を予測する研究に取り組んでいます.