AI等を駆使し、価値ある自然言語テキストを適切に抽出・活用する方法を詳しく解説
本シリーズ第4巻に位置付けられる書。社会の中で日々蓄積されていく電子データの多くは自然言語で書かれたテキストであり、情報社会の伝達手段や知識源として使われている。
これらの情報をデータベースとして整理・構造化し、活用するには、拡散した情報を適切に抽出し関係づける必要がある。このプロセスを(半)自動化する技術が「情報抽出」である。
その際、各分野固有の自然言語表現をいかに的確にとらえて関係づけるかが重要となる。
本書では、固有表現抽出技術と,固有表現間の関係を抽出する関係抽出技術に焦点を当て、機械学習などを駆使して「情報抽出器」を作るための解説を行う。