- トップページ
- 連鎖する災害の因果をテキストデータから読み解く
連鎖する災害の因果をテキストデータから読み解く
情報科学部 データサイエンス学科 坂平文博准教授
●「データサイエンス」とはどのような学問ですか?
数学と統計、機械学習、人工知能(AI)、コンピューターシミュレーションなどを用いて、データから新たな科学的および社会に有益な知見を引き出そうとする学問分野です。 私の研究室の名称である「計算社会科学」では、人間行動や社会現象を対象とする社会科学の問題に対して、ビッグデータと人工知能技術を用いてアプローチしています。計算社会科学という名称は「Computational Social Science」の訳で、文理が融合した領域です。IoTやSNSの普及に伴い、膨大なデータ(ビッグデータ)を生かした研究が盛んになっています。
●坂平研究室で取り組んでいるテーマを教えてください。
「エージェント・ベース・モデリング(ABM)やネットワーク分析を用いた人類学や考古学の研究」「機械学習や自然言語処理を用いた災害情報学の研究」「ABMを用いた経営組織論の研究」などに取り組んでいます。ABMとは、コンピューター上のエージェント(人やグループ)にそれぞれあらかじめ個別の行動のルールを与えて配置し、コンピューター上の仮想社会で行動させ、相互作用させて集団全体の振る舞いを再現することから社会現象の仕組みを探索するシミュレーション手法です。
●災害情報学の研究について詳しく教えてください。
災害事象がどのように連鎖していくのかについて、過去の新聞記事データを用いた因果ネットワークから明らかにしようと試みています。前職でデータ解析やシミュレーションを用いた意思決定支援のコンサルティング業務に携わり、官公庁向けに災害避難シミュレーションを用いた業務に従事したことがあります。災害に関する研究は多くの人の便益につながることにやりがいを感じ、今につながっています。
●災害事象の連鎖とは?
大規模災害時には災害事象が連鎖します。例えば、阪神・淡路大震災では、地震によって木造住宅が倒壊し、その結果、屋内の家電製品から火災が起こりました。火災が同時に多数起きたことから初期消火が困難になって延焼につながりました。 1つの災害事象をきっかけに次々と起きる災害事象は、ドミノ倒しのように一方向に広がるだけでなく、インフラ被害を経由することで多方面に被害が拡大することがあります(図1)。これを「カスケード効果」、そして、それが含まれる災害を「カスケード災害」と呼びます。カスケードとは、何段にも連なった滝という意味です。そして、1つの災害事象が原因となり、多方面に被害(結果)が拡大するポイントを「エスカレーションポイント」と呼んでいます。 「カスケード効果」・「カスケード災害」という言葉は日本ではなじみがありませんが、海外の研究者の間ではこれらの枠組みから大規模災害を評価しようとする機運が高まっており、学術雑誌で特集号が組まれるなど注目されているキーワードです。
●これまで災害連鎖については注目されていなかったのでしょうか?
従来から防災に携わる専門家らの手により、災害事象の連鎖はフローチャート形式の「災害連関図」として整理されてきました。しかし、専門家の知見や被災者の経験など個人の認知に依存しているため、網羅的・客観的とはいえませんでした。そこで、私は機械学習と自然言語処理を利用して、過去の新聞記事データから網羅的・定量的に災害事象とその因果を抽出して災害因果ネットワークを作成することにしました。この研究は、都市防災を専門とする東京大学先端科学技術研究センターの廣井悠教授と共同で取り組んでいます。
●新聞記事データをどのように活用したのでしょうか?
災害連鎖やカスケード効果は災害事象における複数の因果関係の積み重なりであるために、過去の大規模地震災害時における災害事象の1つ1つの因果関係を集めることにしました。そこで、新聞記事データを用いました。ただし、新聞記事データは膨大な量のテキストデータであるため、人間が新聞記事のテキストを読んで災害事象における1つ1つの因果関係の有無を判断することは大変な労力がかかります。そのため、機械学習を用いて災害事象における因果関係を自動的に判定することにしました。
●どんな手順で分析・解析を進めましたか?
機械に学習させるためのモデルを作成します。震災関連の新聞記事データの一部の文を人間が目を通して、それぞれの文に正解、つまり、因果関係が含まれているか、含まれていないかを判断します(アノテーションという)。更に、それを訓練データと検証データに分け、訓練データの方を機械に教えます。併せて訓練データの文については、自然言語処理を用いてどの部分に着目して因果関係の有無を判定するか(特徴量や素性という)についても教えます。
●例えば、何に着目するのですか?
大きく分けて2種類の方法を採用しています。1つは構文的素性といって、「を背景に」「のために」「に伴う」などの直接的な因果関係を表す「手がかり表現」や「サ変名詞+して」「サ変名詞+し」などの前後関係の中で因果関係を表す「継起表現」と、その直前にある「名詞」、「文節の修飾・被修飾の関係」や「助詞」などです。もう1つは意味的素性といって、各文に含まれる名詞の上位概念や、単語や文の意味を「ベクトル化(数百次元の数値に変換)」したものです。例えば、前者は、「小学校」や「大学」などの名詞がある場合、「学校」という上位概念を用いています。後者は、周辺にある単語の有無やその語順を元に単語や文の意味を「ベクトル」で表したものを用いています。 このように、構文的素性と意味的素性に着目して因果関係の有無を判定できる学習モデルを作成します。この学習モデルについて検証データを用いた評価後に、学習モデルの作成に使わなかった残りの因果関係が未判断の文に対して学習モデルを用いて、因果関係を判定させます(図2)。 このようにして集めた1つ1つの因果関係を元に作成した災害因果ネットワークの図が阪神・淡路大震災は(図3)、東日本大震災は(図4)となります。
(図2)震災関連記事データの一部を訓練データと検証データに分け、前者を使って学習モデルを作成した後、検証データを用いて学習モデルの評価を行い、残りの因果関係が未判断の文に対しては因果関係の有無を学習モデルに判定させる
(図3)阪神・淡路大震災の災害因果ネットワーク
(図4)東日本大震災の災害因果ネットワーク
●新聞記事データからの分析・解析で新たな発見はあったのでしょうか?
阪神・淡路大震災では、従来の災害連関図の中で「被災地の工場生産の停止」の原因とされているのは「ビルの倒壊」だけだったのですが、私たちの研究からは「ビルの倒壊」以外にも「停電」や「物流の混乱」もあったことが判明しました。このことから、複数の原因が絡み合った結果、工場生産の停止が長期間継続し、広域に影響を及ぼしたことが考察できました。 また、阪神・淡路大震災と東日本大震災の災害因果ネットワークの比較から、カスケード効果の違いを反映する特徴がみられました。災害事象ごとにその後に影響を与える災害事象の多さを評価してみたところ、大きな違いがあることが分かりました(表)。
●災害因果ネットワークは今後、どのように生かすことができますか?
災害事象がどのように連鎖するかを整理すると、将来の災害時に時間の経過により起きる災害事象を予測することが可能になり、防災や減災に役立ちます。現在、研究を更に進めており、時間や場所の情報も付与した分析・解析も試みています。特に、時間情報の付与により、同じ災害事象(原因)でも影響(結果)までの相対的な時間幅(リードタイム)が分かるようになると、災害時に対応する優先順位が判断できるようになります。今後は防災担当者が考える主観的な重要度なども加味して、より実践的な評価に生かしていきたいと考えています。