Site Map: SNS Conferences/Workshops: Links: 著書
「数理論理学」
戸次大介著
東京大学出版会
定価(税込):¥3,150 (320頁)
第2刷正誤表
「日本語文法の形式理論
-活用体系・統語構造・意味合成-」
戸次大介著
くろしお出版, 日本語研究叢書24
定価(税込):¥4,410 (356頁)
研究プロジェクト

戸次研究室は、言語学、論理学、哲学、自然言語処理の融合分野である数理言語学を専門としており、同分野においてこれまで三つの革新的研究成果を挙げている。第一に、形式統語論の研究として、組み合わせ範疇文法(CCG)に基づく網羅的、形式的、統合的な日本語文法理論を構築したこと【38】、第二に、形式意味論の研究として、依存型理論に基づく合成的な証明論的談話意味論である「依存型意味論」の枠組みを新たに提案したこと【13】、第三に、自然言語処理の研究として、頑健なCCGパーザと高階論理に基づく自動推論を組み合わせた含意関係認識システム"ccg2lamda"を完成させたこと【3】である。これら三つの研究は全体として、記号列と意味がどのように対応しているかという理論言語学の問題、意味とは何かという言語哲学の問題、人間がどのような機構によって文から意味を理解するかという自然言語処理の問題に、統一的な回答を与えうる研究プログラムを提供する。

日本語や英語のような自然言語の統語論と意味論の研究、すなわち、記号列と意味を対応付けている機構の研究には、理論言語学と自然言語処理という二つの視点がある。前者は、チョムスキーに始まる生成文法、モンタギューに始まる形式意味論を代表とする「自然科学としての言語学」である。後者は、たとえば「人間の言葉を理解する人工知能の実現」のような計算機による自然言語の処理を目指す情報工学である。

理想的には、前者が提供する理論(もしくはその近似)が、後者の解決法を提供するべきである。しかし現実には、両者は1980年代後半から90年代半ばにかけて袂を分かった。自然言語処理の数理モデルは理論言語学が用いてきた形式言語理論・高階内包論理から大きく乖離し、統計モデル、ニューラルネットワーク等を用いた機械学習の手法が主流となった。近年では特に深層学習による言語処理が注目されているが、たとえば現在の日本語処理で理解できる「意味」の射程は、一般に抱かれる印象とは異なり、単文内における述語と名前の関係(述語項構造と呼ばれる)に限られている。それを越える「意味」については、いわば大雑把な推量を行うことしかできず、形式意味論が説明対象としてきたような様々な意味的関係(否定、モダリティ、テンス、条件文、照応、前提、慣習的含み等(†後述))を体系的に扱える見通しは今のところ得られていない【31】。

人間は、自然言語の文を与えられれば、その意味を理解し、意識することができるが、自らが文を理解する過程を意識しているわけではない。したがって「文を理解する」ということがそもそも何を意味するのかは、実は言語処理研究者にとっても自明ではない。この問題に、分析的な手法を提供するのが理論言語学なのである。

理論言語学の側では、自然言語処理と袂を分かってから現在に至るまで、いくつかの概念的進展があった。1) 形式統語論の理論的基盤:形式統語論と論理学の、特に証明論との間に豊かな関係性(Ono 1990)が発見され、チョムスキーの生成文法よりも言語の普遍的な制約を自然に捉えた枠組みである「範疇文法」の研究が進んだ。特に、組み合わせ範疇文法(Combinatory Categorial Grammar (CCG): Steedman 1996)の登場によって、生成文法と自然言語処理の共通の大問題であった等位接続構文の問題が解消した。2) 形式統語論の経験的基盤:生成文法におけるデータと検証手法の再解釈が行われ、内省による言語学を厳密科学として推進するための基盤が整った(Hoji 2015)。3) 依存型理論と証明支援系の登場:依存型理論(dependent type theory (DTT): Martin-L?f 1984)は構成的数学の基礎理論として知られていたが、その計算的性質の理解が進み、Coq等、依存型理論に基づく証明支援系/定理証明器が登場した。

このような背景を踏まえて、本研究は自然言語のシンタクスと意味の構造を解明する理論の構築を目標としつつ、それによって「人間の言葉を理解する人工知能」の実現を目指す。そのような理論は、(A) 統語論 (B) 意味論・語用論 (C) 実装、の三部門に分かれ、(A)(B)の理論は言語現象に対する網羅性、計算機に実装可能な高い形式性、計算的効率を併せ持つものでなければならない。

統語部門については、組み合わせ範疇文法と高階動的論理に基づく形式日本語文法を完成させ、2010年に書籍「日本語文法の形式理論-活用体系・統語構造・意味合成-」(くろしお出版)【38】として出版した。この理論は、「日本語の言語現象に対する網羅性」「計算機で扱うのに充分な形式的厳密性」「活用体系・統語構造・意味合成にわたる理論的統合性」を同時に満たす「日本語文法史において類を見ない研究」として評価されている。また組み合わせ範疇文法の理論的研究【27】【33】、組み合わせ範疇文法による日本語のかきまぜ現象の分析【4】、敬語の分析【11】等の研究も行っている。

意味計算部門については、依存型理論を用いた談話意味論である依存型意味論(Dependent Type Semantics: DTS)を2014年に発表した【13】。また、DTSの理論を理解するのに必要な背景知識を学べる教科書として、2012年に教科書「数理論理学」(東京大学出版会)を出版している【31】。DTSは言語学において主流である(タルスキ、ディヴィッドソン、モンタギュー由来の)モデル理論的意味論とは異なり(ゲンツェン、プラヴィッツ、ダメット由来の)証明論的意味論に基づく意味の理論である。特に「照応解決・前提束縛」の現象は、一階述語論理では表現できないことが知られているが、DTSはこれを関数型プログラミングで発展した一般的な手法(型検査・型推論)を用いて計算できる点が特長である【5】。またDTSは(†)で挙げたような、自然言語の意味現象の全体を記述することが可能な理論であり、これまで、一階述語論理では表現できない量化である「一般化量化子」【14】、モダリティを伴う照応・前提【10】、叙実述語【6】、照応解決の難題である「橋渡し推論」【7】、「コアーション」【22】等の現象の分析において成果を挙げている。またDTS以外の意味論的枠組みについても、圏論的意味論【12】【15】、限定継続【2】【17】(PPL2014最優秀発表賞受賞)【37】等の研究を行っている。

語用論計算部門についても、たとえば「慣習的含み」は含意・前提とは異なる推論パターンを示す現象であるが、証明論的意味論の観点からの分析によって、先行研究が未解決であった意味合成の問題を解決できることを示した【9】。これは我々が研究分担者をつとめた科学研究費補助金基盤研究(C) "Computational semantics and pragmatics of politeness phenomena"(研究代表者:Eric McCready教授)の成果である。

実装部門については、自然言語の複数の文に対して、頑健なCCGパーザの出力から形式意味論に基づいて高階論理表示の意味合成を行い、定理証明器Coqによる自動推論を行う推論システム"ccg2lambda"を構築した【3】。これは、主たる共同研究者を務める「知識に基づく構造的言語処理の確立と知識インフラの構築」プロジェクト(平成25年度-30年度, 研究代表者:黒橋禎夫教授,戦略的創造研究推進事業(CREST)「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」領域)の成果であり、お茶の水女子大学戸次研究室のメンバーとの共同研究である(右記URLで公開:https://github.com/mynlp/ccg2lambda)。検証はFraCaSテストセット(Cooper et al. 1996)によって行い、一階述語論理に基づく最先端の推論システム(Nutcracker, Bos et al.2008)の正解率50%に対して、69%の正解率を達成した。また、これまで高階論理による推論は効率的ではないと考えられてきたが、本研究では機能語に対する80個の語彙項目、内容語に対する57個の語彙テンプレート、および(一般化量化子や内包性を含む)高階の公理群を用いて、Natcrackerの速度11.23秒/問に対して速度3.72秒/問を達成した。