2021-03-15

レトリバと国立国語研究所の共同研究成果 「日本語話し言葉コーパス(CSJ)を用いた日本語話し言葉BERT」を公開
コールセンターの音声認識結果を使用した対話要約などの精度向上に貢献


株式会社レトリバ(本社:東京都新宿区、代表取締役 河原一哉、以下レトリバ)は、このたび大学共同利用機関法人人間文化研究機構国立国語研究所(以下国語研)との共同研究成果の「日本語話し言葉コーパス(Corpus of Spontaneous Japanese、以下CSJ) ※1 を用いた 日本語話し言葉BERT」※2を新たに公開します。

近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれる事前学習モデルが盛んに研究されています。
日本語では、WikipediaデータやSNSデータを事前学習に使用したBERTモデルなどが公開され、様々な日本語タスクで高い精度を報告しています。
しかしながら、発話の書き起こしといった話し言葉に注目したデータを用いて学習した日本語BERTは存在していませんでした。
そこで、発話の書き起こしデータであるCSJを用いて話し言葉BERTを作成しました。
この話し言葉 BERT は発話データに対して従来の BERT よりも高い表現能力を持つと考えられます。そのため、コールセンターを始めとした発話データが蓄積される現場において、機械学習を用いた自然言語処理タスクの精度向上が期待できます。

なお、3月15日~19日に開催される言語処理学会第27回年次大会(NLP2021)にて、「CSJを用いた日本語話し言葉BERTの作成」についての発表を実施予定です。※3 

本研究では単純にCSJ用いて事前学習するのではなく、Wikipediaデータで事前学習したモデルに対して、CSJを用いて追加で事前学習を行いました。
このCSJでの追加事前学習の時にいくつか工夫をすることで、CSJのデータから作成した検証タスクにおいて、Wikipediaで学習したBERTより高い精度を達成しました。
主な工夫点は次の2つです。

1. Wikipediaデータで学習されたBERTの文法を表現する部分のみをCSJで追加学習
2. Wikipediaデータで学習されたBERTに対して、書き起こしデータを用いた分野適応
前者を日本語話し言葉部分学習BERTとして、後者を日本語話し言葉分野適応BERTとして公開します。

話し言葉に注目したBERTモデルを公開することで、コールセンターなどの話し言葉に対する自然言語処理技術の発展に貢献し、さらに他の研究者からのフィードバックによる本共同研究の加速を図ります。

※1 国立国語研究所、情報通信研究機構 (旧通信総合研究所)、東京工業大学が共同開発した話し言葉データベース。https://pj.ninjal.ac.jp/corpus_center/csj/
※2 BERTは2018年10月にGoogleのJacob Devlinらの論文で発表、文章の「言語らしさ」を予測する「言語モデル」というAI技術。 言語らしさの予測とは、単語と単語、文章と文章の関係性、およびある単語の次にどの単語が続くべきかをAI技術で解析すること。また、汎用的に適用できる単語や文章の特徴を事前に学習することで、照会応答、文書検索、文書要約等様々なタスクに適用することができるとして、注目を集めている。
※3 詳細は言語処理学会第27回年次大会(NLP2021)3月17日(水) 9:50~11:20 リサーチャー勝又智、坂田大直による「CSJを用いた日本語話し言葉BERTの作成」でご確認いただけます。またRetrieva TECH BLOG「日本語話し言葉BERTを作成、公開します!」もご覧下さい。

■ご利用方法

作成した事前学習モデルをダウンロードしたい方はこちらのフォームに、必要事項をご記入の上、送信ください。 弊社担当者よりダウンロード方法についてご連絡させていただきます。

 

■国立国語研究所について

マーク+所名(小)

国立国語研究所は、国語に関する総合的研究機関として、1948年に誕生しました。
2009年10月には大学共同利用機関法人人間文化研究機構国立国語研究所となり、共同研究・共同利用を中心とした活動を展開しています。
ウェブサイト:https://www.ninjal.ac.jp/

会社情報
【株式会社レトリバについて】
株式会社レトリバは「AI技術でコトバの森を活用し、企業の生産性向上に貢献する」をミッションに、自然言語処理、機械学習、深層学習をコアテクノロジーとした検索・分類・抽出を行うソリューションを提供しております。
所在地:東京都新宿区西新宿2-1-1 新宿三井ビル36階
代表者:代表取締役 河原 一哉
資本金:1億円
事業内容:自然言語処理及び機械学習を用いたソフトウェアの研究・開発・販売・導入およびサポート
コーポレートサイト:https://retrieva.jp/

【本リリースに関するお問い合わせ先】
株式会社レトリバ
製品企画部 広報 市原
E-mail: pr@retrieva.jp