MSRAの思い出

Microsoft Research Internship アルムナイ Advent Calendar 2020 9日目の記事です。僕は2016年夏、京都大学の修士課程2回生のときに北京のマイクロソフトリサーチ (MSRA) でインターンをしました。

以前マイクロソフトのブログに寄稿した短めの文章はこちら: MSR Intern Beijing(経験者)のご紹介(第57回)

自己紹介

大谷直樹と言います。Carnegie Mellon University, Language Technologies Instituteの博士課程に在学中で、自然言語処理が専門です。自然言語処理はコンピュータを使って人間の言葉 (=自然言語) を処理する技術の総称で、代表的な応用にGoogle翻訳のような機械翻訳やAlexaのような対話システムがあります。僕は人間が言葉を理解するために用いる暗黙的な知識に興味を持って研究しています。留学生活についてはお世話になっている船井情報科学振興財団の報告書に書いています。よかったらどうぞ。

昔から中華料理が好きで、次に中国語の音楽にハマり、中国語がちょっと話せます。妻は中国人です。

MSRAとは

Microsoft Research Asia (MSRA) は中国北京にある研究所で、MSのアジアでの最大の研究所です。市内の北西、中关村というIT企業が密集している地区にあって、近くには名門大学が多く集まっています。社屋は十数階建てのビル2つで、そのうち片方の数フロアが研究所に当てられています。

学生のインターンはたぶん100人以上いたと思います。ほとんどが大陸・香港・台湾の大学から来ていました。研究所フロアは研究員よりも圧倒的に学生のほうが多いので、大学のような雰囲気になっていました。

MSRAのNatural Language Computing (NLC) グループは自然言語処理の分野で世界をリードしています。特に強いのは質問応答、対話 (特に雑談系)、機械翻訳で、チャットボット「りんな」のベースである「小冰 (XiaoIce)」周辺の研究開発を行っていることで有名です。当時NLCグループには研究員が10人いて、それぞれが1~3人のインターンの面倒を見ている大規模なチームでした。

MSRAに行くまで

僕の当時のスペック (アプリケーション前/インターン前)

  • 国際会議 (査読あり): ショートペーパー1本 (ICDM 2015) / +ロングペーパー1本 (EMNLP 2016)
  • 国内会議 (査読なし): 1本 (人工知能学会全国大会 2015) / +1本 (言語処理学会年次大会 2016)
  • 英語: (TOEFL iBT) 88 / 98 [R:L:S:W=29:24:24:21] (この一年半前に受けたTOEICは910点だった気がする)
  • 中国語: HSK6級 – 学習歴5年くらい。旅行は問題なく、ちょっと日常会話できるレベル。

修士に入る頃から (大して英語が好きでもないのに) 漠然とアメリカへの博士留学に興味を持っていて、海外で研究活動をしてみたいと思っていました。特によく論文で目にするMSRAでのインターンに惹かれ、それを恥ずかしげもなく周りに漏らしていたところ、僕の卒論と初めての英語論文を助けてくださった馬場先生 (現在筑波大学) に2015年12月に開かれたMSRのAlumniイベントに招待していただき、そこでお話した阪大の荒瀬先生と当時MSRAアウトリーチ公野さんに背中を押していただく格好でCVと2段落程度のカバーレターを2015年1月末に送りました。資料は指導教員の黒橋先生とMSRAインターン経験者で現在富士通の森田さんにチェックしてもらいました。※僕は修士学生かつ1月末のアプライでしたが、数年前から通年の募集ではなくなり、基本的に博士課程の学生のみが対象になったそうです。

その後すぐにMSRAの研究者から連絡が届き、次の週にSkypeでインタビューをしてもらいました。インタビュー中ではこれまで行った研究を紹介したのに加えて、簡単な研究課題の解き方を口頭で答えたりもしました。(XXというリソースを使って、YYという処理をして、ZZというアルゴリズムを使うみたいな感じ。) 2週間後くらいにMSRAの人事からメールが届き、2016年夏にインターンを行うことが決まりました。

その後は自分のメインの研究プロジェクトの片手間にビザの申請や研究トピックの文献調査などをして過ごしました。5月にTOEFLの試験を受けて自分の英語力の低さに気づき、慌ててDMM英会話でオンラインレッスンを受けはじめました。出発前日までの2か月くらい、毎日30分。多少は口が鍛えられてよかったと思います。

MSRAでの研究

インターン中の仕事は結局論文や特許として世に出ることがなかったので詳しく話せませんが、ざっくり言うとりんなの発言をより人間っぽくする技術の改善に取り組みました。非日本語環境で研究するという当初の目的は痛いほど果たせました。が、実力不足だった感は否めません。もう一度行きたい…。

メンターはWei Wu (現在、美团に所属) という人で、若くて面倒見がいいお兄さんという感じでした。今でも旧正月のときとかにメールしています。グループのリーダーのMing Zhou (通称周老师) には滞在中にもいろいろ声をかけてもらって、インターン終了間際には忙しいスケジュールの合間を縫ってWeiと (+石渡くん+彼のメンター) と一緒に送別会をしてくれました。

Weiとは数日に一回対面でディスカッションをしたり、「3時のおやつタイム」 (リフレッシュメントコーナーに果物が出される) に会ったときに進捗を相談したりしました。Weiは当時品川オフィスと協力してりんなの研究開発も行っていたので、彼のチームの中国人学生に日本語の処理方法を教えたりもしました。

冒頭のアウトリーチブログのほうには書きませんでしたが、MSRAのインターン生は何だか全体的にギラギラしていて、競争するように研究していました。グループミーティングでも個々の言語現象よりはベンチマークでの精度がどうだとかいうディスカッションのほうが多かったです (スライドも表が多め)。近くの席のインターン生が割とキツめにメンターのフィードバックを受けていたのを覚えています。こういう成果主義な姿勢もMSRAをトップ研究機関に押し上げる要因の一つなんですかね。

中国人インターンとは昼・晩ごはんをよく一緒に食べました。あまりに他愛のない話をしすぎて何を話していたかまったく思い出せません。僕が今の奥さんの実家に遊びに行く前に、なぜか手土産としてもらったUFOキャッチャー産のテディベアはまだ家に置いてあります。

MSRAのインターンは海外志向の人が多く、僕と同じメンターについていた学生の一人いまカナダにいるみたいです。アメリカでもMSRAインターン出身の学生と出会うことが多くあり、Alumniネットワークの広さに驚かされます。

インターン同期で、昨日のAdvent Calendarの記事を書いた石渡くんとは日本の学会で出会って以来の知り合いで、同じNLCグループに所属していたこともあって滞在中は色々とお世話になりました。ホテルの管理人のおじさん (通称老板) がうっかり僕の部屋を用意し忘れたので最初の3日くらいは石渡くんと一つのベッドで寝ました。これは自己紹介時の鉄板ネタとして使えたので大変便利でした。

日本人インターンは7人くらい来ていました。 (僕が行ってすぐに帰国された人もいたのでちょっと記憶が曖昧。) なぜかみんな東京の人でした。特に石渡くん、日並さん、吉橋さん、平木さんとは一番インターン期間の被りが長かったのでご飯を一緒に食べたり部屋飲みをしたりして仲良くしていただきました (その後石渡氏・日並氏とはピッツバーグで再会)。平木さんがいい感じに紹介しているのでここでは割愛。ちなみに平木さんに関して言うと、リーダーシップがあって頼りがいのあるパイセンでした。東大のCS界隈で流行ってる言葉遣いなどを教えてもらいました。

僕がMSRAで得た収穫は次の4つにまとまると思います: (1) グループでスピーディーに研究を進めるための知見、 (2) 非母国語環境で何とかする根性、(3) ネットワーク、そして (4) 北京で過ごす最高の夏。間違いなく今の環境でも活きています。なんかよくある感じの結論になってしまった。

インターネットの遅さに定評がある某ホテル。何もしなくても勝手に部屋が埋まる物件を手にした老板は、一日中ずっと入り口近くのテーブルに陣取って動画を見ていた。
滞在先の近くにある食堂で、ただのうまいワンタンスープが高速で出てくる。滅茶苦茶お世話になりました。
ホテルから最寄りのバス停・地下鉄駅に向かう道。突き当りを曲がると到着。地下鉄はホームへの道のりが意味がわからない程長いので、よく使っていたのはバス。
バスを降りてから真っ直ぐ行くとオフィスに着く。広場的なところを通るのだけど、夜は木の枝が絶妙な感じで光を遮り段差をわかりにくくするので躓きやすい。同期の某氏はここで脚を血まみれにした。
研究所フロアから見たもう一つの社屋。渡り廊下を行ったところに食堂があって、そこでは給料から天引きされる形で支払いができる。2階にあるインドカレー屋と中華料理屋にはたぶん百万回くらい行った。

インターン希望の方にアドバイス

…を書きかけたのですが、今回のアドベントカレンダーがきっかけで、平木さんが書いていたアドバイス集を見つけました。研究力、コネ、目的意識、英語スキルが大事というのは僕も同意見です。ぜひ読んでみてください。以下補足。

  • コネ: 学会などで人に話しかけるのも大事ですが、常日頃から自分がやりたいと思っていることを周囲に漏らしておくといいと思います。いい出会いやチャンスが転がってきたりします。
  • コミュニケーション (日本語・英語): (1) とりあえず何かしゃべる、(2) それをクリアに伝える、という2ステップあります。まずは日本語で、ミスを恐れず何かいう気持ちを鍛えましょう (グループミーティングで発言するとか)。次に英語です。大きい声で正しいアクセントで話すクセとか、聞き取れなかったり単語を忘れたりしても何とかするワザを身につけると英語のコミュニケーションはだいぶ楽になります。僕はオンライン英会話で練習しましたが結構よかったです。言語交換サイトで無料で練習できるパートナーを探すという手もあります (でも相手の人が蒸発しがち)。
  • 中国語: 僕はあまり試したことがないんですけど、北京では英語はあまり通じないみたいです。中国語はいろんな場所で使えるので便利です。身につけるためには、やっぱり実際に使って練習することが必要です。僕は音読を繰り返した結果、四声がある程度無意識に使い分けられるようになりました。あとは京都大学で中国語話者の友達がいっぱいできたのもよかったですね。

気軽に質問してください

MSRAのことでも、留学のことでも、何か聞きたいことがあればできる限りで回答するので気軽にメールください。メールアドレスは僕のページ (http://naoki.ninja/) にあります。

最後に僕が最近ハマってる中国語の曲のリンク貼っときます。中国、失恋とか後悔とかネガティブな内容の曲が多いところが個人的に気に入ってます。

昨日石渡くんが紹介していた映画「アメリカン・ドリーム・イン・チャイナ」(中国合伙人) 僕もめっちゃ好きです。罗大佑という神が作った曲『光阴的故事』のカバーが主題歌なんですが、これが結構良いのでぜひ聴いてください。チャイニーズポップス、いい曲いっぱいあるので語りたい。誰か~。

Joakim Nivre による ACL Presidential Address を観ました。とてもよかったのでメモ。

  • ビデオ: https://vimeo.com/channels/acl2017/234951123
  • スライド: https://cl.lingfil.uu.se/~nivre/docs/PresidentialAddressACL2017.pdf

NLPコミュニティーの中で偏見をどうやって排除するか、速度の早い流れの中でどう査読の質を担保するか、特に double-blind の原則を壊す preprint とどう付き合うか、という問題提起を含むトーク。

印象的だったのはResearch questionを持ちましょうという話 (スライドの “Good Science” 以降)。自身が構文解析の研究に対する言語学者の “lots of numbers with small difference” という感想を聞いたという話から始まり、関連する分野の研究者からよく問われるのが Research question は何なのか、という質問であると指摘しています。実験は仮説を検証するために行われるべきで、仮説は “morphological segmentation facilitates syntactic parsing” のように現象についての普遍的な事実を明らかにするものであるべきだと述べています。そういえば京大にいるとき、ミーティングでResearch questionについて何度か指摘されていたけれど、最近やっと意義がわかってきた気がします。

これが2年前のトークか…。現状はよくなっているどころかますます anti-communication & fast research の方向に行っている気がします。

ところで Matilda effect について初めて知りました。最近別のところで女性のプレゼンスは必要以上に認知されてバッシングを受けやすいという話を聞いたところで、今まであまりにもこういう話題に関して無知だったと反省。

2018年の終わりを迎える。今年のハイライト:

  • 指導教員を変えた
    • 前の指導教員とのミスマッチは昨年から薄々感じていたが、3月と5月末に論文執筆を経験して明白にズレを感じました。12月にPhD申請を控えていることを考えると指導教員替えはリスキーではありましたが、結局夏に夏から今の指導教員と研究することに決めました。
    • 実際の変更プロセスは思ったよりスムーズに行きました (たぶん、LTIで指導教員が替わるのはよくあること)。
    • というわけで、昨年まではActive LearningやReinforcement Learningを研究していて、機械学習系の論文を読み漁っていましたが、今年の下半期は言語学・心理学の論文を読んだりして、なかなか面白い変化がありました。
  • 奥さんがアメリカに来た
    • 2月に奥さんが渡米してきました。自分ひとりの時間は圧倒的に減りましたが、やっぱり安定を感じる今日このごろ。旅行にも何度が行きました。(ひとりでは行かなかったと思う。)
  • サッカーに興味を持った
    • ワールドカップ以来、これまで特に興味がなかったサッカーに惹かれ始めました。なんと言っても攻守が表裏一体になっていること、選手が3人までしか替えられないところが良い。ピッツバーグにもサッカーチームがあります。(弱いけど。)今年一度観戦しに行ってなかなか面白かったので、来年もぜひ行きたいと思っています。

研究方面はトピックを大きく変えたこともあって、ACL締切2か月前に関わらずいまいちこれと言った手応えがありません。アルゴリズムを提案するだけではなく、対象とする現象をきちんと分析して、その分析によってなにか学びが得られるような研究をしたいと思っていますが、さて、どうなることやら。

COLINGという国際会議で論文を発表してきました。COLINGは隔年で開催される自然言語処理 (NLP) 分野での (たぶん) 2nd tierの会議という位置づけです。NLPの会議はだいたいAssociation for Computational Linguistics (ACL) という団体がホストするのですが、COLINGはICCLという団体の会議です。近年では珍しくそんなに機械学習色が (そこまで) 強くなく、ちょっとユニークなタスクに取り組んでいたり、英語以外の言語に取り組んでいたりと特色を感じます。2年前は大阪での開催で、今年は何十年かぶりのアメリカ開催でした。場所はSanta Feです。

最近、ACL系の会議は過度に機械学習色が強くなっていてよくない、という話を聞きました。ACL系に限りませんが、特に査読の質の低下が問題と考えられています。言語的なところに興味が薄い査読者は、どうしても手法的な新しさや数値の面での改善に観点が偏りがちで、そうするとアルゴリズム的な貢献がある論文が多く採択されることになってしまいます。でも本来は、もっと言語現象に寄り添った論文が出てきたほうが分野全体として発展していくはずです。今年のNLP会議は割と査読フォームに改善の試みがありました。まずは査読者が貢献点を幅広く考慮してきちんと査読結果を書くよう、欄が増えました。また、COLINGでは論文のカテゴリがエンジニアリング論文、評価論文、サーベイ論文、などと明示的に分けられました。Author responseを無視しないように査読者に呼びかける努力もあったみたいです。こうした試みがうまく働くといいと思います。

他には、どの会議に何本通したか、を学位授与の基準にしたりするのはきちんとした機関がやることではない、という話が印象的でした。某国には独自の国際会議番付表があり、Aランクに規定数論文を通さないと博士が取れないそうです。こういうのは自分の大学に権威が無いことを認めることと同じで、情けないことだと聞きました。自分で組織したCommitteeが認めれば研究業績がどうであれ学位授与 (=品質保証) をするのが本来あるべきだということです。僕もまったく同意ですが、世の中は論文数のようなわかりやすい基準を大事にするようになってきている気がします。

CMUの中国人コミュニティ

研究留学 Advent Calendar 2017 4日目の記事です。

僕は今年からアメリカのCarnegie Mellon University (カーネギーメロン大学) の修士課程に留学しています。

  • いつ行ったか: 2017年7月-
  • どこに行ったか (組織など): Carnegie Mellon University (CMU), School of Computer Science, Language Technologies Institute (LTI)
  • 何をやったか: 自然言語処理 (natural language processing; NLP) に関する研究
  • どうやって行ったか: 2016年12月にアプライ→2017年2月にオファー (経緯については奨学金のサポートを受けている財団のサイトにもまとめています)

LTIは世界でも稀な自然言語処理に特化した研究所で、30人を超える教員と200人くらい (?) の学生が所属しています。LTIのプログラムで履修するコースは基本的にすべて自然言語処理に関わるもので、僕にとっては夢のような環境です。最初の学期の感想は、以下に (おそらく今月中?) に公開される報告書の中に書きます: 船井情報科学振興財団 – 留学報告書

さて、CMUといえばComputer Science (CS)、そしてCSに関係する皆さんは御存知の通り、CSといえば中国人とインド人の人口が高いことで有名です。CMUのCS学部が入っている建物付近、もっと言うとCMU周辺はやたらアジア人が多く、明らかに街のダウンタウンと違った雰囲気を持っています。

CMUの大学院生は半数以上が留学生で、その半数以上が中国人です。僕が所属するLTIの学生は4割程度が中国出身で (中国語話者という括りだともっと多いかもしれません)、その次に多いのがインド人、その次がアメリカ人、という印象です。日本から来ている学生は僕を含めて4人です (余談ですが、なぜかそのうちの3人は中国語が理解できます)。

地域ごとに言語がかなり異なることもあってインド人はインド人同士でも英語を話していることが多いですが、中国人は中国語を話します。はじめてLTIに来たときはここは中国かよと思いました。昼時になると共有スペースは中華料理の匂いでいっぱいになります。

僕は中華料理が好きで学部時代に練習した結果、中国語が多少話せるようになりました。アメリカに来てからも中国人とばかり交流しているおかげで、この数ヶ月で英語は大して上達しませんでしたが中国語はちょっとうまくなりました。

この記事では、そんな僕からの視点でCMUの中国人コミュニティを紹介します。

1. 微信グループ

CMUには微信 (WeChat; LINEのようなアプリ) の中国人グループがあります。僕も新入生グループのうちの一つになぜか入っているのですが、登録学生数は現在434名で、週に2,3件はルームメイト募集や部屋のsubletの案内、中古家具の売り出し情報が流れてきます。留学生はこういう情報をうまく活用して生活費を節約しているようです。下の画像は昨日流れてきたsubletの案内です。

他にも中国人の学生会が主催のカラオケ大会があったり、Black Fridayに合わせた買い物イベントがあったり、なんだか楽しそうな案内が時々流れてきます。※Pittsburghには日本人コミュニティもあり情報交換もまあまあ活発です。

2. 食事

Advent Calendar 2日目の記事に書かれている通り、口に合う飯を見つけることは海外生活において非常に重要な問題です。その点中華料理は世界中だいたいどこでも食べることができるので困ることはありません。大学の近くにも中華料理店が何件かありますし、Pittsburghにはチャイナタウンはないものの中華料理店が集まるエリアはあります。

中国人留学生の多いCMUには昼と夕方に中華弁当のデリバリーが来ます。そこで直接買うこともできますが、あらかじめWebサイト () で予約しておくこともできます。中国人留学生はふつうWebではなく微信で店にメッセージを送って予約します。学校に売りに来る数時間前までに店に直接メッセージを送っておけば、自分の弁当が確保できるという仕組みです。店によってはまとめ買いの割引サービスがあります。クオリティーはそこそこで、僕の友人のランチはたいていそこの弁当です。

3. 論文読み会

毎週、LTIの中国人学生が中心となってdeep learning関係の論文を読むグループが開かれています。毎回2,3人の学生が最近arxivに公開された最新の論文を紹介します。例えば先週紹介された論文は

  • Tracking the World State with Recurrent Entity Networks
  • Cold-Start Reinforcement Learning with Softmax Policy Gradient
  • Dynamic Routing Between Capsules

でした。どれも最先端の内容です。紹介される内容は言語処理に限りません。Deep learning関連の研究は流れが非常に早いので、自分の研究課題に取り組みながら重要な論文をもれなく読むのはふつう不可能で、こうして誰かと情報共有できる機会がとても重要です。

毎回全員が来るわけではありませんが、参加している学生は他学部から来ている人も含めて69人で、所属グループを超えた活発な議論が行われています。そこから研究のアイデアが生まれることもしばしばあるようです (指導教員が異なる中国人学生同士がときどき共著論文を出す理由のひとつ)。中国人同士なら中国語で議論できますし、研究の効率も相当高まるはずです。

まとめ

この記事ではCMUの中国人コミュニティのごく一部を紹介しました。たぶんCMUに限らないと思いますが、中国にルーツを持つ学生が非常に多いので、アメリカでの生活から研究まで幅広い点で中国人同士の助け合いが見られます。

そんなわけで、アメリカに留学する際、英語だけで満足せず中国語も練習して来るといろいろと捗ると思います。

過ぎてみれば早いもので、もう来週からLTIのオリエンテーション (+adviser決め) が始まる。

先週はICC (international C?? center) が提供するLanguage Bootcampに参加した。13人全員がアジア人で、しかも9人が日本人という、ある意味わかりやすい構成だったが、皆とても意欲にあふれていて良かった。今回のBootcampはICCが一年通して提供しているコースを一週間に凝縮したもので、話す・書く技能だけではなく (主にメンタルに関して) 健康的な生活を送るためのTipsを学ぶことができた。一番役に立ったのはメールの書き方講座で、一番目からウロコだったのは留学生は発音よりも早く話し過ぎたり、間を置かないせいで聞き取ってもらえない事が多い、ということだった。

こちらに来てからはや10日になる。トラブルは今のところボストン行きの飛行機に乗り遅れた (軽症) 以外にはない。周りの人達のおかげで、一週間以内に、携帯電話、銀行口座、最低限の家具・生活用品、自転車を手に入れることができた。生活環境が落ち着いてからは、LTIの共有スペースで日本から持ってきた研究課題に取り組んだりしている。

先週、研究内容に興味のある先生にメールを送ったところミーティングの機会を用意してくれた。自分の経歴、これからやりたいことを説明した。先生からも研究内容の提案があって、口頭で方向性を聞かれた。その先生が実際に指導教員になるかどうかは、公式のmarriage processで決まる。聞くところによるとその先生は二年間MLTの学生を取っていないので、果たしてどうなるやら。

明日からの一週間は英語の短期講習に参加する。英語の練習ができるのはもちろんだが、他の留学生と交流することができるのが嬉しい。

夜中はぐっすり眠れた。7時半に起床。昨日名前が印象的 (crest) だったので買った歯磨き粉はサロンパスの風味なので歯を磨くだびに気分が悪くなる。9時過ぎにアパートの入居手続き (名前を書いて、パスポートを見せる) を終えて、部屋中掃除機をかけた。

午前中、CMUの事務 (HUB) に行って学生証をもらおうとしたが、発行は8/1からだそうで受け取れず。Jared L. Cohon University Centerの中を見て回る。中には講義室やカフェテリアがいくつかある。体育館やスカッシュのコートもあった。ちなみにJared Cohonは8代目学長 (97-13) らしい。歩いていると連絡が来て、友人氏から生活用品のお下がりをもらう。ついでにメキシカンでランチを買う。トッピング選ぶ系の注文は相変わらず難しい。

夜はルームメイトにsharp edgeに連れて行ってもらう。ビールの種類が多すぎて選べない。基本的にIPAはうまいということを再確認。

8時20分にセントレアを出発、成田、ダラス経由で14時40分頃ピッツバーグに到着。その後16時まで時間を潰してバスでCMUへ。約1時間かかった。鍵を受け取ってCMUの近くの部屋まで案内してもらう。Door to doorで24時間くらい。

バスでCMUに向かっているときは、いかにもアメリカという感じの風貌の人達ばかりが見えたが、CMUに着いた途端中国と化した。本当に中国人の学生が多い。道端には中華弁当を売る人もいた。