UGIPソフトバンク企画2021年度修了生である黒木章弘さん(農学生命科学研究科応用動物科学専攻修士 2年)へのインタビューを記事にしました。UGIPの紹介記事はこちら、UGIPダイキン工業企画のインタビュー記事はこちらから!
データサイエンスを、学びたかったんです。
黒木さんがUGIPのソフトバンク企画に参加されたきっかけを教えてください。
元々データサイエンスや機械学習に興味があり、1年半ほど独学で学習していましたが、本を読むだけでは理解し辛い内容があると感じていました。そんな時に大学からのメールでUGIPの企画を知り、初心者でも学びやすい環境だと思い参加を決めました。
プログラムの実施期間は1ヶ月ですが、その中でどのくらいの時間をかけて取り組んでいましたか。
1ヶ月ほどのプログラム期間の中、自分の好きなタイミングで考えたり、コードを書いたりしました。4-5時間ほどかけてモデルの土台を作成したのち、アイデアが出るたびに1-2時間かけて実装する作業を繰り返し行いました。
木構造で人流を予測!
プログラムでは、どのようなことに取り組みましたか。
「ある地点での未来の人流」を予測するコンペティションへの参加が中心でした。具体的には、Yahoo! JAPANから与えられる生の人流データと新型コロナウイルス関連の検索データを用いて人流予測のモデルを作成しました。
あまりイメージができないのですが、人流予測のデータ分析はどのように行われるのでしょうか。
代表的なデータ分析の手法として、データ同士を何層にも掛け合わせて正答に近づけていく「ディープラーニング」と、要素をグループ分けして、更に細かいグループに分けていく作業を繰り返してできた「木構造」を用いる方法があります。
なるほど。黒木さんはどのように人流予測のモデルを作ったのですか。
私は、木構造を用いて人流予測のモデルを作りました。
人流は場所や天気、曜日などの要素の影響を受けると私は考えました。例えば夜の新宿と昼間の丸の内では、雨が降ったら夜の新宿の人出は減りますが、丸の内のオフィス街の人出は変わらないですよね。
このような人流に関わりうる要素を抽出して、どの要素がどの程度人流に関わるのかを分析しました。
リアルタイムだからこそのヒヤヒヤも…
面白そうですね!ただ、リアルタイムのデータを用いることもあり、分析から傾向を掴むのは難しそうです…。
そうですね(苦笑)。人流予測モデルから計算した予測結果を提出したあと、成果発表までに1ヶ月弱間があったのですが、その期間に台風が来てしまって。実際の天気を予測したデータを使っていたので、人流予測がずれないかヒヤヒヤしました。一方で、生のデータを使って分析するからこその面白さも感じましたね。
黒木さんはデータ分析の精度が最も高く、成績最優秀者に選ばれています。成果発表会での他の成績優秀者のプレゼンテーションはいかがでしたか。
結果は似ているのに、着目したデータや使用したモデルが人によって違うのが面白かったです。特に驚いたのは、人流データの過去の折れ線グラフの傾きだけで人流を正確に予測した発表者がいたこと。私は一生懸命計算してモデルを作ったのに、その作業さえせずに同じような結果が出せてしまうのですから、すごいですよね。
一緒に学ぶ仲間を見つけた。
ズバリ、プログラムの魅力は何ですか。
様々な背景の東大生と学部の域を超えて競い合えることです。1ヶ月近く同じテーマに向き合うので、やりがいがありました。
知り合いが増えることも魅力の一つです。最後の成果発表でTwitterのアカウントを載せたところ、15人ほどの東大生からフォローしてもらいました。これまで独学でデータサイエンスを勉強していたため、一緒に学ぶ仲間が見つかったことが嬉しかったです。
データ分析やコードを書いた経験のない、初心者でも参加できますか。
興味があればぜひ挑戦してみるとよい思います。今回は初学者の参加者が多く、データ予測に関する初心者向けのレクチャーがありました。また、2回ほどデータサイエンティストの講義がオンラインであり、こんなことまで聞いていいの?と思うような現場の話まで聞くことができました。
このプログラムに興味を持っている学生にメッセージをお願いします。
UGIPソフトバンクインターンシップは、人にまつわる生のデータを扱う難しさと面白さを学ぶことのできる貴重なプログラムです。コンペならではの緊張感もありますし、専門家でも予測が難しいものですが、だからこそのやりがいと面白さがあります。
東大にはデータサイエンスを深く学ぶ学部・学科や授業がないため、データサイエンスに関心がある人には特にお薦めしたいです。
私は今、UGIPを通して知り合った仲間と新しいコンペティションに一緒に参加しています。同じ興味分野に向けて切磋琢磨する友人との出会いにも期待できると思います。