Ad-Sol Technical Report vol.1
その仕事、AIに任せて大丈夫? 「頼れるパートナー」になるAIの作り方
生成AI「ChatGPT」の登場に世界中が熱狂した2023年。AIを使ったツールが次々に登場し、人々は急速にそれを受け入れつつあるように見える。一方、自動運転AIによる交通事故、生成AIのハルシネーションなど、AIにまつわる課題は後を絶たないのも現実だ。
こうした中「噓をつく、間違いが多いAI」と「正しく、安心できるAI」―両者の違いを「品質」という切り口から見極め、改善しようとする試みが進んでいることをご存知だろうか。国立研究開発法人産業技術総合研究所(以下、産総研)が進めてきた「AI品質プロジェクト」がそれである。では、どのようにして「正しく、安心できるAI=高品質なAI」を作り、社会や生活のパートナーとして取り入れていけばよいのだろうか。
アドソル日進AI研究所から産総研のAI品質プロジェクトに参画した二人に話を聞いた。
話し手:アドソル日進株式会社 執行役員 AI研究所部長 浜谷 千波
AI研究所 岩瀬 優太
- Ad-Sol Technical Report
産総研「AI品質プロジェクト」で理事長賞!
― 岩瀬さんは2019年10月から産総研に出向し、現在も産総研の研究員という立場で活躍されています。今回、岩瀬さんが関わったプロジェクトが産総研内で「理事長賞」を受賞したと伺いました。
岩瀬 はい。今回、理事長賞を受賞したのは、産総研がNEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)から受託した「NEDOプロジェクト(※1)」です。
浜谷 私達は「AI品質プロジェクト」と呼んでいます。 AI品質のタスクフォース(TF)を組み、「TF1:ガイドライン(品質評価の仕組み)」「 TF2:ガイドラインを社会実装するツール(テストベッドツール)」「TF3:ガイドラインの別冊・補足資料(リファレンス)」そして「TF4:品質のための技術研究」という4つの研究が進められてきました。今回の理事長賞は、このプロジェクトに関わった産総研の主要な研究員が対象で、岩瀬さんはまさにその一人として受賞したんですよ。立派なことです。
― 浜谷さんはアドソル日進の立場で、岩瀬さんは産総研の研究員の立場でこのAI品質プロジェクトに参画してこられたわけですね。
浜谷 はい、私はTF1、AI品質のよりどころになる「ガイドライン」を作成するチームです。「品質の実現に必要な活動を、各工程にわたって計画して、作り込んで、評価する」という一連のプロセスをどう進めるか、それを導く、ガイドするものですね。
岩瀬 僕はTF2、AI品質を評価する「テストベッド(※2)ツール」の研究チームでした。
― TF1:品質ガイドラインへの参画については2020年に、TF2:テストベッドツール開発への参画については2021年のα版リリースの際に、当社からもプレスリリース(※3)を出しています。
岩瀬 はい、それです。テストベッドツールは「AIの知識があまりない人でも手軽にAIの品質を評価できる」という理念で作られました。
「AIを知らない人」がAI品質を評価しなければならない昨今の事情
― AIの知識がない人でも......?そもそも「AI品質」とはどういうもので、なぜ「AIの知識がない人」がAI品質を評価しなければならないのでしょう?
岩瀬 よく「AIが間違えると、人に大きな影響を及ぼす」と言いますよね。極端な例だと、自動運転の車が事故を起こした、とか。
― 確かに自動運転もAIの機能ですね。
岩瀬 そうです。こうした事故が起きないようにするのが「AI品質」です。
― AIが間違えない、失敗しないようにするのが「AI品質」の役割なら、評価は「AIに詳しくない人」ではなく、AI技術者、AIに強い人がすべきなのでは?
岩瀬 「詳しくない人」とは、AIのユーザーではありません。例えば 「AI は知らないけれどプログラミングは天才的」という人、ITのスペシャリスト、これが「AIに詳しくない人」のイメージです。
浜谷 2024年現在、IT技術者はAIも作れる、できる、という印象を持つ方がいらっしゃるかもしれません。ですが、従来型ソフトウェアとAI、とりわけいわゆる機械学習ソフトウェアは本質的に違いも大きいんですよね。
― 確かに、AIとITを「プログラミング言語で構築されたもの」というイメージでまとめて捉えている方は多そうです。
浜谷 社会にAIが浸透しはじめて、AIが間違えると大変な被害が発生することも広く知られるようになりました。ですがAIの中身はブラックボックス的な部分があって、仕様~設計~実装の工程を前提とし
た従来型ソフトウェアのエンジニアリングではうまく対応しきれないんです。当然「いいものにならない」という品質の問題が出てきますし、それに加えて、AIは「品質への努力」を適切に計れない、となれば、企業の頑張りが正当に報われない、といった問題も出てきます。
そこで、「従来のIT技術ではAI品質をちゃんと作り込んだり、評価したりするのが難しい」という社会課題に対応すべく、立ち上げられたのが「AI品質プロジェクト」です。そして、その中でテストベッドツールは、ガイドラインで示されている品質管理を実際に推進するのを助ける「具体的なツール」なんです。
― テストベッドツールはITシステムに組み込まれるAIの品質評価に欠かせない、重要なツールなんですね。タスクフォース内で岩瀬さんはどのような役割を担われたのですか?
岩瀬 チーム全体のミッションはテストベッドツールのソフトウェア研究と、その開発の二つです。僕は主に研究分野で、どうすればテストベッドツールが多くの人に使ってもらえる便利なツールになるのかという利便性の検討と設計を担当していました。使う人の立場で、使うシーンを想像しながら研究することを常に意識し、テストベッドツールから出力される(品質評価結果の)レポートをどういう形式にすればわかりやすいか、章立てやグラフの形式までこだわりました。
― ご自身の成果を振り返ってみていかがですか?
岩瀬 AI品質評価のはじまりとも言えるテストベッドツール設計の初期理念に関わることができた点は、とてもうれしかったです。成果としても、テストベッドツールには、実は僕が出したアイディアがいくつか採用されています。
― そうなんですね!
岩瀬 テストベッドツールって、僕はゲーム機の本体みたいなものだと思っているんです。ゲーム機はゲームソフトのカセットを差し込んだり、個々のゲームソフトをインストールして動かすじゃないですか。テストベッドツールにはその仕組みを取り入れたんですよ。ゲームソフトに相当するモジュールをそれぞれ得意な人に作ってもらい、差し込んで動かすイメージです。テストベッドの本体=ゲーム機の本体ということですね。
― テストベッドツール自体に全機能を包括するのではなく「スピード」「精度」など必要なテスト項目をそれぞれの「カセット(モジュール)」でやっていく。
岩瀬 そう、カセット=AI品質を評価するテストプログラムです。いくらAIの専門家、研究者でも、すべてのカセット(テストプログラム)を一人で作れる人なんていません。でも、それぞれの専門分野に長けた人が一つずつカセットを作って持ち寄れば、みんなで使えるし使いやすいという考え方です。エコシステムですね。
浜谷 あれ、岩瀬さんのアイディアだったんだ! 岩瀬さんの例えでいう「 カセット」部分、テストプログラムは、どんどん進化していくものです。ここを、うまく切り離せるようにし、AIの専門家に広く役割分担してもらえるような、柔軟で発展可能なエコシステムを完成させたことがテストベッドツールの大きな特長です。
生成AIの品質実現はまだ先!?
― 2019年からスタートしたプロジェクトが一区切りを迎えて、2024年度からは生成AIに関する新たなタスクフォースがスタートしていると伺いました。
岩瀬 今は事例を集めている段階です。実は生成AIの事例は数が少なくて......。ChatGPTをユーザーとして使っている事例なら大量にあるのですが、システムに組み込んでいる事例はまだ少ないし、品質関連の詳しい情報を含んだ事例となるとなかなか見つかりません。
― 確かに、生成AIも品質についての取組み自体が研究段階ですよね......。
岩瀬 実はこのような中で、品質を踏まえて開発された最先端の事例と言えるのが、当社が自社開発した生成AI 「AdsolChat(アドソルチャット※4)」なんです。AdsolChatの開発では、AI品質を評価するための項目をいくつか数値化し、それらのすべてが一定水準以上であればOK、というようなルールを作ってテストを行いました。生成AIの開発事例であり、かつ品質評価もしっかりやっているので、産総研のテーマにぴったりなんですよ。実は僕、AdsolChatの事例を産総研に情報共有しているんですが、結構好評です。
浜谷 「ガイドラインを使えばAIの品質を作り込み、評価できる」というシステマティックなプロセスは、まだ作られていく途上にあります。産総研でガイドラインチームが目指しているのも、その仕組みを提供する、実現するところ。そうした汎用的なガイドラインと、AdsolChatで岩瀬さんがやってきた実践的な内容と融合させて当社ならではのリアルな「システム」を確立できるといいですね。
― 産総研で「AI品質」「評価」の考え方を浜谷さんや岩瀬さんが得ていたからこそ当社はそれをAdsolChatに適用でき、今度はAdsolChatを作った経験を産総研に還元できている。いい循環のサイクルですね。
AdsolChatが切り拓いたフロンティア
― ところで生成AIは回答精度が重要だと言われますよね。
岩瀬 ええ、回答精度は生成AIにおける「品質」の最重要ポイントです。AdsolChatでも非常に重要視しています。簡単な問題は百発百中で答えられないとダメ、難しい問題はこの程度でいい、といった評価基準を開発チームで決めて、その水準を達成できるか、といった基準で測定しました。
― 精度をチェックするための基準を作る中で、回答精度そのものが上がるアイディアなどは出ましたか?
岩瀬 生成AIの回答精度は「プロンプト(命令文)」が決め手になります。AdsolChatに組み込んだプロンプトもかなり細かく設定しましたね。
― プロンプト(命令文)は、生成AIを使うユーザーが利用するものだと思っていましたが生成AIそのものにも組み込まれているんですね。
浜谷 プロンプトには「ユーザーが質問をする時に使うもの」と「生成AIが回答を導き出すためにシステム内に組み込むもの」があります。回答精度は後者の出来次第で大きく変わるので、 AdsolChatでは かなり試行錯誤をしました。それから今、岩瀬さんはさりげなく「評価基準を開発チームで決めて......」と言いましたが、実は「評価基準そのもの」を決める、これがとても難しいんです。そもそも正解の定義がありませんし「簡単な問題は百発百中」の「簡単」を決める基準もない。自分達で悩み決めていくしかなかったんです。
― 評価基準を点数化したり、配点の重みづけ、採点の方法も独自で決めないといけない。
岩瀬 国語の長文問題のようなものです。試験であれば、この単語があったら、こう書かれていたら部分点などの採点基準がありますが、生成AIの品質評価では、こうした採点基準そのものから決める必要がありました。
浜谷 AdsolChatの開発に携わった生成AIワーキンググループメンバーの取組み成果からも評価の際に必要となるポイントの現実的なヒントを得ることができました。こうした検討過程、現場に即したテストプロセス、基準設定、その方法などの情報なども、今後生成AIによる業務効率化などを進めるうえでの貴重なノウハウになりそうです。
― お客様のAI導入コンサルティングにも応用できそうですね。業種業態によって評価基準や配点、合格点も変わりそうです。
浜谷 品質をちゃんと考えるってそういうことなんですよねぇ。
岩瀬 確かにそうですね。先ほど国語の採点に例えましたが、基準が決まって、数百問の回答が生成AIから一斉に返ってきたら、次は「採点者を誰がやるのか」という問題が出てきます。人が採点したら日が暮れるどころじゃすみません。実はここにもAIに自己採点をさせる技術を適用しています。プロンプトで指示を出し、全自動でAIに採点させる。AdsolChatではこうした技術を活用して効率的な品質評価を行いました。
浜谷 これはすごくいい事例になったよね。
岩瀬 プロダクトに加えて、経験が非常に大きな財産になりました。
AIは敵? それとも友達? 日本のスタンスが独特である納得の理由
― 社会的にもAIはどんどん浸透していきそうです。たとえばアドソル日進の注力する「エネルギー」「スマートシティ」「宇宙」などでのAI活用はどう進むでしょうか。
浜谷 「衛星×AI」の切り口だと、従来からの防災、国土強靭化に加え「グリーン」「デジタル」への活用が注目される中で、増大するデータの処理や分析にAIが必須となりそうです。
たとえば、広範囲かつ回帰的な撮影が可能であるという衛星のメリットを活かした三次元地図作成、風力発電などの設置場所や配置などの検討、国土や都市のデジタルツイン構築などですね。
当社が強みを有する「GIS:地理情報システム」を用いたソリューションとの相性もいいと思います。GIS関連では昨今「GeoAI」というワードで、地理空間情報へのAI活用が注目されてきています。今後、衛星データは間違いなくそのスコープに入ってきます。ここでも生成AIの活用は、フロントエンド、バックエンド両方の視点から意義があると思います。私達もこうしたポイントを広く知っていただくために「GIS×衛星データ×AI」のコラボレーションセミナーなどをはじめています。
― 企業や官公庁におけるAI活用はいかがでしょうか?
浜谷 省庁の動きとしては、総務省から2024年7月に「自治体における AI活用・導入ガイドブック」の新版が発行されたのですが、生成AIの導入事例集も掲載されている大変具体的な内容で、自治体でも導入が進んでいきそうです。やはり話題の中心になるのは生成AIになりそうですね。
岩瀬 生成AIに関しては、実は日本はかなり先行しています。例えばChatGPTの国別利用ランキングで、日本はアメリカ、インドについで3位なんです。そもそも日本人は国民性として生成AIを使うことにあまり抵抗感や拒絶感がないのかもしれません。
浜谷 確かに日本人はAIに対するハードルが低いとよく言われますね。日本人は鉄腕アトムの時代からロボットになじみがあるので、AIにも寛容だと。
― 逆に「寛容じゃない国民性」だとどういう反応になるんですか?
浜谷 「人間に対して反逆する」「人間に対して悪いことをしかねないものである」という感じ。
― ハリウッド映画にありそうな「人間に反旗を翻したAIとの戦い」的な。
浜谷 そう、それ。確かにその可能性もないわけじゃないんだけど。
岩瀬 日本とそれ以外の国ではロボットやAIの描かれ方が違う。日本だとAIやロボットは「人間のパートナー」みたいな感じでしょう。もっとさかのぼると日本人って「ものに神様が宿る」と信じてきたわけですし。
― そのうちどこかの自治体がAIに住民票を出しそうですよね。
岩瀬 あり得ると思います。今世紀中にあるな(笑)。
浜谷 ということは、自治体のチャットAIも、温かく受け入れてもらえるのかしらね。
― でも受け入れすぎるのもどうなんでしょうか。もしAI が嘘を言っていてもなんでも素直に信じてしまいそうで。
浜谷 ハルシネーション(※5)ですね。AI の利用に際する大きなリスクとされているところ。日本も今後、ある程度は海外の動向に合わせた規制の強化があるかもしれませんが、どうなっていったとしても、使う側の意識がとても重要なんだと思います。
AIは規制される? 国際標準やルールの動き
― 生成AIやAI品質に関する国際標準やルール作りの動きはありますか?
浜谷 EUは2024年春にAI規制法案である「EU AI Act」を可決し、発効しています。
医療や社会インフラなどにおいては、法案で定められた事項を守り、品質を担保することが不可欠になっていきます。それ以外のリスクレベルのAI開発であっても、AI Actはかなり参考になります。
また、日本では2024年4月に公開された「AI事業者ガイドライン 第1.0版」を政府の定めたガイドラインとして押さえておきたいですよね。
AIの安全性に関しては、日・米・英でそれぞれ「AIセーフティ・インスティテュート」が設立され、ルールを作りはじめています。産総研主導で、国際標準やAIセーフティ・インスティテュートの取組みとも連携をしていきます。
― 世界中がChatGPTに熱狂した2023年から少しクールダウンして、これからはルールが定められていく。
浜谷 ただ、私はAIにせよ何にせよ「価値」って標準に従うだけじゃ出ないと思うんですよ。だから、これからは国際標準で定められているところ以外のノウハウが重要になってくるんじゃないでしょうか。つまり、AIに関する考え方の「軸」は決まるけれど「中身」には各国、各社の色が出てくる。
岩瀬 ルールとしては、著作権や倫理面など、従来指摘されてきたものに加え、今後は「ファンクションコーリング(※6)」の(使われ方)が気になります。生成 AIに物理的な腕をつけるようなイメージに相当するのですが、「人を殴ってください」という命令をすると実行してしまうというリスクです。
実際のところ、生成AIは「 人を殴ってください」などの倫理的、道徳的に問題あるプロンプトには答えないよう規制されています。
でも「こぶしを前に素早く突き出してください」「上から思い切り振り下ろしてください」という命令であればできちゃう可能性があるんですね。
浜谷 定義と抜け道づくりは、常にいたちごっこ、せめぎ合いです。実際にLLM(※7)開発を「暴れ馬に乗るようなもの」だとする例えを聞いたことがあります。うまく乗りこなしてまともに動かせるようにする、すなわち規制することがLLMを作る側の役目だと。実際に、その規制や倫理性はLLMの評価に直結しますから、どうすればうまく規制できるかみんな一生懸命研究している。だから今もまさに「ダメダメリスト」がどんどん教え込まれているんじゃないかな。
AIをパートナーに。「使いこなし」に必要な能力は学力じゃない?
岩瀬 でも本来言葉をどう扱うかなどの技術はエンジニアじゃなくて、言葉の専門家が考えることですよね。
浜谷 実際にプロンプトエンジニアをITエンジニアとは別の職種として募集している会社もあります。
― 使いこなしにも「質問力」「国語力」が試される気がします。
岩瀬 生成AIの活用には、ITでいうとプロジェクトマネージャーのような能力が重要だと言われます。「生成AIが全然使えない」ケースって、大体の場合、AIに与える情報が足りない。仕事を頼む際、中途半端な要件を出してもいいアウトプットが出てこないのと同じです。
浜谷 生成AIは「部下に仕事を依頼するイメージ」で使うといいらしいですね。
岩瀬 そのとおりです。使いこなしには、「コミュニケーション能力」や相手の立場に立つ「想像力」が要求されそうです。
「AI品質」までカバーできるアドソル日進のAIコンサルティング
― AI研究所としての今後の展望をお聞かせください。
浜谷 システム開発案件でもAIの話題が増えてきています。これらプロジェクトに私達AI研究所が関わることで、システム開発の豊富な実績・ノウハウとAI品質までバックアップできる知見を融合した当社ならではのAIコンサルティングができるのではないかと考えています。
産総研のAI品質プロジェクトに参画したことで得た学術的なエビデンス、それに基づきシステマティックに体系立てたアプローチが役立つシーンがあるはずです。
ロジカルかつ実際の現場になじむよう、AdsolChatの実践的ノウハウを取り入れて、当社ならではの「AIコンサルティングの仕組み」を確立したいですね。
人間ゼロ、全員AIの部署が誕生!? そんな未来はすぐそこ
― では最後に意気込みを。
岩瀬 将来的にはAIだけで無人の部署が作れるかもしれません。人間は一人ひとりが社長で、作業をすべてAIが担う。そうなったら僕は部署づくりのアドバイス、部下=AIの管理監督方法の設計を担当したいですね。もちろん管理監督は人間ではなくAIがやります(笑)。
― 浜谷さん、お願いします。
浜谷 生成AIをはじめとする技術の進歩も、世の中の動きもすごく速いですが、AI研究所のメンバーは、それについていけるポテンシャルがあるメンバーばかりです。
メンバーが身につけたものを部門としての成果にして、事業を通じて、お客様に展開できるようにしたいですね。
―ありがとうございました!
※2 テストベッド:システム開発や新技術の実証実験などにおいて、実際の使用環境に近い状態を再現するための試験用環境やプラットフォーム
※3 当社のAI品質関連プレスリリース:「AIの品質ガイドライン 策定活動に参画」(2020年10月29日)「AIシステム:品質評価プラットフォーム(テストベッドα版)」開発に参画」(2021年4月8日)
※4 AdsolChat(アドソルチャット):「生成 AI「 Adsol-Chat」 社内運用開始のお知らせ」(2024年2月1日)
※5 ハルシネーション:AIが幻覚(=ハルシネーション)を見ているかのように、もっともらしく事実に基づかない情報を生成する現象
※6 ファンクションコーリング:生成AIが自律的に関数を呼び出す機能
※7 LLM(大規模言語モデル):膨大なテキストデータを学習し、高度な言語理解と生成を実現する人工知能モデル
- 関連記事/コンテンツ/資料ダウンロード
関連記事
- 2024年08月02日
- 自社開発の生成AIサービス:「AdsolChat 2.0」リリース
- 2024年07月19日
- 「生成AIワーキンググループ」の成果発表会を開催
- 2024年02月01日
- 生成AI「AdsolChat」社内運用開始のお知らせ
- 2023年10月13日
- 【10/31】「第2回 AI品質マネジメントシンポジウム(主催:産総研)」にて講演
- 2021年04月08日
- 「AIシステム:品質評価プラットフォーム(テストベッドα版)」開発に参画
- 2020年10月29日
- AIの品質ガイドライン 策定活動に参画
関連コンテンツ
資料ダウンロード
上記お問い合わせフォームから、ぜひお気軽にご相談ください。