【IT×CS自動化】SmartHRが2段階DSPyで問い合わせBotの“評価器”を学習させた仕組み

SmartHRのテックブログで公開された、社内問い合わせBotの精度評価をどう仕組み化したかの記事です。単にAIを導入する話ではなく、「導入したAIをどう評価するか」をもう一段AIで自動化した事例です。

「うちには関係ないテック話」と読み飛ばす前に、ここだけ押さえておきたいです。中小企業の社内Bot導入がPoC止まりで終わる最大の原因は、「効いてるかどうか測れない」ことです。 SmartHRはここを正面突破した、というのが本質です。

僕が注目したのは、Slackのスタンプ(Good/Bad/Copy)をそのまま教師データにしてしまっている設計です。新しいデータを集めるのではなく、現場で勝手に貯まっているシグナルを拾う発想は、中小企業にこそ刺さります。

社内問い合わせBotの課題

社内FAQ Botを導入した組織で、必ずぶつかる壁です。

評価器がないAI Botは、温度計のない暖房と同じです。設定温度をいくら変えても、効いてるかどうか分かりません。

SmartHRテックブログ(2026-01-15)で説明されている流れは以下です。

教師データはSlack上のユーザー反応をそのまま点数化します。

DSPyのエコシステム上で動くGEPAアルゴリズムを使い、質問と回答のペアからスコアを予測する「Judgeプロンプト」を自動で最適化します。手動ルールでもなく、教師あり学習でもなく、「解釈可能なテキスト形式のプロンプト」として評価器が出来上がります。

学習済みのJudgeプロンプトを評価関数に組み込み、UX指標と安全性指標の多目的評価で、回答生成側のプロンプト自体をGEPAで最適化していきます。

つまり「評価器をAIに作らせて、その評価器でAIを育てる」という二段構えです。

報告された主なメリットは以下です。

注意点として、これは「評価インフラを構築した話」であり、「導入直後のBotが急に賢くなった」話ではありません。社内Bot運用の継続改善が回る土台を作った事例として読むのが正しい解釈です。

ここからが本題です。社内Botを「PoCで止めない」体制を中小企業で組むならどう削るか。

項目	SmartHR	中小企業(年商5〜30億・社員30〜100名)
対象	社内問い合わせBot	社内FAQ Bot or 顧客サポートBot
ツール	DSPy + GEPA + Slack	DSPy(OSS) + LLM API(月従量) + Slack/Teams
月額費用	(社内利用)	推定月2〜10万円(LLM API+評価実行コスト)
初期費用	推定中規模(社内エンジニア工数)	推定 100〜300万円(評価インフラ構築+教師データ整備)
体制	社内エンジニア+データチーム	社内エンジニア1名+外部AIエンジニア月10〜20時間
期間	段階展開(数ヶ月)	3〜6ヶ月でPoC→継続改善体制

(難易度=数字小さいほど簡単)

スコア根拠は以下です。

「DSPyを入れればBotが賢くなる」のではありません。

Bot稼働→ユーザー反応の収集→Judgeプロンプト学習→評価器を組み込んだ最適化、という4段階を踏んで初めて、自動評価ループが動き始めます。

特に「評価データの収集経路」を最初に設計しておかないと、いくらDSPyを入れても回らないので、ここを最優先で押さえたいところです。

市野

「うちの社内Botを“測れるBot”にしたい」と悩んでいる方は、無料相談(30分)で具体的にお話しします。営業はしません、純粋にケース壁打ちです。 → 無料相談を申し込む

愛知県岡崎市でAI活用支援を手がける一人社長。中小企業の現場でAIを実装してきた経験から、他社事例を「うちで再現するには」の視点で読み解いて発信中。

執筆メンバー市野佑馬

愛知県岡崎市を拠点に、中小企業向けのAI活用支援を提供。ChatGPT・Claude Code等を活用した業務自動化やSEO・広告運用の内製化を支援。経営者が自らAIを使いこなせる体制づくりをサポートしている。