AIに「どこまで任せるか」を設計する ── Human-in-the-loopをスケールさせる運用モデル

「人を残す」と決めたあとに、本当の設計が始まる

AIに営業やオペレーションを丸ごと任せる時代は、来ませんでした。2026年現在、業界がたどり着いたのは、AIと人の役割を意図的に分けて設計するHuman-in-the-loop（人間がループに入る協働モデル）です。私たちは前回のレポート「Human-in-the-loopとは何か」で、なぜ完全自動だけでは回らず、業界がHuman-in-the-loopへ収束したのかを振り返りました。そして最後に、こう問いを残しました。「人を残す」と決めても、それは答えの半分でしかない、と。

このレポートは、その続きです。「人を残す」と決めた瞬間に、もっと厄介な問いが立ち上がります。どこに、どれだけ、いつまで人を残すのか。これは思想の問題ではなく、設計の問題です。

本レポートのテーマはここにあります。Human-in-the-loopを「やるかどうか」ではなく「どう設計し、どうスケールさせるか」。人の関与をどこに残すかを決めた、その先の話をします。

「やるか」ではなく「どう設計するか」── HITLの現在地

2026年のAIエージェントをめぐる数字は、一見すると矛盾しています。Gartnerは2025年8月、2026年までにエンタープライズアプリケーションの40%がタスク特化型AIエージェントを搭載すると予測しました（2025年時点では5%未満）。その一方で同社は2025年6月、エージェンティックAI（自律的に判断し実行するAI）のプロジェクトの40%超が、コスト増や事業価値の不明確さを理由に2027年末までに中止されるとも予測しています。アクセルとブレーキが同時に踏まれている状態です。

現場の統計はさらに厳しい。IDCがLenovoと実施した調査（2025年）では、企業のAI実証実験（PoC）の88%が本番展開に至らないという結果が出ています。33件のPoCのうち、本番化したのはわずか4件でした。多くの企業が試して、多くが本番に届いていない。

ここで誤読してはいけないのは、これを「AIが使えない」という話にしてしまうことです。失敗の中身を見ると、技術の限界より設計の不在が原因になっているケースが目立ちます。Gartnerが中止理由に挙げるのもコスト増と事業価値の不明確さですが、その根にあるのは運用設計の不在だと私は見ています。多段で動くエージェントの挙動を誰が追跡するのか。何かが起きたとき、誰が、どこで、何を見て止めるのか。その運用の段取りが抜けたまま動かしているケースが少なくありません。これは技術の問題ではなく、運用設計の問題です。

逆の証拠もあります。人間をどれだけループに残すか（HITL率）は、用途によってきれいに分かれます。規制・監査証跡・契約義務が絡む法務やコンプライアンスの領域では、顧客に影響する意思決定に人間の承認を残すのが実務上の標準です。責任が重い領域ほど、人を近くに残す。つまり、勝っている企業は「AIか人か」を二択で決めているのではなく、リスクに応じて人の関与度を設計しているわけです。

問いはもう「AIに任せるか」ではありません。「どこまで、どう任せるかを設計できるか」へ移っています。

設計の単位は「タスク」ではなく「自律化率」

前回、私たちは「リスクに応じて、人の関与をどこに・どれだけ残すか」という考え方までを示しました。失敗したときの責任が重い領域ほど人を厚く残し、リスクの低い定型作業はAIに寄せる。これは出発点として有効です。

ただし、リスクでタスクを仕分けるだけでは足りません。仕分けは静的だからです。「このタスクは人」「このタスクはAI」と一度ラベルを貼って終わりにすると、現実とズレていきます。なぜなら、同じタスクでもAIの精度はデータの蓄積とともに上がり、人間が握っておくべき範囲は時間とともに狭まるからです。

だから、設計の単位を「タスク」から「自律化率」へ移すことを勧めます。自律化率とは、ひとつの業務をAIと人がどの比率で担うかを示す指標です。ここでいう比率は、単純な人員数ではありません。その業務を構成する判断ポイントのうち、AIが自走で処理する割合と、人が介在して確認・承認する割合を指します。たとえば業務中の10の判断のうち、8をAIが自走で処理し、2を人が握る。これが人2:AI8です。「このタスクはAIか人か」の二択ではなく、「この業務は今はAI6:人4、3カ月後にはAI8:人2」と、比率と時間軸で設計する。

この視点に切り替えると、設計が動的になります。立ち上げ期は人を厚めに入れてAIの挙動を学習させ、信頼が積み上がったぶんだけ人の関与を抜いていく。タスクを固定で振り分けるのではなく、関与度を時間とともに動かしていく。これがHuman-in-the-loopをスケールさせる発想の核心です。

自律化率を段階的に引き上げる

では、自律化率を具体的にどう動かすか。設計は3段階で考えます。

立ち上げ期は、人2に対してAI8ではなく、あえて人4:AI6から始めます。AIの出力を人が高い頻度で確認し、誤りのパターンを潰し、判断基準をAI側に移していく学習期間です。ここで効率を焦らない。

標準期で、人2:AI8へ引き上げます。AIの出力が安定し、人は例外対応と品質管理に役割を絞れる状態です。1人の担い手が複数の案件・複数の顧客を監督できるようになるのは、このフェーズからです。

最終形では、人1:AI9まで持っていきます。AIがほぼ自走し、人は重要な分岐と異常の検知だけに関与する。ここまで来て初めて、レバレッジが最大化します。

重要なのは、なぜ最初から人1:AI9を狙わないのか、です。信頼の担保がないまま自律化率を上げると、事故が起きるからです。象徴的だったのが、Klarnaの事例でしょう。同社はOpenAIと構築したAIアシスタントが、稼働1カ月でフルタイム700名相当の業務を担い、問い合わせの解決時間を11分から2分未満へ短縮したと2024年2月に発表しました。圧倒的な成果です。しかし2025年、Klarnaは複雑な案件向けに人間のサポート体制を再び拡大しました。コスト削減を急ぎすぎて品質が落ちた、という見方もあります。どちらにせよ共通するのは、自律化率を一気に上げたことが揺り戻しを生んだ、という構造です。AIの能力が足りなかったというより、人を抜くスピードが設計より速かった、と読むべき事例でしょう。

自律化率の段階的な引き上げは、リスクを時間で分散する設計です。一気に人を抜かない。信頼が積み上がったぶんだけ抜く。これがスケールと安全を両立させる唯一の現実解だと考えています。

設計を支える3つの仕組み

自律化率を動かしていくには、それを支える運用の仕組みが要ります。2026年に成果を出している組織を観察すると、3つの共通項が見えてきます。

ひとつめは、チェックポイントの設計です。本番化に成功している企業は、立ち上げの初期段階で明示的なHuman-in-the-loopのチェックポイントを置いています。どの工程で人が必ず止まるのか、そこで何を見るのかを事前に定義する。チェックポイントがないまま自動化率だけ上げると、誰も気づかないうちに品質が崩れます。

ふたつめは、agent ownerの任命です。本番化に成功している組織ほど、予算権限と成果目標を持つ「agent owner」を明確に指名している傾向があります。要するに「このエージェントの数字は誰のものか」を決めるということです。所有者のいない自動化は、改善されないまま放置され、いつのまにか止まります。

みっつめは、成果連動の指標です。多くの企業が、処理時間の削減や自動化率といった手段の指標でAIを評価しようとします。しかしこれらは「動いているか」を示すだけで、「事業が伸びたか」を示しません。測るべきは、商談化率・解決率・成約率・顧客満足度といった成果の指標です。カスタマーサポート特化のSierraが、AIが顧客の問題を自律的に解決したときだけ課金する成果連動モデルを採るのも、価値を成果で定義しているからにほかなりません。手段で測る限り、3カ月後に「数字は出ているのに事業は変わらない」という結末を迎えます。

チェックポイント、agent owner、成果連動の指標。この3つが、自律化率を安全に引き上げていく土台になります。

最初から全業務でこれを揃える必要はありません。むしろ逆効果です。まずは1つの業務を選び、そこに1つのチェックポイントを置き、1人のagent ownerを決める。そして成果指標を1つだけ定めて、立ち上げ期の比率から回し始める。そこで効いた設計を、次の業務へ横展開していく。スケールは、最小の1セットを動かしきったあとにしか始まりません。

ギアソリューションズは、これを自社で回している

ここまでの設計論は、机上の整理ではありません。先ほどの人4:AI6から人2:AI8、人1:AI9へという段階も、フレームワークとして借りてきた数字ではなく、私たちが自社のBtoBグロースをAI駆動で動かしながら実際に踏んできた経路です。自社の事業で実証したメソッドだけを、市場に渡す。これがギアソリューションズの一貫した姿勢です。

具体的には、こうです。立ち上げ期は、AIが書いた一次ドラフトを人がほぼ全件確認するところから始めます。そこで繰り返し発生する修正を記録し、頻出するパターンをAI側のルールへ移していく。人が直す回数が減るほど、確認の比率を安全に下げられます。自律化率は、こうして「人が直した記録」を燃料に上がっていく。気合いや勘で一気に引き上げるものではありません。

とりわけ日本では、この設計の巧拙が効きます。人月で工数を積んで請け負う受託文化が根強いため、AIで効率化するほど「人月で見積もれず、かえって売りにくい」という逆説が起きやすい。自律化率を上げ、人月ではなく成果で値付けする発想に切り替えられるかどうか。これが、日本のBtoB事業でAIを収益に変えられる組織と、効率化を値引きで終わらせる組織を分けます。

私たちが提供するAI Powered BPaaS（AIを組み込んだ業務プロセスのアウトソーシング）は、人2×AI8のHuman-in-the-loopで設計したService-as-Software（人手の作業を、ソフトウェアのように成果単位で提供する形態）です。リード生成、メール配信、SEO/AEO、データオペレーション、レポーティングといった実行業務を、AIが大半を担い、AI Poweredスタッフが監督する。1人の担い手が複数社のオペレーションを束ね、自律化率を段階的に引き上げていく前提で組み立てています。

ここで私たちは「100%AIに任せます」とは言いません。むしろ逆です。Human-in-the-loopであることを設計の前提に置き、どこに人を残すかを明示する。AIが定型と反復を担うほど、人には「市場に出て、顧客と一次情報で向き合う時間」が戻ってきます。企画・開発・実行をAIで徹底効率化し、浮いたリソースをGTMにぶつける。AI Powered GTM Companyを名乗る私たちの事業の在り方は、この設計の上にしか立ちません。

AIを動かすことと、人を残すことは、対立しません。どこに人を残すかを設計しきった組織だけが、AIを本当の意味でスケールさせられる。私たちはそう考えて、自社で回しています。

まとめ：勝つのは「どこに人を残すかを設計できる会社」

2026年の現在地を、最後に3点で整理します。

第一に、論点は「AIに任せるか」から「どこまで、どう任せるかを設計できるか」へ移りました。多くのPoCが本番に届かないのは、技術ではなく運用設計の不在が原因です。

第二に、設計の単位はタスクから自律化率へ移すべきです。境界を固定するのではなく、人2×AI8を起点に、信頼が積み上がったぶんだけ人の関与を抜いていきます。立ち上げ期の人4:AI6から、標準期の人2:AI8、最終形の人1:AI9へ。一気には抜きません。

第三に、それを支えるのはチェックポイント・agent owner・成果連動の指標という3つの仕組みです。

Human-in-the-loopは、過渡期の妥協ではありません。AIをスケールさせるための到達点です。100%AIでも100%人でもなく、どこに人を残すかを設計できる組織が、AI時代のBtoBグロースを動かしきります。設計とスケールができる組織能力こそが、これからの競争優位になります。

ギアソリューションズでは、BtoB企業のHuman-in-the-loop設計と、自律化率を段階的に引き上げる運用モデルの構築をハンズオンで行っています。「AIを導入したが本番で拡大できない」「タスク境界は引いたが、その先の運用設計に踏み込めていない」という課題をお持ちの方は、ご相談ください。

Human-in-the-loop設計についてよくある質問

Q1. 自律化率は、どう決めればよいのですか？

タスクの「失敗時の責任の重さ」と「AIの現在精度」の2軸で決めます。失敗が規制・契約・ブランドに直結する領域ほど、人の関与を厚く残す（HITL率を高くする）。そのうえで、AIの出力が安定してきたら関与を段階的に抜いていきます。最初から一律の比率を当てず、領域ごとに設計するのが要点です。

Q2. 最初から高い自律化率を狙ってはいけないのですか？

避けるべきです。信頼の担保がないまま人を抜くと、品質の崩れに誰も気づけません。Klarnaが人間サポートを再拡大したように、抜くスピードが設計より速いと揺り戻しが起きます。立ち上げ期はあえて人を厚く入れ、学習が進んだぶんだけ抜く。これが結果的に最短でスケールする経路です。

Q3. 中小企業でもHuman-in-the-loop設計はできますか？

できます。むしろ少人数の組織ほど、1人の担い手がAIを監督して複数業務を回すレバレッジが効きます。大規模なツール群を揃える必要はありません。まず1つの業務でチェックポイントとagent ownerを決め、成果指標で測りながら自律化率を上げていく。小さく始めて、効いた設計を横展開するのが現実的です。

Q4. 成果指標は、具体的に何を見るべきですか？

事業成果に直結する指標を見ます。営業領域なら商談化率・成約率、サポート領域なら解決率・顧客満足度、マーケ領域なら有効リード数や案件貢献額です。処理時間の削減や自動化率は、進捗の確認には使えますが、評価の主軸に置いてはいけません。手段の指標で評価すると、事業成果と乖離します。

Q5. PoCの多くが本番に届かないのは、AIエージェントが未成熟だからですか？

主因はそこではありません。IDCとLenovoの調査（2025年）でPoCの88%が本番化に至らないのは、技術力よりも運用設計の不在が大きいと見るべきです。誰がどの工程で止め、誰が数字に責任を持ち、何を成果として測るのか。この段取りを決めずに動かすと、精度の前に運用が破綻します。本レポートで述べたチェックポイント・agent owner・成果指標は、この破綻を防ぐための最小装置です。

参考情報

Gartner「Gartner Predicts 40% of Enterprise Apps Will Feature Task-Specific AI Agents by 2026」（2025年）
Gartner「Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027」（2025年）
Lenovo / IDC「Research reveals AI is paying off, but CIOs aren't ready」（2025年・PoCの88%が本番未到達）
OpenAI「Klarna's AI assistant does the work of 700 full-time agents」（2024年）
Klarna「AI assistant handles two-thirds of customer service chats in its first month」（2024年）
Sierra「Outcome-based pricing for AI agents」