乐鱼别只盯着 Harness 了, 多 Agent 信得过缺的是“治理系统”

发布日期：2026-04-30 20:46 点击次数：118

乐鱼别只盯着 Harness 了，多 Agent 信得过缺的是“治理系统”

跟着AI从单一推论者演变为多Agent合作团队，HarnessEngineering已不及以唐突复杂系统的顾问挑战。本文冷落GovernanceEngineering见识，揭示如安在AI团队中修复方针设定、冲突仲裁、迭代范围和风险回想的顶层机制，为家具司理提供唐突AI组织化合作的治理框架。

最近一段期间，HarnessEngineering被筹备得好多。

这不奇怪。

以前几年，咱们和AI打交说念的方式照实变了好几轮。最早全国筹备Prompt，要点是何如把一句话说了了。自后启动讲Context，发现只会发问不够，还得把业务配景、数据、敛迹一都给到模子。再往后，Agent能调用器具、能推论任务，全国又启动状貌Harness，也即是何如给AI设经过、设范围、设校验。

这些东西都紧迫。

但我有一个嗅觉：淌若AI家具赓续往多Agent协同走，只筹备Harness可能不够了。

Harness更像是给每个Agent写岗亭说明书。这个变装能作念什么，不可作念什么，作念到哪一步要停驻来，哪些手脚必须东说念主工证明，收场何如验收。

淌若是单个Agent，这套方法挺灵验。比如一个写代码Agent、一个客服Agent、一个内容生成Agent，只消任务范围相比踏实，法则写了了，基本能跑起来。

清贫出面前多Agent协同之后。

家具Agent思把体验作念无缺，开荒Agent思遏抑复杂度，测试Agent教唆上线风险，运营Agent又盯着行动窗口期。每个变装单独看都没错，但放在一个系统里，事情就启动变复杂。

这时问题依然不是“某个Agent的SOP写得不够细”，而是扫数AI团队零落一套更表层的顾问轨制。

我暂时把它叫作念GovernanceEngineering。

这个词听起来有点重，但说白了，即是给AI团队蓄意一套“公司轨制”：方针何如定，冲突谁来判，哪些风险不可碰，出了问题何如回想，法则我方更新时又不可跳跃哪些范围。

一、Prompt、Context、Harness，其实都是顾问方式的变化

好多技能词一流行，就容易被讲得很玄。

但淌若换成家具司理老到的场景，它们并不生分。

PromptEngineering处置的是“何如把需求说了了”。

这就像你带一个刚入职的实习生。你只说“帮我作念个行动决议”，对方梗概率会给你一份没什么本性的模板。但淌若你说了了方针用户、行动目的、预算遏抑、委用风物和判断法式，收场世俗会靠谱好多。

是以Prompt的实质，不是黑话，而是需求抒发本事。

ContextEngineering处置的是“何如把配景给无缺”。

好多时候，AI不是不机灵，而是不知说念现场发生了什么。你让它写运营决议，淌若只给一句“升迁复购”，它只可给你一套通用手脚。但淌若你补充用户分层、历史行动数据、预算、东说念主群遏抑、渠说念情况，它才可能写出更接近业务现场的东西。

这和家具司理写需求同样。PRD里独一功能形色是不够的，还要讲了了业务配景、用户场景、范围条款和历史包袱。

HarnessEngineering处置的是“何如让Agent按法则干活”。

当AI不仅仅回话问题，而是能调用器具、推论任务、串经落后，就必须加范围。哪些操作不错自动完成，哪些必须东说念主工证明，哪些数据不可碰，失败后何如回滚，这些都是Harness要处置的问题。

是以这几次变化，实质上不是技能名词换了一轮，而是咱们顾问AI的方式在变：

从管一句话，到管高下文，再到管一个推论变装。

但面前的问题是，AI正在从“一个推论变装”形成“多个变装构成的小团队”。

团队一朝出现，就不可只靠岗亭SOP了。

二、Harness处置不了多Agent的组织问题

假定你作念了一个AI家具研发系统，内部有家具Agent、开荒Agent、测试Agent、运维Agent。

你固然不错给每个Agent写Harness。

家具Agent负责拆需求。

开荒Agent负责写代码。

测试Agent负责找问题。

运维Agent负责部署和监控。

看起来很无缺。

但信得过跑起来以后，问题陆续不出在单个变装身上，而是出在变装之间。

比如家具Agent认为某个功能是中枢体验，必须作念；开荒Agent认为达成资本太高，建议砍掉；测试Agent发现范围风险，要求展期；运营Agent又以为行动窗口期不可错过。

这时候谁说了算？

淌若莫得表层方针和仲裁法则，系统就会形成一种很莫名的情景：每个Agent都在谨慎劳动，但全体地点越来越乱。

还有一种情况也很常见。

你最启动的方针是升迁7日留存，是以给各个Agent配了一套经过。过两周业务方针形成升迁30日复购，正本的法则就不太适用了。

淌若每次方针变化，都要从头改一遍每个Agent的SOP，那Harness很快就会形成新的赞好意思包袱。

更清贫的是追责。

线上出了问题，家具Agent说需求没错，开荒Agent说我是按需务达成的，测试Agent说这个范围没被诡秘到。每个要领似乎都多情理，但系统层面即是出事了。

这类问题，靠“把单个Agent的法则写得更细”很难处置。

因为它们不是岗亭问题，而是组织问题。

三、Governance到底要管什么？

我交融的GovernanceEngineering，不是再造一个更复杂的经过，也不是给家具套一个新见识。

它信得过要处置的，是四件很朴素的事。

第一，顶层方针。

一个AI系统必应知说念我方最终服务什么方针。

比如一个电商运营系统，方针不是“多发几条营销内容”，而是升迁复购，同期不可空虚宣传，不可过度惊扰用户，不可跳跃预算和数据合规红线。

淌若方针不写在系统最表层，底下每个Agent都可能优化局部目的，终末反而伤害全体收场。

第二，冲突仲裁。

多Agent协并吞定会有冲突。家具体验、开荒资本、合规要求、运营恶果，leyu本来就频繁彼此拉扯。

Governance要作念的，不是澌灭冲突，而是提前界说冲卓绝当前何如判断。

比如用户安全高于振荡恶果，合规要求高于增长方针，预算证明高于自动推论。

这样系统遭遇冲突时，不至于每次都从头猜。

第三，迭代范围。

面前好多Agent依然不错复盘我方的推论收场，以致生成新的计谋。这个本事很有价值，但也很危机。

一个运营Agent可能发现某种触达方式振荡更高，于是自动提高触达频率。短期看，目的可能变好；遥眺望，可能形成零散用户，以致触碰平台法则。

是以Governance不是不让AI自我优化，而是步伐：你不错优化，但不可冲破哪些范围；你不错生成新法则，但哪些法则必须经过校验；你不错自动推论，但哪些手脚必须留痕。

第四，风险和追责。

企业级AI系统最怕的不是出错，而是出错后不知说念为什么错、谁触发的、影响限制多大、何如停驻来。

Governance必须让重要步履可回想：哪个Agent作念了什么判断，基于什么数据，调用了什么器具，影响了哪些用户，是否经过证明。

莫得这层机制，AI系统越自动化，风险反而越难遏抑。

四、几个常见场景，其实依然在靠治理本事兜底

Governance听起来像一个新词，但它对应的问题并不新。

比如AI参与家具研发。

一个多Agent研发系统，不仅仅让家具Agent写需求、开荒Agent写代码、测试Agent跑用例这样简便。信得过清贫的是：需求变了，经过何如调度？开荒和家具冲突时，谁来判？代码能不可径直上线？高风险改造要不要东说念主工证明？

这些都不是单个Agent的本事问题，而是系管辖理问题。

再比如AI作念用户运营。

大促期间要振荡，日常运营要留存，新品发布要拉新。运营方针一直在变，淌若只靠固定SOP，每次行动都要从头设置一遍法则。

更好的方式是先定了了顶层敛迹：不可违法营销，不可过度惊扰用户，不可暴露用户数据，触及预算必须东说念主工证明。然后再让不同Agent在这个范围内调度计谋。

内容分娩亦然同样。

好多团队依然让AI参与选题、写作、审核和发布。但信得过决定系统能不可遥远跑下去的，不是某个写作Agent文笔有多好，而是有莫得原创性校验、品牌调性校验、敏锐内容箝制、东说念主工终审和职责留痕。

这些机制放在一都，才是内容AI系统信得过的安全感。

是以Governance不是一个离业务很远的空洞见识。它其实即是把家具司理以前作念的方针顾问、经过顾问、风险顾问，放到了AI系统里。

五、别急着堆Agent，先把敛迹思了了

好多团队作念AI家具时，容易有一个误区：以为变装越多、器具越多、经过越复杂，家具就越高等。

但实在情况陆续相悖。

AI系统越复杂，越需要先把敛迹放在前边。就像咱们作念一个日常家具，不会一上来就堆功能，而是先思了了：这个家具处置谁的问题，范围在何处，哪些事情不可作念，出了问题何如兜底。

作念AI家具亦然同样。

你不一定要一启动就搭一个很复杂的多Agent系统。更紧迫的是先回话几个问题：

这个AI系统的最高方针是什么？

哪些操作必须东说念主工证明？

哪些风险一朝出现要坐窝熔断？

法则不错自动迭代到什么进度？

出了问题以后，能不可追意料具体决策链路？

这些问题思不了了，Agent越多，失控越快。

是以Governance的中枢不是“管得更细”，而是“先把范围定了了”。先有顶层方针、中枢法则和风险闭环，再往内部填AI本事，系统才有可能踏实运行。

六、家具东说念主的本事，仅仅换了一个使用场景

好多家具东说念主会追悼，AI会不会取代家具司理。

我以为这个问题要断绝看。

淌若一个家具司理的劳动仅仅整理需求、写文档、跟进排期，那照实会被AI影响。因为这些手脚里，有很大一部分会被器具加快，以致被自动化。

但淌若一个家具司理信得过负责的是判断方针、作念弃取、和洽资源、遏抑风险，那他的价值反而会更昭彰。

因为多Agent系统越复杂，越需要有东说念主回话这些问题：

这个业务方针到底值不值得作念？

增长、体验、资本和合规冲突时，优先级何如排？

哪些风险宁可放胆恶果也不可碰？

哪些决策不错交给AI，哪些必须留在东说念主手里？

这个系统出了问题以后，谁能诠释了了发生了什么？

这些问题，不是写几个Prompt就能处置的。

以前家具司理顾问的是用户需求、业务经过、研发资源和样子节律。接下来，仅仅顾问对象变了：从“东说念主和系统”，形成“东说念主、AI和业务生态”。

是以家具司理不一定要把我方形成算法工程师，也没必要追着每一个新见识跑。更紧迫的是，把正本作念家具权术、用户筹备、样子顾问、合规风控的本事，迁徙到AI系管辖理里。

这可能才是AI时间家具司理更值得进入的地点。

收尾

从Prompt到Context，再到Harness，实质上都是一件事：咱们在学习若何独揽一个越来越自主的系统。

Prompt让AI听懂单次需求。

Context让AI进入实在业务配景。

Harness让AI按法则完成任务。

而Governance要处置的是，当多个AI启动合作时，扫数系统若何不跑偏、不失控、可追责。

是以，Harness的流行不是荒谬。它更像是一个信号：AI家具依然走到“组织化合作”的阶段了。

接下来，真偶合得家具东说念主关注的，不仅仅某个Agent能不可完成任务，而是一群Agent若何围绕并吞个方针，遥远、踏实、可控地运转。

能把这件事蓄意好的东说念主，不一定是最懂模子的东说念主，但一定要懂业务、懂弃取、懂风险，也懂系统若何被顾问。

这件事听起来新乐鱼，其实家具司理并不生分。咱们以前一直在作念肖似的事，仅仅这一次，团队里多了一批不会喊累、也更容易失控的AI。

大发官方网站手机app

上一篇：leyu体育 AI干戈中的“东说念主类监督”是一种幻觉
下一篇：leyu体育 6G前夕: AI-RAN莫得“原罪”, GPU也不是“独一解”

让建站和SEO变得简单

乐鱼 别只盯着 Harness 了, 多 Agent 信得过缺的是“治理系统”

乐鱼别只盯着 Harness 了, 多 Agent 信得过缺的是“治理系统”