当前位置: 网通社快报 > OpenAI推“忏悔”机制:AI需主动承认不当行为以提升透明度
OpenAI推“忏悔”机制:AI需主动承认不当行为以提升透明度
OpenAI于12月3日公布新训练框架,引入名为“忏悔”的机制,要求AI在输出答案后说明其推理过程,并主动承认如作弊、压低表现或违反指令等不当行为。该机制以诚实度为核心评分标准,不考量回答的有用性或准确性。只要模型坦承问题行为,反而会获得更高奖励,旨在提升AI透明度与可信度,减少迎合式或无根据的回答。
评论0
热门资讯
相关快报
相关资讯
请扫码下载网通社客户端
iPhone/iPad客户端
Andriod客户端
手机版 网通社汽车
- 经营许可证:京B-220170585号
- 京ICP备13031706号-2
- 广播电视节目制作许可证06725号
- 京公网安备 11010502058773号
- Copyright© 2012-2026聚众网通(北京)科技有限公司版权所有 未经许可不得转载


刘帅


杨志辉
咖咖Car

卓陆

