AiDuo123 研究与论文分类 — AI 行业资讯,每日精选,中文呈现。
共 1 篇
OpenAI 推出包含 13 项评估(24 个环境)的系统性框架,用于衡量 AI 推理模型的思维链可监控性。研究发现,监控思维链(CoT)比仅监控输出有效得多,推理时间越长的模型越易监控,但小模型高推理与大模型低推理存在"可监控性税"权衡。研究呼吁业界共同保持思维链可监控性,使其成为未来 AI 系统的关键控制层。