大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

AI一周写出ICLR研讨会论文!成果简洁有效获审稿人大赞

2025-03-19 简体 HK SG TW

今天小编分享的科学经验:AI一周写出ICLR研讨会论文!成果简洁有效获审稿人大赞,欢迎阅读。

AI 写的论文已经在 ICLR 的研讨会上通过了同行评审,还是一口气中就中了两篇。

其中一篇获得了7/6/7的同行评审分数,另一篇的审稿人也给出了7/7的成绩。

而且从假设生成到同行评审出版整个流程都是 AI 自主完成,一篇用时仅需不到一周。

这个 "AI 科学家 " 名为Zochi,由名为的 Intology 初创企业打造,成立刚刚不到两个月。

两名联创分别是连续创业者Ron Arel和前 Meta 华人研究员Andy Zhou,两人均毕业于伊利诺伊大学厄巴纳 - 香槟分校。

Zochi 入选的两篇论文,是以 Andy Zhou 名义进行投稿的,内容分别是:

子空间级别微调方法 CS-ReFT,能够让 7B 的 Llama-2 在 AlpacaEval 中超过 GPT-3.5,同行评审 7/6/7;

大模型安全漏洞检测框架 Siege,针对 GPT-3.5-Turbo 的检测准确率为 100%,审稿人打分 7/7。

并且在基于 NeurIPS 规则的自动打分程式的评审中,Zochi两篇论文均获得了 8 分的成绩。

两篇论文入选 ICLR

Zochi 被 ICLR 研讨会相中的两篇论文具体内容,接下来就一起来了解 ~

让 7B Llama-2 超越 GPT-3.5

第一篇论文,提出了一种名为 CS-ReFT 的子空间级别微调方法。

Zochi 发现了 AI 发展中的一个关键瓶颈——参数高效微调中的跨技能干扰。

也就是说,当同时将模型应用于多个任务时,一项技能的改进往往会降低其他技能的性能。

研究之后,Zochi 提出了 CS-ReFT 方法,部分基于 ReFT 改造而来,但重点是表示编辑而不是权重修改。

具体来说,不同于 LoRA 等方法在权重级别实现正交性约束,CS-ReFT 将这些约束直接应用于隐藏状态表示。

这种方法使得每个任务都有其专用的子空间变换,反之,每个变换都专注于一项独特的技能,从而消除了跨技能干扰。

当应用于 Llama-2-7B 时,CS-ReFT 在 AlpacaEval 上取得了 93.94% 的胜率,用不到万分之一的参数超过了 GPT-3.5-Turbo(86.30%)。

评审人员称赞,这是一个 " 聪明的想法 ",并且 " 有效解决了 ReFT 的一个关键限制 "。

发现大模型安全漏洞

第二篇论文,关于大模型安全。

从现有的安全文献出发,Zochi 提出了 Siege 框架,它使用树搜索算法增强了多轮越狱策略。

Zochi 发现,模型在轻度违规在对话中累积的过程中会表现出 " 部分服从 " 行为,即在看似维护安全规则的同时附带产生一些违规的信息片段。

Siege 就是利用这种现象,系统地识别和利用对话分支中的轻微违规,通过积累实现越狱攻击。

它将每个对话状态视为搜索树中的一个节点,采用定向搜索来并行探索多种攻击策略。

该框架其核心创新是一种复杂的部分合规性跟踪机制,可以识别和利用增量政策泄漏。

与以前的方法相比,Siege 使用更少的查询,在 GPT-3.5-Turbo 上实现了 100% 的成功率,在 GPT-4 上实现了 97% 的成功率。

审稿人评价称,Siege 是一种 " 有效、直观的方法 " ,并且告知了人们需要重新评估现有的人工智能防御策略。

预测蛋白质 - 核酸结合位点

除了这两篇之外,还有一篇论文和计算生物学相关,由于完成时已经错过了 ICLR 会期,转而投稿期刊,目前正在接受审查。

这项研究提出了一种名为EGNN-Fusion的架构,能够预测蛋白质 - 核酸结合位点。

它的性能可与最先进的方法相媲美,同时将参数数量减少了 95%,体现了 Zochi 跨领網域迁移知识和解决 AI 之外的复杂科学挑战的能力。

和前面两篇一样,这篇论文也进行了程式自动化评分,得分为 7 分,所以 Zochi 三篇论文的平均成绩为 7.67。

多智能体协作完成科研流程

除了能在不到一周的时间内自主写出一篇高质量论文之外,Zochi 还挑战了 MLE-Bench 的 Kaggle 子集。

结果在没有任何特定任务优化的情况下,Zochi 直接取得了 SOTA 水准,并且在 80% 的任务上超越了人类的平均表现、在一半的任务当中获得金牌。

那么,Zochi 是怎么做到的呢?其中的关键,就在于当下流行的多智能体协作框架。

Zochi 将科学方法分解为专门的组件 , 每个组件处理研究过程中不同的过程,具体包括四个阶段:

文献分析和知识综合;

假设生成和细化,确定研究方向;

实验设计和实施、评估;

数据分析和解释以及科学交流。

给 Zochi 设定的研究目标,既可以是一般的研究领網域(如 "AI 安全 "),也可以是一个细粒度问题或思路(如 " 多模态表征对齐方法 ")。

系统进行广泛的探索和迭代过程,Zochi 生成多个候选假设,设计并执行实验来测试这些假设,分析结果,并根据发现迭代优化其方法。

最后,Zochi 以研究论文的格式起草一份报告,不断完善直到质量足以提交同行评议。

此外 Zochi 的另一个关键,是其结构化验证过程,类似于学术研究中的导师 - 学生关系。

在研究过程的关键节点,人类专家需要在下一步骤进行之前验证 Zochi 的工作,具体包括三个关键阶段——大规模实验开始之前、准备文稿之前,以及文稿完成之后。

反馈侧重于验证方法的合理性,并验证报告的结果是否准确反映实验结果,以确保完整性。

除了强制性验证外,人类专家还可以选择随时提供高层次的反馈,这一过程主要用于论文写作,因为 Zochi 经常难以遵循预期的提交格式(如页面限制)。

不过人类输入通常包括几句简短的评论,用于指出潜在问题或建议替代方向,而不是给予详细指示。

"AI 科研 " 仍然争议不断

Zochi 这次取得的成绩,在 AI 当中确实是一个不错的水平,但并不是最早的 AI 科研系统。

去年,"Transformer 八子 " 之一的 Llion Jones 创立的 Sakana AI,推出了一个基于 AI 的自动化科研系统。

而且这个系统名字简单粗暴,就叫AI Scientist,并且已经有了第二代。

也是在这届 ICLR 上,第二代 AI Scientist 的论文在其中的一个研讨会上通过了同行评审,分数为 6/7/6。

不过,研讨会和 ICLR 主会议的录用标准也存在不同,前者的录用率大约是后者的两到三倍。

在 Sakana 内部基于 ICLR 主会议规则进行的评审中,AI Scientist-v2 的论文并未通过。

这似乎也和 Intology 基于 NeurIPS 规则进行的机器评测结果形成了对应,AI Science v2 的平均成绩不到四分,甚至还不如前一代。

当然,Zochi 的成绩相对高出不少,但最终能不能入选主会议也要等待最终结果。

但是,由于学术界针对 AI 科研还存在很大争议,即使成功入围,研究团队可能也会在正式发稿之前撤回。

Intology 就表示,出于维护学术诚信的考虑,认同 AI 不应当被列为学术作品的作者,但正在和研讨会组织者进行讨论,决定是否向研究界展示。

而在前段时间,另一家顶会 CVPR 就拒绝了 19 篇论文,其原因正是和滥用 AI 有关。

甚至 CVPR 还明确要求,审稿人撰写评审意见同样不能使用 AI,也不能把任何实质性内容交给 AI(哪怕是用于翻译也不可以)。

学术会议之外,国内外诸多高校也开始针对学生论文使用 AI 的情况加强审查,并出台限制措施。

的确在现实情况当中,确有滥用 AI 的行为存在,颁布这类规定的目的也是基于学术诚信的考量。

但一禁了之不应是长久之策,还应该对学术研究从事者,特别是学生群体给予正确引导,并积极探索 AI 提效与学术不端之间的合理边界。

那么,你认为 AI 在学术活动当中,怎样被利用才是合理的呢?

Zochi 技术报告:

https://www.intology.ai/blog/zochi-tech-report

CS-ReFT 论文:

https://arxiv.org/abs/2503.10617

Siege 论文:

https://arxiv.org/abs/2503.10619

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

最后一周!2025 年值得关注的 AIGC 企业产品 报名即将截止

下一个 AI" 国产之光 " 将会是谁?欢迎申报奖项!

本次评选结果将于 4 月 16 日中国 AIGC 产业峰会上公布。

一键星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們