就在刚刚,世界上首个公开可用的AI科学家登场了!
一家由前谷歌CEO Eric Schmidt投资的非营利组织FutureHouse,正式宣布发布四个超人类的AI科学家智能体 。
通用智能体:Crow(乌鸦)
自动化文献综述智能体:Falcon(猎鹰)
调研智能体:Owl(猫头鹰)
实验智能体:Phoenix(凤凰)
这些智能体都是专门为科学研究而开发。
Crow通过了严格的基准测试,Falcon通过了严格的基准测试,Owl通过了严格的基准测试,它们在搜索精度和准确性上已经超越了目前顶级搜索模型,例如o3-mini,GPT-4.5,Claude-3.7 。
比较LitQA基准测试的精度,精度为正确答案与已回答问题的比值,还要比较其准确率,准确率是正确答案与所有问题的比值。
FutureHouse通过实验进行了验证,在直接文献搜索任务里,它们具备检索和综合能力,且这种能力比博士水平的研究人员具有更高的精度。
在问答任务中,对PaperQA2与人类博士的性能进行对比,在文章总结任务中,也对PaperQA2与人类博士的性能进行对比,在矛盾检测任务中,同样对PaperQA2与人类博士的性能进行对比。
在未来的一两年时间里,我们会见证这样的情况,如今科学家进行的大部分桌面工作,都将借助这些AI科学家的协助而加快速度!
完胜人类的AI科学家
FutureHouse董事兼CEO Sam Rodriques称,我们的AI科学家智能体,执行科学任务,已远超人类!
通过把它们串联起来,我们已经很快有了全新的生物学发现。
这次FutureHouse发布了AI科学家,这些AI科学家与以往的那些有什么不同呢?
这主要体现在,Crow能够访问大量完整的科学文本,Falcon能够访问大量完整的科学文本,Owl能够访问大量完整的科学文本。
这表明,你能够向它们提出问题。这些问题是关于实验方案的。并且是关于研究局限性的。而且是更详细的。
一般的网络搜索智能体,通常情况下只能访问摘要,这样一来就会错过这些问题。
而且,它们能够运用各种因素来分辨来源质量,保证它们不会依赖质量低的论文,也不会依赖流行的科学来源。
最后还有一点,这一点至关重要,即FutureHouse会为用户提供一个API,该API能让研究者把这些智能体直接集成到他们的工作流中。
网友热评:为我量身打造
有网友跃跃欲试,称自己已在设想使用这个 AI 科学家时的情景了。
有人表示,自己现在63岁了,有12年学界经验,还有25年私人诊所经验,觉得这些AI科学家很适合自己。
当然,也有人提出疑问:这些产品使用的数据经过允许了吗?
诚然,目前这些智能体还不能自主完成大多数的科学研究。
不过我们已经能够用它们来生成新的假设,能够用它们来评估新的假设,能够用它们来规划新的实验,而且速度比以前快很多 。
另外,Future House内部有专门用于数据分析的智能体,有专门用于假设生成的智能体,有专门用于蛋白质工程等方面的智能体,这些智能体在未来几个月内即将上线。
人类科研效率在下降,该AI上场了!
所以,AI科学家具体是怎么工作的?
三位来自FutureHouse的科学家,给我们做出了详尽的解答。
据他们介绍,FutureHouse的平台是从科学第一的角度构建起来的,它并非仅仅是为了吸引尽可能多的用户。
这三位科学家,本身对于科学就有着十分浓厚的兴趣。
左边的Michaela,在过去十年里,始终对控制人类细胞基因调控的分子机制充满好奇;中间的Mike是一位计算材料科学博士。
右边的Andrew称,他们共同创立未来之家时,留意到诸多生产力和科学出现下滑情况,每年人类发表的论文数量日益增多,然而突破却愈发稀少。
与此同时,AI却已经进化到了可以真正加速科学发展的程度。
因此,他们希望能让AI科学家实现自动化科研的整个过程,像是搜索文献,生成假设,进行分析。
其中,Crow非常适合文献检索问题,特别是在需要使用开放目标等数据源来提供简洁答案的情况下。
Falcon是一个搜索工具,它更具深度,会考虑更多来源,会在回答中为我们提供长篇报告。
Owl专注于先例搜索,若你好奇某项科研此前是否已被做过,它就能发挥作用,并且它很擅长梳理出某研究与过去研究的细微差别。
Phoenix是一名化学药剂师,他比其他科学家更具定制化特点,他更关注化学问题 。
从PCOS开始,找到值得研究的新药
Michaela称,自己的朋友近来表示,自己患有多囊卵巢综合征(PCOS),然而却很难寻觅到一种非激素的治疗方式。
Michaela进行了实际测试,测试内容是能否利用这些AI科学家,从没有任何初始信息的情况下,获得明确且可验证的假设 。
首先,她向Falcon询问,请对PCOS进行全面解释,随后AI科学家开始工作,且我们能够看到全程的推理过程。
能够看到,Falcon创建了属于自己的搜索词,它利用这些搜索词去搜寻已经发表的论文,而这所有的行为都是Falcon自行做出的决定 。
更特别的是,与主流Agent不一样,FutureHouse的AI科学家能够访问科学文献的全文,引用次数、引用图表以及来自哪些期刊,这些信息都非常清晰明确。
在接下来的步骤中,它挑选出了其中的19份论文,并且还将治疗PCOS的临床实验信息包含了进来。
随后,发生了一个极为密集的推理过程,Falcon会寻找到与所提问题最为相关的背景证据,在整个系统里,这种信息漏斗的功能十分强大。
几位科学家宣称,这个AI属于信息提取系统。它在当前该领域中,性能是最强的之一。
下一步,就轮到Crow登场了 。它被问到一个颇为具体的问题 :在基因组关联研究里 ,哪些关键基因与PCOS相关 ?是否有人做过更清晰的筛选 ?
果然,Crow发现了此前的研究,在一项功能基因组学研究中,有人已将特定基因表达的增加与细胞培养中睾酮表达的增加联系起来 。
但这是为什么呢?AI科学家也能找到答案。
就这样,我们从对PCOS一无所知的新手,一下子掌握了决定该领域的一个关键差距,原本这会花费我们大量时间去阅读资料,还会花费大量时间与专家交谈,现在这些全都省去了。
甚至我们能够点击链接,看到实际的推理轨迹,AI会解释选择这项来源的原因 。
对于科学家而言,AI科学家的辅助无疑意义重大。
在生物学领域拥有丰富经验的研究者,不会成为工程师,他们不擅长抓取论文。在药物设计领域拥有丰富经验的研究者,同样不会成为工程师,他们也不擅长设置分布式数据库和速率限制。
而这,就是FutureHouse平台诞生的意义。
那要怎样在提出假设这一方面取得进展呢?又要怎样在检验假设这一方面取得进展呢?这就需要Phoenix出场了。
我们能够向它提出问题,让它给出三种新型化合物,这些化合物可用于治疗由DENND1A过度表达引发的疾病,这是基于此前AI科学家给出的调研结果 。
因为在这个阶段,我们需要找到能治疗PCOS的药物。
我们可以从与蛋白质结合的分子入手,保证它更易于溶解,不会进入肝脏,也不会进入肾脏,并且没有获得专利。
在提问时,我们得知,当下不存在已知道的针对该基因的结合剂。这给出了一条很好的线索,甚至值得投入资金去开展药物研发。
最后,AI科学家给出了一份报告,这份报告是关于不同候选分子的,报告中列出了它们已知的结合物,还说明了为什么这些候选分子可能与调节DENND1A的表达有关。
这样,它给出了下一步研究的起点,我们能够直接前往实验室进行验证了。
1年造出AI科学家
FutureHouse的科学总监,也是联合创始人,名叫Andrew White,他在X上回顾了过去一年的研发历程。
2024年6月,FutureHouse推出了Lab-Bench基准测试。
2024年9月,FutureHous成功进行了开发,开发的对象是PaperQA2智能体。
PaperQA2示意图:和传统的RAG不一样,在PaperQA2里,LLM会决定把哪些工具应用到查询上 。
2024年10月,他们编写了17000篇维基百科文章,这些文章是关于人类编码基因的,他们通过这种方式验证了AI科学家的可行性。
2024年12月,他们运用新的框架,采用新的训练方法,在多个任务上训练智能体,在分子克隆方面,智能体的准确率超过生物学专家20多个百分点,在文献研究方面,同样超过生物学专家20多个百分点。
昨天,他们隆重发布了FutureHouse平台。
独具匠心的智能体,
真正改变科研
和传统智能体相较,FutureHouse智能体具备十分独特的优势:
它们能够访问海量高质量的免费论文,它们能够使用专业科学工具,它们还能从专业的论文数据库中精准搜索信息。
它们还能模仿研究人员,采用多种方法评估信息来源的质量。
并且这些智能体的推理过程是完全透明的,针对每个信息来源都展开了多阶段的深入分析。
更重要的是,用户能够清晰地查看整个推理过程,用户可以了解智能体得出结论的每一步依据。
此外,FutureHouse平台具备良好的扩展性。
科学家个人常常难以维护自身的AI智能体部署,所以FutureHouse不但提供了网页端接口,而且开放了API,这方便研究人员把它集成到实际工作流里。
科学家对这些智能体进行大规模整合与链接,如此一来,能够大幅提升科学发现的速度,还能大幅提升科学发现的效率。
已知的具体应用场景
这个平台尤其擅长应对以下两类问题:
需要详尽全文文献分析的研究课题,
或需要运用专业化学工具的探索任务。
具体应用场景包括:
挖掘疾病路径里的未知机制:用户能够借助Falcon获取背景知识,通过Crow挖掘关键基因关联,利用Owl定位研究空白。
这些操作完成只需几分钟,然而传统的文献调研却要耗费数周时间。
系统梳理文献里的矛盾:用户能够借助Falcon剖析数百篇论文里争议性话题的矛盾证据,精确指出需要进一步实验来澄清的争议点。
深入剖析实验方法,智能体能够访问计划全部的科学论文,用户可以详细询问实验方法,也可以询问研究局限性,进而挖掘摘要中难以察觉的关键细节。
研究团队利用API构建软件系统,通过该系统实时监控最新论文,或者大规模搜索文献,以此为筛选实验结果提供全面的背景知识支持,实现通过API定制研究流程 。
寻找目标蛋白的结合候选物:科学家能够指示Phoenix,基于现有的数据来筛选结合目标蛋白的候选物,这些候选物要同时满足溶解度、官能团或新颖性等复杂要求。
探索化学知识:Phoenix能够判断化合物的新颖性,Phoenix能够估算成本,Phoenix能够预测化学反应结果,甚至Phoenix还能比较直接购买与自行合成化学品的成本。
参考资料: