ConnectomeBench: Can LLMs Proofread the Connectome?
Jeff Brown, Andrew Kirjner, Annika Vivekananthan, Ed Boyden
连接组学 - 生物体大脑中神经连接的映射 - 目前需要非凡的人类努力来校对从成像和机器学习辅助分割收集的数据。 随着使用AI代理自动化重要科学任务的日益兴奋,我们探索当前的AI系统是否可以执行数据校对所需的多项任务。 我们引入了ConnectomeBench,这是一种多模态基准评估大型语言模型(LLM)功能,用于三个关键校对任务:段式识别,拆分纠错和合并错误检测。 使用来自两个大型开源数据集的专家注释数据 - 一立方毫米的鼠标视觉皮层和完整的Drosophila大脑 - 我们评估专有的多模态LLM,包括Claude 3.7/4 Sonnet,o4-mini,GPT-4.1,GPT-4o,以及InternVL-3和NVLM等开源模型。 我们的结果表明,当前模型在分段识别方面实现了令人惊讶的高性能(52-82%均衡精度与 20-25% 机会)和二进制/多个选择拆分纠错 (75-85% 精度 vs. 50%的机会),而一般在合并错误识别任务上挣扎。 总体而言,虽然最佳模型仍然落后于专家性能,但它们展示了有希望的功能,最终使它们能够在连接组学中增加并可能取代人类校对。 项目页面:https://github.com/jffbrwn2/ConnectomeBench和Dataset https://huggingface.co/datasets/jeffbbrown2/ConnectomeBench/tree/main
Connectomics - the mapping of neural connections in an organism's brain - currently requires extraordinary human effort to proofread the data collected from imaging and machine-learning assisted segmentation. With the growing excitement around using AI agents to automate important scientific tasks, we explore whether current AI systems can perform multiple tasks necessary for data proofreading. We introduce ConnectomeBench, a multimodal benchmark evaluating large language model (LLM) capabilitie...