Benchmark 通常只测生物知识或单点技能。LifeSciBench 测的是模型能否基于证据推理、处理科学 artifacts、应对不确定性,并在真实约束下做决策。 GPT‑Rosalind 在 7 类工作流上均高于 GPT‑5.5。结果显示已有明显进展,但在 artifact-heavy、设计密集和运营约束强的任务上仍有提升空间。
LifeSciBench assesses model reasoning capabilities.
It evaluates models on evidence-based reasoning and handling scientific artifacts.