• 涵盖多学科:生命科学🧬、化学⚗️、物理⚛️、天文🌌、材料学🪨、地球科学🌍、神经科学等核心领域,资源丰富全面。
• 数据类型多样:涵盖文本QA、视觉问答(VQA)、图像-文本、视频-文本等多模态数据,支持预训练、微调及科学推理等多种任务。
• 发展轨迹清晰:从迁移学习到大规模知识整合,再到指令跟随与自主科学Agent,展现科学LLM的四大范式变革。
• 详实时间线:2018年至2025年间,精选标志性模型与数据集,助力把握科研AI发展脉络。
• 开源与闭源兼备:包含众多开源项目,如Intern-S1(241B参数)、ChemLLM、ShizhenGPT等,方便科研团队快速落地与创新。
• 专业评测集:覆盖学术论文、临床对话、医学影像、蛋白质序列等,配备多维度指标(准确率、F1、BLEU、AUROC等),确保模型能力客观量化。
• 跨语种支持:中英双语及多语言资源,兼顾全球科研需求,提升模型适用性与泛化能力。
• 持续更新:项目活跃,定期整合最新论文和数据,关注前沿趋势,保持科研资源的长效价值。
科学研究正从数据积累向智能洞察跃迁,这份汇总为科研人员提供了系统的工具链与知识地图,促进跨领域协作与突破。