技术,生活,随看 \随转
一个医疗大语言模型的综合评测框架,具有以下三大特点:

1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。

2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。

3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。

GenMedicalEval | #框架
知性:一个性知识科普教育网站,高清彩色图文讲解 | #教育
TCM-Ancient-Books - 中医药古籍文本,近700项 | #古籍
ChatAir:基于 Telegram 修改的 OpenAI 和 Gemini 的 Android 原生客户端

ChatAir 是 OpenAI 和 Gemini 的原生客户端,提供比 ChatGPT 更流畅、更快速的聊天体验。

🚀 流畅: 使用 Android 原生开发,高效的性能表现,打造无缝切换的使用体验
🔬 高级: 支持 OpenAI/Gemini 的 API 调用,以及 OpenRouter 等自定义服务器地址替换,灵活定制你的服务器地址
📝 专业: 支持 Markdown,代码高亮功能让你的代码清晰易读
🛠️ 定制: 自定义 Prompt,模型、温度、历史记录以及回复长度限制参数设置,提供个性化的使用体验
🌙 酷炫: 提供暗黑模式和自定义主题,护眼同时增加使用的体验性
🖼️ 识图: 支持图片识别功能,快速准确获取图像信息

下载地址:https://github.com/flyun/chatAir/releases

Via flyun

投稿:@TNSubmbot
频道:@TestFlightCN
2024年全网年货节红包
Back to Top