Skip to content

Latest commit

 

History

History
executable file
·
90 lines (56 loc) · 6.24 KB

README_zh.md

File metadata and controls

executable file
·
90 lines (56 loc) · 6.24 KB

FlagEval

English


FlagEval是一个面向AI大模型的开源评测工具包,同时也是一个开放的评测平台

FlagEval 评测平台的目标是覆盖三个主要的评估对象——基础模型、预训练算法以及微调/压缩算法,以及四个关键领域下丰富的下游任务,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)和多模态(Multimodal)。您可以在我们的官方网站 flageval.baai.ac.cn 上找到更多信息。我们致力于建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

FlagEval 开源评测工具包现在包含以下子项目。

1. mCLIPEval

mCLIPEval 是一个多语言 CLIP(Contrastive Language–Image Pre-training)系列模型的评测工具包,特点如下:

  • 支持多语言(12种)评测数据和单语言(英文/中文)评测数据;
  • 支持多种任务评测,包括 Zero-shot classification、Zero-shot retrieval 以及 zeroshot composition等;
  • 支持已适配的基础模型用户自定义基础模型的评测,目前已适配的基础模型包括FlagAI 中的(AltCLIPEVA-CLIP),OpenCLIPChinese CLIPMultilingual CLIPTaiyi系列等;
  • 支持多种数据来源,如torchvisionhuggingfacekaggle等;
  • 通过多种可视化的方式展示评测结果,方便对多个模型进行比较。

如何使用

环境建议:

  • Pytorch version >= 1.8.0
  • Python version >= 3.8
  • For evaluating models on GPUs, you'll also need install CUDA and NCCL

使用方式:

git clone https://github.com/FlagOpen/FlagEval.git
cd FlagEval/mCLIPEval/
pip install -r requirements.txt

更多的细节请参考 mCLIPEval/README.md

2. ImageEval-prompt

ImageEval-prompt 是一组在实体、风格和细节等细粒度上进行评估的Prompt。通过在细粒度上的综合评估,研究者可以更好地理解文生图(Text-to-Image,T2I)模型的优点和局限性,以便进一步改进模型的性能。

  • 英文数据集来自 PartiPrompts benchmark 的 1624 条英文 Prompt,其中 339 条 Prompt 翻译成中文作为中文数据集。
  • 每条 Prompt 采取“双人背靠背标注+第三人仲裁”方式进行标注,分为实体、风格和细节三个维度:
    • 实体包括 5 个子维度:主体对象、状态、颜色、数量与位置;
    • 风格包括 2 个子维度:绘画风格与文化风格;
    • 细节包括 4 个子维度:手部、五官、性别与反常识。

更多细节请参考 imageEVAL/README_zh.md

3. C-SEM

C-SEM 针对当前大模型的可能存在的缺陷和不足,创新地构造多种层次、多种难度的评测数据, 并参考人类的语言思维习惯,考察模型在理解语义时的“思考”过程。当前开源的 C-SEM v1.0版本共包括四个子评测项,分别从词汇、句子两个级别评测模型的语义理解能力,通用性较强,适用于研究对照。

当前 C-SEM 的子评测项分别为

  • 词汇级的语义关系判断(LLSRC)
  • 句子级别的语义关系判断(SLSRC)
  • 词汇的多义理解问题(SLPWC)
  • 基础修饰知识检测(SLRFC)

后续 C-SEM 评测基准将会持续迭代,覆盖更多语义理解相关知识,形成多层次的语义理解评测体系。同时,FlagEval 大模型评测平台 将在第一时间集成最新版本,加强对大语言模型的中文能力评测的全面性。

更多细节请参考 csem/README-zh.md

联系我们

  • 如果有关于 FlagEval的意见,建议或错误报告,请提交GitHub Issue 或者邮件至 [email protected],让我们共同建设更好的FlagEval。
  • 诚聘行业精英加入FlagEval团队。 如果您有兴趣加入我们一起推进基础模型评测的工具,请联系 [email protected],期待您的加入!
  • 欢迎共同建设FlagEval。 如果您有新的任务或者新的数据或者新的工具希望加入FlagEval,请联系[email protected],期待与您合作,共同建设基础模型评测体系!

本项目大部分是基于协议Apache 2.0 license, 但是部分的代码是基于其他的协议:

其他

↳ Stargazers, 谢谢支持!

Stargazers repo roster for @FlagOpen/FlagEval

↳ Forkers, 谢谢支持!

Forkers repo roster for @FlagOpen/FlagEval

如果您觉得我们的工作对您有价值有帮助,请给我们鼓励的星星🌟,谢谢您的支持!