
JustAHuman
一个游戏化的3D资产评估和标注平台,玩家可以通过参与获得奖励...
非完工是一个专门为评估多模态模型而设计的平台,旨在使评估的运行和共享变得简单。它致力于提供针对多模态模型的工具,而这些模型通常被主要关注语言模型(LLMs)的工具所忽视。该平台强调模型之间的简单比较和评估的公共共享。
用户可以注册以创建评估,比较不同模型,查看公共评估,并访问示例以了解平台的功能。该平台允许对各种任务进行输入和输出的比较。
多模态模型评估
模型比较
公共评估共享
针对各种任务的示例评估
#1 评估语言模型中的实体跟踪
#2 评估逻辑推理能力
#3 现实世界的问题回答
#4 视觉推理
#5 通过数卡片评估视觉模型
#6 图表理解和策略推荐