
Unsloth AI
开源的LLM微调和强化学习工具。🤖
EvalsOne是一个旨在简化生成式AI应用程序的提示评估过程的平台。它提供了一整套工具,用于迭代开发和完善这些应用程序,提供评估LLM提示、RAG流程和AI代理的功能。EvalsOne支持基于规则和大型语言模型的评估方法,无缝集成人工评估以及多种样本数据准备方法。它还提供广泛的模型和渠道集成,配有可定制的评估指标。
EvalsOne提供直观的界面用于创建和组织评估运行。用户可以叉出运行以快速迭代和深入分析,比较模板版本并优化提示。该平台还提供清晰直观的评估报告。用户可以使用模板、变量值列表、OpenAI Evals样本,或通过复制和粘贴来自Playground的代码来准备评估样本。它支持多种模型和渠道,包括OpenAI、Claude、Gemini、Mistral、Azure、Bedrock、Hugging Face、Groq、Ollama,以及用于本地模型的API调用,还与诸如Coze、FastGPT和Dify等代理编排工具集成。
全面评估LLM提示、RAG流程和AI代理
使用规则或大型语言模型进行自动评估
无缝集成人工评估
准备评估样本的多种方法
广泛的模型和渠道集成
可定制的评估指标
#1 评估LLM提示的准确性和相关性
#2 优化RAG流程以改善信息检索
#3 评估AI代理在各种任务中的表现
#4 提高生成式AI应用程序的整体质量和可靠性