36氪出海 - 助力中国公司全球化

  • 英文站 KrASIA
  • 日文站 KrJAPAN
36氪出海
36氪出海

出海快讯

06
18

红杉中国正式开源AI基准测试xbench评测集

刚刚

6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

分享:

最新快讯

查看所有
//
热门行业
|
市场
|
公司
汽车出海
关注公众号
扫一扫即刻关注
36氪出海微信公众号