美国时间2月17日,马斯克与旗下AI公司xAI的团队共同现场直播,宣布发布最新一代大模型Grok 3,宣称在数学(AIME'24测试)、编程和科学(GPQA测试)上超过了OpenAI目前最先进的模型GPT-4o,也超过了谷歌的Gemini-2 Pro、DeepSeek的DeepSeek-V3以及Anthropic的Claude 3.5 Sonnet等各家最先进的一批大模型。目前,在“LMSYS聊天机器人竞技场”的排行榜,Grok 3的分值最高。这个排行榜靠网友打分来排名,两个大模型回答同一个问题,答得更好就能获得网友的1分,积分累计后生成排行。