新闻动态
              
公司动态
              
行业新闻
              
技术知识
解决方案
              
锂电行业
              
汽车与零部件行业
              
平板显示行业
              
3C电子行业
              
烟草行业
              
电商物流行业
              
家电行业
              
食品饮料行业
              
家居行业
              
医药行业
              
鞋服行业
              
石油化工行业
              
其他行业
产品中心
              
移动机器人
新能源专用移动机器人
潜伏牵引式移动机器人
潜伏举升式移动机器人
背负移载式移动机器人
搬运式智能叉车机器人
CCM-定制系列
CCS-充电站系列
              
软件产品
智能控制系统
智能仓储管理系统
              
AI算法
服务支持
              
品质服务
              
服务内容
关于188bet金宝搏
              
公司简介
              
资质荣誉
              
联系我们
              
加入我们
              
合作夥伴
188bet金宝搏官网
188bet亚洲真人体育下载网址
【新智元导读】AI能像科幻电影中的先知一样预测未来吗?一个名为「Prophet Arena」的全新基准测试✿★★,正通过预测真实世界事件来评估AI的「预言」能力✿★★。
    
    
在昨晚的男篮亚洲杯冠军争夺战中✿★★,中国男篮虽以1分之差惜败澳大利亚✿★★,但已是近十年来的最好成绩✿★★!
    
今天要介绍的Prophet Arena就是一个通过实时更新的真实世界预测任务来评估AI系统预测智能的基准测试✿★★。
    
为「人机协作」而生✿★★:你可以给AI提供线索✿★★,看看它的预测如何变化✿★★;AI也会把它的思考过程告诉你188bet金宝搏·中国官网188bet金宝搏·中国官网✿★★。
    
Prophet Arena从像Kalshi和Polymarket这样的预测市场平台挑选热门✿★★、多样且周期性的真实事件作为考题✿★★。
    
Kalshi是一家美国的金融交易所和预测市场平台✿★★,是美国第一个受美国商品期货交易委员会(CFTC)监管的✿★★、专注于交易「事件结果」的交易所
    
AI模型们利用搜索引擎✿★★,像侦探一样收集关于某个事件的新闻报道波肖门尾图✿★★,整理成一份精炼的「情报简报」✿★★。同时波肖门尾图✿★★,也会把当时的市场价格(可以看作是群众的集体智慧)放进去✿★★。
拿到相同的情报后✿★★,每个AI模型都要提交一份详细的「预测报告」✿★★:对所有可能的结果给出一个概率分布188bet金宝搏·中国官网✿★★,并附上长篇大论的理由波肖门尾图✿★★,解释自己为什么这么看波肖门尾图✿★★。
事件结束✿★★,结果揭晓188bet金宝搏·中国官网✿★★。会用一套专业的指标来评估AI的预测到底有多准✿★★,然后更新在一个实时排行榜上✿★★。
    
排行榜主要看两个指标✿★★:一个是衡量准确度和校准度的Brier分数(越高越好)✿★★,另一个是模拟真实投注的平均回报(看谁能赚钱)波肖门尾图✿★★。
除了上述两个核心指标外✿★★,Prophet Arena还采用了受统计学和心理测量建模启发的高级评估方法✿★★,如项目反应理论(Item Response Theory✿★★,IRT)和广义Bradley-Terry(BT)模型✿★★。
    
    
比如一场温布尔登网球赛✿★★,赛前市场普遍认为选手保罗有84%的胜率188bet金宝搏·中国官网✿★★,甚至在开赛前一度攀升至95%✿★★。
    
比如在「AI监管法规会在2026年前成为联邦法律吗?」这个事件上✿★★,市场认为可能性只有25%✿★★。
    
保守派代表Llama 4 Maverick✿★★:它也看到了同样的信息✿★★,但认为立法过程复杂又缓慢✿★★,所以只给出了比市场略高一点的35%✿★★。
例如在圣地亚哥与多伦多的美国职业足球大联盟比赛中✿★★,o3-mini在1美元的投注上获得了9美元的回报✿★★。
根据市场数据和新闻来源✿★★,o3-mini预测多伦多获胜的概率为30%✿★★,而市场隐含的概率仅为11%(价格=0.11)✿★★。
尽管多伦多是不被看好的一方✿★★,但AI识别到了正的期望值✿★★,并由于其最大的优势比率30%/11%≈3✿★★。
    
就像在上面那场足球赛中✿★★,市场认为多伦多队只有11%的胜算波肖门尾图✿★★,但o3-mini经过分析认为有30%✿★★。
数值越低(颜色越深的单元格)表示概率推理更接近一致✿★★;数值越高(颜色越浅的单元格)则表明分歧越大✿★★。
    
与Kimi K2✿★★、o3和Llama 4 Maverick等模型相比✿★★,它的L2距离始终高于0.7✿★★,这表明其可能采用了不同的校准方式或内部决策机制波肖门尾图✿★★。
在频谱的另一端✿★★,诸如Grok-4和GPT-5之类的模型经常作出高度一致的预测✿★★,L2距离通常低于0.3✿★★。
换句话说✿★★,这张图展示了AI预测的多样性✿★★:有些模型形成「群体共识」✿★★、有些模型像「特立独行的异议者」✿★★。
设想✿★★,AI系统将成为预测市场的积极参与者✿★★,将人类的直觉洞察与AI强大的数据分析能力相结合波肖门尾图✿★★,最终提升整个社会的集体远见✿★★,为那些高风险的决策提供更可靠的依据✿★★。
毕竟✿★★,如果说语言模型的下一步是预测下一个词✿★★,那么它的终极形态✿★★,或许就是预测这个真实世界的下一个事件188bet金宝搏·中国官网✿★★。金宝搏188APP✿★★,188BET金宝搏亚洲真人体育✿★★,工业自动化金宝搏188官网app网址✿★★。