2026年04月13日

[AI新闻] 2026年欧洲AI工程师大会

[AI新闻] 2026年欧洲AI工程师大会 | 从大语言模型到幻觉:常见人工智能术语简明指南 | AI模型在足球博彩方面表现糟糕,xAI的Grok尤其如此
分类筛选:

01 [AI新闻] 2026年欧洲AI工程师大会

1
OpenAI发布GPT-5模型

OpenAI正式推出GPT-5模型,性能在多领域显著提升,尤其在复杂推理和长文本生成方面表现突出。该模型支持多模态输入,已在内部测试中超越前代产品。

GPT-5采用新型训练架构,训练数据量较GPT-4增加约40%,并引入强化学习优化对齐能力。目前已在部分企业客户中开启内测。

GPT-5性能全面升级 支持多模态输入 已启动企业内测
来源

2
GLM-5.1登顶代码竞技场

GLM-5.1在Code Arena排名升至第三,超越Gemini 3.1和GPT-5.4,接近Claude Sonnet 4.6水平。Z.ai成为排名第一的开源模型,与整体榜首差距约20分。

该模型迅速获得工具厂商支持,Windsurf已集成其接口。Zixuan Li提出开源模型三大策略:提升可访问性、提供可微调基线、共享架构与训练经验。

GLM-5.1代码能力跃升 开源模型排名领先 工具生态快速跟进
来源

3
顾问模式成系统设计新范式

“廉价执行器+昂贵顾问”架构正成为主流设计模式。Anthropic在API层引入顾问工具,伯克利团队推进“顾问模型”研究,强调用高速模型执行任务,由高性能模型监督决策。

该模式提升系统效率,降低推理成本,已在多个AI代理系统中验证有效性。行业正探索标准化接口与评估框架。

顾问模式广泛应用 提升系统效率与可控性 多团队推动技术落地
来源

4
AI Engineer Europe 2026大会落幕

AI Engineer Europe 2026在伦敦举行,为期三天,包含线上赛道、工作坊及百余场现场演讲,部分环节进行直播。活动涵盖技术分享、政府参访与社交聚会。

大会设有现场播客报道,内容涉及政策、工程实践与社区互动。主办方计划后续发布总结,并提供闭幕主题演讲与重点演讲回放。

大会涵盖多元议程 现场与线上结合举办 内容回放逐步上线
来源

查看原文 →

02 从大语言模型到幻觉:常见人工智能术语简明指南

1
标题: 科技媒体发布AI术语词典

摘要:
科技媒体为帮助公众理解人工智能领域,发布了一份AI术语词典,涵盖行业内常用的关键概念和定义。该词典旨在解释研究人员常用的专业术语,提升报道的准确性与可读性。

词典将定期更新,以纳入研究人员提出的新方法以及新出现的安全风险相关术语。此举有助于公众和从业者同步掌握AI领域的最新发展动态。

提供AI术语权威解释 定期更新行业新词 提升公众理解能力
来源

2
标题: AGI定义存在多种解释

摘要:
人工通用智能(AGI)尚无统一标准定义,不同机构对其理解存在差异。OpenAI CEO Sam Altman将其描述为“可雇佣为同事的普通人类水平智能”。

OpenAI章程定义AGI为“在多数经济价值工作中超越人类的高度自主系统”。而Google DeepMind则认为AGI是“在多数认知任务上至少与人类能力相当的人工智能”。

AGI定义尚未统一 各机构标准存在差异 仍处于概念探讨阶段
来源

3
标题: AI代理可执行多步任务

摘要:
AI代理指利用AI技术代表用户执行复杂任务的工具,如报销、订票或编写维护代码,能力超越基础聊天机器人。其核心特征是自主性及调用多个AI系统完成多步骤操作。

目前该领域基础设施仍在建设中,不同场景下“AI代理”含义可能不同,实际应用能力受限于技术成熟度与系统整合水平。

AI代理具备自主执行能力 可整合多系统完成任务 基础设施尚在发展初期
来源

4
标题: 思维链提升AI推理能力

摘要:
思维链(Chain of thought)是一种让AI模型在回答问题时展示推理过程的技术,通过分步思考提高答案准确性。相比直接输出结果,该方法更接近人类解题逻辑。

该技术有助于提升模型在数学、逻辑和复杂问答任务中的表现,同时增强输出结果的可解释性,便于用户理解AI决策路径。

分步推理提升准确性 增强AI输出可解释性 适用于复杂任务处理
来源

查看原文 →

03 AI模型在足球博彩方面表现糟糕,xAI的Grok尤其如此

1
谷歌OpenAI等AI模型英超投注亏损

伦敦初创公司General Reasoning发布“KellyBench”报告,测试八款主流AI系统在2023–24赛季英超虚拟投注中的表现。AI基于历史数据和统计信息构建模型,目标是最大化收益并控制风险。

测试中,AI代理需预测比赛结果和进球数,并根据赛季进展动态调整策略。每款模型有三次尝试机会,且无法联网获取实时赛果。结果显示,多数AI未能实现盈利。

Anthropic的Claude Opus 4.6表现最佳,平均亏损11%,一次接近盈亏平衡。xAI的Grok 4.20两次尝试均失败,其中一次破产。Google的Gemini 3.1 Pro一次盈利34%,但另一次破产。

AI长期现实决策能力仍不足 顶级模型在复杂预测中表现参差 信息更新机制影响AI决策效果
来源

查看原文 →