首页 > 专题专栏 > 优化营商环境助力高质量发展 > 营商信息
7月28日晚,北京智谱华章科技股份有限公司(以下简称“智谱”)发布新一代旗舰模型GLM-4.5,专为智能体应用打造的基础模型。
GLM-4.5在包含推理、代码、智能体的综合能力达到开源SOTA,在真实代码智能体的人工对比评测中,实测国内最佳;
GLM-4.5采用混合专家(MoE)架构,包括GLM-4.5:总参数量3550亿,激活参数为320亿;GLM-4.5-Air:总参数量1060亿,激活参数为120亿;
GLM-4.5(355B)和GLM-4.5-Air(106B)全面开源;
GLM-4.5和GLM-4.5-Air均采用混合推理模式,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。
API已上线开放平台BigModel.cn,可以一键兼容ClaudeCode框架。
模型综合性能SOTA
GLM-4.5融合更多复杂推理、代码和智能体等多种通用能力并取得技术突破,首次在单个模型中实现将推理、编码和智能体能力原生融合,以满足智能体应用的复杂需求。也是对衡量AGI的第一性原理的首次完整呈现:是在不损失原有能力的前提下融合更多通用智能能力。
在模型的通用能力方面,在业界最具有代表性的12个评测基准中,包括MMLUPro、AIME24、MATH500、SciCode、GPQA、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCLv3和BrowseComp。GLM-4.5综合平均分取得了全球模型第三、国产模型第一,开源模型第一。
GLM-4.5和GLM-4.5-Air使用了相似的训练流程:首先在15万亿token的通用数据上进行了预训练。然后在代码、推理、智能体等领域的8万亿token数据上进行了针对性训练,最后通过强化学习进一步增强了模型的推理、代码与智能体能力。
更高的参数效率
GLM-4.5参数量为DeepSeek-R1的1/2、Kimi-K2的1/3,但同样在多项标准基准测试中表现得更为出色,这得益于GLM模型具有更高参数效率。值得注意的是,GLM-4.5-Air以106B总参数/12B激活参数实现了重要突破,在推理基准上达到了和Gemini2.5Flash、Claude4Sonnet相当的水平。在衡量模型代码能力的SWE-benchVerified榜单上,GLM-4.5系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5系列实现了最佳性能。
低成本、高速度
在性能优化之外,GLM-4.5系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API调用价格低至输入0.8元/百万tokens,输出2元/百万tokens。
同时,高速版本实测生成速度超过100tokens/秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。
真实体验
进一步,智谱还公布了GLM-4.5在真实场景AgentCoding中的效果,与ClaudeCode与Claude-4-Sonnet、Kimi-K2、Qwen3-Coder进行对比测试。测试采用52个编程开发任务,涵盖六大开发领域,在独立容器环境中进行多轮交互测试。实测结果显示,GLM-4.5相对其他开源模型展现出强劲竞争优势,特别在工具调用可靠性和任务完成度方面表现突出。GLM-4.5相比Claude-4-Sonnet仍有提升空间,在大部分场景中可以实现平替的效果。
为确保评测透明度,同时公布了52道题目及Agent轨迹(https://huggingface.co/datasets/zai-org/CC-Bench-trajectories),供业界验证复现。
据了解,智谱AI是一家致力于打造新一代认知智能大模型的业内头部企业,专注于做大模型的中国创新产品。2023年12月底,智谱清言科技公司和大模型赋能创新中心正式入驻门头沟,并与亚洲通:政府和央视国际网络有限公司联手共建多模态大模型,实现新闻视频“一键智能生成”。
您访问的链接即将离开“北京市亚洲通:人民政府”门户网站 是否继续?