WWW.YANGY11.CN
标签聚合 模型

/tag/模型

www.ithome.com · 2026-05-06 21:51:02+08:00 · tech

IT之家 5 月 6 日消息,据字节跳动旗下火山引擎官方消息,今天,Doubao-Seed-2.0-lite 升级新版本,这是豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,Agent、Coding 与 GUI 能力同步升级。在同等算力成本下,是企业大规模、批量化部署全模态推理任务的更优性价比选择。 Doubao-Seed-2.0-lite 全新版本已在火山方舟上线。 IT之家附官方详细介绍如下: 全模态理解: 不止看懂图文,更能听懂世界 新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等关键领域达到 SOTA 水平,更适合企业在高价值场景规模化部署。 加粗表示最优结果,下划线表示次优结果,下同 融入语音理解后,新版本的 Doubao-Seed-2.0-lite 可 同时理解多种输入模态,并完成跨模态联合推理 ,直接处理必须“音画结合”才能判断的复杂业务需求。 在视频理解场景下,模型能够联合分析视频中的画面与音频信息,精准辨析视频中的视听一致性,判断“看到的”与“听到的”是否一致。 同时支持根据自然语言指令,在视频中精准定位特定事件发生的时间点;更能跨越多个时间段提取关键线索,持续追踪人物与事件发展,并基于画面进行多步逻辑推理,还原事件关系与行为脉络。 OmniVideoBench&WorldSense 结果基于 Gemini-3.1-Pro 测得 在音频上,模型支持 19 个语种的精准语音转写、中英文与其他 14 个语种互译, 还能深度捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。根据公开评测集,Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。 ↑ 表示数值越高越优,↓ 表示数值越低越优 Agent 和 Coding 能力升级: 长任务更稳定,胜任前后端深度开发 Doubao-Seed-2.0-lite 对多轮、多步、多约束的用户指令遵循度显著提升;继续增强任务反思推理与多 Agent 协同调度能力,让 Agent 在长程任务中自我拆解、自我校验,不偏题、不遗漏。 Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架,强化深度搜索与 Skill 动态调用,可边执行、边沉淀经验,越用越聪明。 模型的 Coding 能力全面覆盖前端页面、3D 场景与游戏开发,交付产物在视觉美观度与工程完整度上进一步提升,胜任从原型到上线的前后端深度开发。 GUI 能力融合: 界面理解与操作执行一体化 基于升级的 GUI 能力,Doubao-Seed-2.0-lite 将“看懂界面”与“动手操作”打通为一条闭环:既能精准识别按钮、菜单、表单、弹窗等界面元素及其状态,也能稳定完成点击、输入、右键、滚动、拖拽等 Browser Use 与 Computer Use 操作。 从读懂一张网页,到跨应用、跨窗口连续执行一整套业务流程,让 Agent 真正具备“端到端把活干完”的交付力。 Gemini-3.1-pro 结果由本地复现获取,其他模型评测数据来源于官方技术报告与基准榜单 新版本模型正在解锁更多新场景 全模态理解结合持续增强的 Agent、Coding 和 GUI 能力,可以帮助各领域企业用户解锁更多商业化应用场景。 以电竞游戏场景为例,在下面的 AI 电竞教练比赛例子中,模型联合分析比赛画面与语音指挥,围绕准星、身法、道具、经济、对枪、声音反应等游戏中的多维信息做切片点评;基于视频深度解构能力,跨越整场比赛的多个回合追踪同一选手的走位与决策轨迹,赛后生成高光 / 失误图谱与时间轴复盘。 依托 Agent Harness 框架,模型可连续执行跨越 25 小时的长程任务,像真人教练一样精准指出玩家的提升建议。 此外,AI 电竞教练的整套交互界面也由 Doubao-Seed-2.0-lite 模型直接生成 —— 从战况图谱到时间轴复盘卡片,排版整洁、层级清晰,视觉美观度与工程完整度均达到可上线的水准。 在在线教育场景中,用户也可以在 ArkClaw 中调用该模型,完成高效协作。模型定时查看英语课堂教学录像,识别视频中老师和学生的教学和学习状态、口语发音与情绪变化,发送给班主任和教学组长;随后调用模型 Coding 能力,还能自动生成包括课堂亮点、学生表现高光时刻等可视化课堂表现报告,发送给学生家长。 在海外电商运营场景中,在 Hermes Agent 中,基于模型出色的 GUI 能力,自主打开浏览器,在海外电商平台上搜索英、法、西、德等多语言的口红爆款视频,一键下载至本地,拆解口播、 BGM、分镜与文案要素,并回写 Skill 库;随后调用视频生成能力,生成适用于海外推广的多语言版视频,并自动登录电商平台发布,执行过程不断进化 Skills。 此外,Doubao-Seed-2.0-mini 全新版也已同步上线,同样支持全模态理解,对比上一版本,思考长度大幅缩短,Tokens 效率更高。

www.ithome.com · 2026-05-06 21:32:02+08:00 · tech

IT之家 5 月 6 日消息,据美国 CNBC 当地时间 5 日报道,商汤科技联合创始人兼首席科学家林达华表示,公司从 DeepSeek 身上获得启发:即便在 资金和技术条件受限 的情况下,也可以推出高性能模型。 林达华表示,OpenAI 的图像生成工具 ChatGPT Images 2.0 可以根据文本提示生成“精致而漂亮”的图像,但日日新 U1 的成本 只有前者十分之一 。“很多情况下,如果一个模型可以处理大多数任务,那么就未必需要顶级模型。我们与 OpenAI 的 GPT Image 2 和 Gemini 的 Nano Banana 等国际前沿模型之间仍有差距,但我们的 成本低得多,而且效率很高 。” 林达华表示,字节跳动 AI 视频模型 Seedance 起初确实带来竞争压力。此后,商汤科技把 Seedance 的部分能力 整合进短视频工具 Seko ,使 Seko 可以结合 Seedance 的背景生成能力和商汤科技自有音频功能。 林达华表示,商汤科技希望通过整合大型 AI 模型、应用和基础设施形成差异化, 在提升服务质量的同时降低单次使用成本 。商汤科技许多产品面向企业客户,这类客户通常要求更高服务质量,也愿意支付更高价格,且更不容易更换供应商。“价格战可能在短期促销中发挥战略作用,但长期可持续性取决于差异化价值。”

www.ithome.com · 2026-05-06 07:29:00+08:00 · tech

IT之家 5 月 6 日消息,OpenAI 昨日(5 月 5 日)发布公告, 宣布升级 ChatGPT 聊天机器人的默认模型,替换为 GPT-5.5 Instant ,聚焦准确性与简洁性,在和网友交互时重点减少回复中出现“不必要的表情符号”。 在回复内容方面,GPT-5.5 Instant 模型回复的内容更加简洁,在保持实用性的前提下,进一步减少冗长格式和不必要的表情符号。 本次升级进一步改善准确性,在医疗、法律、金融等高风险提示中,OpenAI 内部评估显示 GPT-5.5 Instant 幻觉声明较前代减少 52.5%。 在用户标记存在事实错误的对话测试中,不准确声明降低 37.3%。OpenAI 表示,Instant 系列在事实性方面取得全面进步,尤其在准确性至关重要的领域获得最大收益。 推送安排上,IT之家援引博文介绍,所有用户今天开始获得更新,付费用户可继续使用 GPT-5.3 Instant 三个月。

www.ithome.com · 2026-05-06 06:37:35+08:00 · tech

IT之家 5 月 6 日消息,彭博社记者马克 · 古尔曼今日报道称,苹果计划在今年秋季发布的 iOS 27、iPadOS 27 及 macOS 27 中,允许用户自行选择第三方 AI 模型,为设备上的各项 AI 功能提供支持,例如为文本生成与编辑、图像生成等任务中选用不同的第三方 AI 模型。 IT之家此前曾报道,苹果早在 2024 年推出了 Apple Intelligence 平台,目前仅在 Siri、写作工具和 Image Playground 等功能中提供 ChatGPT 作为唯一第三方选项。 古尔曼今年 3 月报道称,苹果正对 Siri 采取类似做法,允许用户将 ChatGPT 替换为其他外部聊天机器人,而此次系统更新将把这一选择范围进一步扩大。 知情人士表示,iOS 更新将允许用户从已通过其 App Store 应用添加支持的 AI 模型服务商中进行选择。截至目前,苹果已在内部与谷歌以及 Anthropic 进行集成测试。苹果公司发言人拒绝置评。 在 iOS 27 内部版本中,苹果将这一能力称为“Extensions”。用户可通过“设置”应用选择自己喜欢的 Apple Intelligence 底层 AI 模型。 开发人员已经在 iOS 27 测试版中发现了一条与此相关的提示:“Extensions 允许你通过 Siri、写作工具、Image Playground 等 Apple Intelligence 功能,按需访问已安装应用的生成式 AI 能力。” 苹果准备在 App Store 中设立专区展示兼容的第三方 AI 应用,但将继续提供自研模型。苹果还将在 iOS 27 正式版中提醒用户,该公司不对第三方模型生成的内容负责。 这一转变将为用户带来更大灵活性,同时也利好谷歌和 Anthropic 等合作伙伴,但将打破 OpenAI 的独占地位。 古尔曼提到,苹果在 2024 年时集成 ChatGPT 曾对其抱有极高期待,但后续发现其实际使用量低于两家公司预期。同时,两家公司的分歧也日益加剧,OpenAI 正积极从苹果挖角工程师以开发 AI 硬件。 除此之外,古尔曼还提到了另一项增强功能,该功能将允许用户为 Siri 选择不同的音色,从而更好地区分内外部模型,例如 ChatGPT、Gemini 或 Claude。 据彭博社此前报道,作为更新的一部分,苹果将推出全新的升级版 Siri,并配备独立 App;其他变更还包括相机应用中的 Siri 模式、照片应用的新 AI 编辑工具,以及在钱包应用中创建自定义凭证的方式。 相关阅读: 《 苹果 iOS 27 将支持创建自定义钱包通行证,电影票、健身卡都能添加 》 《 继“液态玻璃”之后:苹果 iOS 27 将重心转向 AI,Siri 迎来独立 App 并将深度整合到相机应用中 》 《 消息称苹果 iOS 27 版相机新增 Siri 模式,AI 记录食品标签、名片、活动门票等 》

www.ithome.com · 2026-05-05 23:01:27+08:00 · tech

IT之家 5 月 5 日消息,据路透社报道,根据一项新协议,微软、Alphabet 旗下的谷歌以及埃隆・马斯克创办的 xAI,将在新一代人工智能模型正式公开发布前,提前向美国政府开放模型权限,以便美方开展国家安全风险审查。 IT之家注意到,美国商务部人工智能标准与创新中心于当地时间周二表示,该协议允许其在人工智能模型投入应用前开展评估,并通过专项研究研判模型能力及潜在安全风险。 这份协议凸显出美国华盛顿方面对高性能人工智能系统所带来的国家安全风险日益担忧。美国政府希望通过提前获取前沿 AI 模型权限,在相关技术大规模普及前,提前识别从网络攻击到军事滥用等各类潜在威胁。 近几周,包括 Anthropic 公司 Mythos 在内的先进人工智能系统研发成果在全球引发热议,美国政府官员及美国企业界普遍担忧,这类模型会极大助长黑客的攻击能力。 人工智能标准与创新中心主任克里斯・福尔在声明中表示:“想要摸清前沿人工智能技术及其对国家安全造成的潜在影响,独立且严谨的量化评测体系至关重要。” 此次合作举措,是在 2024 年拜登政府与 OpenAI、Anthropic 达成相关协议的基础上进一步扩展而来。彼时,人工智能标准与创新中心还名为美国人工智能安全研究所。 作为美国政府人工智能模型测试的核心机构,该中心称目前已完成 40 余次模型评估,其中涵盖多款尚未向公众开放的尖端 AI 模型。 该机构透露,人工智能企业开发者常会提交移除安全防护机制的模型版本,供该中心深入排查国家安全层面的潜在风险。 美国国防部上周宣布,已与七家人工智能企业达成合作协议,将这些企业的先进 AI 技术部署至国防部涉密网络,意在扩充服务军方的人工智能服务商队伍。 值得一提的是,此次国防部合作名单并未纳入 Anthropic 公司。该公司正因军方对其 AI 工具的使用权限与安全约束问题,和美国国防部陷入纠纷。

www.ithome.com · 2026-05-05 13:40:02+08:00 · tech

IT之家 5 月 5 日消息,据《纽约时报》5 月 4 日报道, 美国白宫可能将成立一个新的工作组来监督 AI 的发展 。该媒体的消息人士称,在 AI 模型公开发布之前进行联邦审查,可能成为该委员会的一项权力。 目前尚未确定明确的方法,但《纽约时报》表示可能类似英国政府目前正在发生的情况,使用多层监督确保 AI 模型符合安全标准。 图源:Pexels IT之家注意到,如果成立一个监督小组,这将标志着白宫态度的巨大转变,其先前提出 AI 行动不干预计划,该计划似乎愿意向 AI 公司提供他们大部分想要的让步,但也留下了大量新问题的潜在空间。

www.ithome.com · 2026-05-05 10:59:25+08:00 · tech

IT之家 5 月 5 日消息,Meta 当地时间本月 1 日完成了对物理 AI 模型初创企业 Assured Robot Intelligence (ARI) 的收购,这笔交易的财务条款未被披露。 Meta 发言人表示,ARI“处于机器人智能的前沿领域,致力于让机器人在复杂且动态的环境中理解、预测并适应人类行为”,该团队“ 将带来在模型设计以及机器人控制和自主学习前沿技术方面的深厚专业知识 ,应用于全身人型机器人控制领域”。 图源:Pixabay ARI 联合创始人 Wang Xiaolong 表示: 一年前我们创立 ARI 时,我们的使命非常明确:实现物理通用人工智能(AGI)。通过深入的客户互动和实际部署,我们逐渐认识到,要把握未来巨大的机遇,就必须训练出真正通用的物理智能体。 我们相信,这种智能体将具有类人形态 —— 其规模化发展将源于直接从人类经验中学习,而不仅仅依赖于遥控操作。Meta 的生态系统汇聚了实现这一愿景所需的关键要素。我们将加入 Meta Superintelligence Labs,共同推动个人超级智能进入物理世界。

www.ithome.com · 2026-05-02 22:16:25+08:00 · tech

IT之家 5 月 2 日消息,当地时间 5 月 1 日,据外媒 TechSpot 报道,AI 正开始进入医学中最难的一类场景:信息不完整时如何作出正确的判断。《科学》期刊一项新研究显示,OpenAI 的一款推理模型在真实临床病例中接受测试后,在诊断患者和制定治疗方案方面 达到人类医生水平 ,很多情况下甚至表现更好。 这项研究由哈佛医学院和贝斯以色列女执事医疗中心研究人员完成。与传统受控基准测试不同,研究重点放在真实临床环境下的表现,也就是模型面对不完整、不规整、不断变化的医疗信息时能否作出有效判断。 其中一个病例中,一名患者因肺栓塞进入急诊科。治疗后一度好转,随后病情再次恶化。医生最初怀疑药物没有发挥作用。AI 模型则基于当时同样可获得的电子健康记录, 提示患者可能有狼疮病史 。 据悉,狼疮是一种自身免疫性疾病,可能导致心脏炎症。后续结果证明,模型给出的方向是正确的。 研究团队在多个诊疗环节测试了这个模型,从急诊分诊到住院阶段都有覆盖。每一步中,模型都 只能使用当时已经掌握的信息 。总体结果显示,在相同限制条件下,模型表现 超过了两名经验丰富的医生 。 贝斯以色列女执事医疗中心临床研究人员、研究作者之一亚当 · 罗德曼表示:“对我来说,最大的结论是,它能处理急诊科那些混乱的真实世界数据。它能在真实世界中用于诊断。” 研究人员还使用《新英格兰医学杂志》临床病例报告,以及其他标准化诊断挑战来测试模型。这类病例主要考察复杂诊断推理能力。结果显示,模型 再次超过了作为对照的一大组医生 。 参与研究的哈佛医学院生物医学信息学助理教授拉杰 · 曼赖表示:“模型表现超过了我们规模很大的医生基准组。” 不过,这项研究也有重要限制。模型 完全依赖文本病历,没有处理影像、声音和非语言线索 ,而这些信息在真实临床工作中非常关键。即便如此,它在不确定条件下的表现仍比早期系统更强,尤其是在鉴别诊断中更突出。鉴别诊断要求医生同时考虑多种可能疾病,再逐步排除和收窄范围。 作为对比,过去的大模型在病例信息模糊或不完整时,经常难以稳定推理。 外部专家认为,这项进展确实重要,但真正落地仍有很多问题。 研究作者同样强调,这项研究并没有证明 AI 应该取代医生,仅仅说明 AI 有机会成为临床决策支持工具 ,尤其适用于急诊这类节奏快、时间紧、信息不完整的场景。曼赖说:“我认为,这确实意味着我们正在见证一场非常深刻的技术变化,它将重塑医学。” 真正困难的下一步,是把这类系统放进真实临床环境中接受测试。研究人员需要设计严谨试验,不只看模型答得准不准,还要看它是否真正改善患者结局。赖希表示:“设计这类试验是一个非常有挑战性的过程,但这项研究正是一个非常合适的行动号召。”

www.ithome.com · 2026-05-01 21:52:50+08:00 · tech

IT之家 5 月 1 日消息,AI 行业一场备受关注的法律战正在升级。当地时间 4 月 30 日,埃隆 · 马斯克在加州联邦法院作证时承认,他旗下初创公司 xAI 曾使用 OpenAI 的模型,帮助训练自家聊天机器人 Grok。 这番证词出现在马斯克起诉 OpenAI 及其 CEO 萨姆 · 奥尔特曼的案件中,马斯克指控 OpenAI 及奥尔特曼背离了公司创立之初的非营利使命。被问到 xAI 是否对竞争对手技术使用过“蒸馏”方法时,马斯克称这是 行业常见做法 ,并承认 xAI “部分”使用过 。 IT之家注:所谓蒸馏,类似一种“老师带学生”的训练方式。能力更强的大模型扮演老师,规模更小、运行效率更高的新模型则是学生。开发者会有系统地向大模型提问, 再用大模型给出的回答训练新系统 ,使其获得接近高水平模型的能力。 这种做法本身并不一定违规。很多公司会用蒸馏来开发自家模型的低成本版本。争议在于,如果蒸馏对象来自竞争对手,就会被视为 走捷径 。对 xAI 这样的后来者来说,这种方法可以大幅压缩研发时间和成本,更快获得先进模型能力。 马斯克的承认发生在行业高度紧张的背景下。OpenAI、谷歌和 Anthropic 等公司近期 都在试图阻止第三方“蒸馏”自己的模型成果 ,其中一些企业甚至将其称为知识产权盗窃。马斯克的证词则显示,美国 AI 实验室可能也在私下使用同样手段来维持竞争力,而这些手段恰恰是它们公开批评的对象。 法律争议之外,马斯克还谈到他眼中的 AI 竞争格局。按照他的最新判断,Anthropic 目前排在第一,OpenAI 和谷歌紧随其后。Grok 虽然进展很快,马斯克仍把 xAI 描述为一家规模小得多的公司。xAI 目前只有几百名员工,而主要竞争对手拥有数千名员工。

www.ithome.com · 2026-04-30 22:39:33+08:00 · tech

IT之家 4 月 30 日消息,DeepSeek 在 GitHub 平台正式发布了其多模态大模型,并同步公开了配套技术报告。该报告提出了一种基于“视觉原语”的创新推理框架,旨在突破当前多模态大语言模型(MLLMs)在空间参照任务中的核心瓶颈。 技术报告指出,尽管多模态大语言模型近年来取得长足进步,但主流的链式思维(CoT)推理范式仍主要局限于语言学领域。现有研究多聚焦于通过高分辨率图像裁剪等技术手段弥合“感知鸿沟”,即提升模型对视觉细节的识别能力。然而,DeepSeek 团队认为,这一思路忽视了一个更为根本的限制:参照鸿沟。 自然语言固有的模糊性使其难以对复杂的空间布局提供精确、明确的指引。当模型需要执行涉及严谨空间参照的任务时,这种语言表达的局限性往往导致推理链条断裂,出现逻辑崩溃。 针对上述问题,DeepSeek 提出了“基于视觉原语的思考”(Thinking with Visual Primitives)框架。该框架将点、边界框等空间标记从单纯的视觉输入元素,提升为推理过程中的“基本思维单元”。通过将这些视觉原语直接嵌入模型的思考链路,DeepSeek 使模型在推理过程中具备了“指代”能力 —— 即能够将抽象的认知轨迹锚定到图像的具体物理坐标上,从而实现对空间关系的精确推演。 技术报告披露,该框架采用了高度优化的模型架构,具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低,DeepSeek 的多模态模型在具有挑战性的计数和空间推理基准测试上,能够与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。这为开发更高效、更具可扩展性的 System-2 类多模态智能指明了方向。 IT之家注意到,DeepSeek 此前已经上线了“识图模式”,该模式和“快速模式”“专家模式”并列,并非简单的 OCR 文字,而是终于具备了多模态识别能力。

www.ithome.com · 2026-04-30 19:19:47+08:00 · tech

IT之家 4 月 30 日消息,OpenAI 正准备推出一款全新的前沿网络安全模型 ——GPT-5.5-Cyber。公司首席执行官山姆・奥尔特曼表示,该模型不会向普通公众开放,将率先定向开放给一批经过筛选、可信赖的“网络安全防护人员”,助力各类机构强化自身网络防御能力。 奥尔特曼在社交平台 X 上透露,本次限量推送将在未来数日内启动。“我们将联合整个行业生态与政府部门,共同制定这款网络安全模型的可信准入机制。” 目前尚不清楚首批获准使用该模型的对象具体是谁,不过以往的“可信准入”机制,准入主体均为经过严格审核的专业人士与机构。该模型的具体细节及功能能力也未对外披露,OpenAI 尚未发布任何相关技术细节与参数规格。从命名来看,其是近期发布的 GPT-5.5 专属定制版本,OpenAI 曾称 GPT-5.5 是其迄今为止智能水平最高、使用体验最人性化的模型。 IT之家注意到,这种分阶段限量推出模式,正成为人工智能行业的一大趋势:各大科技企业纷纷宣称自家顶级模型因存在被滥用的风险、危险性过高,故而不面向公众开放。除全新专为生命科学领域打造、用于支撑生物学研究与药物研发的 GPT-Rosalind 模型外,OpenAI 此前多款聚焦网络安全的模型也均采用了分批次推出的方式。本月,Anthropic 也效仿这一模式推出了 Claude Mythos 模型,且发布声势浩大,却在该模型的安全上线环节出现严重疏漏,闹出尴尬风波。

www.ithome.com · 2026-04-30 17:21:02+08:00 · tech

IT之家 4 月 30 日消息,今日,阿里千问宣布推出 Qwen-Scope—— 基于 Qwen3 系列和 Qwen3.5 系列模型训练所得的可解释性模块。 据介绍,阿里千问在 Qwen 隐藏层插入稀疏自编码器(SAE)并加以训练,通过施加稀疏性约束,自动提取出高度解耦、低冗余且更具可解释性的隐藏空间特征。Qwen-Scope 不仅可以用于分析 Qwen 模型行为的内在机制,也在模型优化上有着巨大潜力,应用场景包括推理结果定向控制、数据分类与合成、模型训练与优化、评估样本分布分析与对比等。 IT之家附官方详细介绍如下: Qwen-Scope 核心亮点包括: 推理:无需显示给出自然语言指令,实现推理结果定向控制; 数据:仅需少量种子数据便可收集用于数据分类的特征,显著降低数据依赖;同时可以使用未激活特征信息定向构造数据,补足长尾能力; 训练:通过分析语言混用和重复生成等低错问题,定位异常激活特征,在监督微调和强化学习阶段辅助模型训练,降低此类回复出现频率; 评估:计算不同样本间或不同评测集间特征激活模式,联合判断评测冗余程度,指导挑选评测集、提升评测能力覆盖度、降低评测成本。 整体概览 本次 Qwen-Scope 开源的权重涉及 7 个大模型,覆盖 Qwen3 及 Qwen3.5 系列的稠密模型和混合专家模型,共有 14 组稀疏自编码器权重。为了使得稀疏自编码器特征分布广、语义含义强、训练过程稳定可靠,我们从对应模型的预训练数据采样了 0.5B 词元数据规模进行训练。 实践 大家可以借助 Qwen-Scope 对 Qwen 系列模型进行分析和开发,下面我们会在推理、评测、数据、训练四个角度分别展示 Qwen-Scope 的用途,详细内容可以参考技术报告。 推理:模型行为的分析与可控的结果 通过控制特征的激活,实现对推理结果的定向控制,如语言、实体、风格的定向修改,而无需显式的给出自然语言指令。 数据:分类与合成 Qwen-Scope 对模型表示做了各个方向的解析和归纳,所以它可以用来作为数据处理工具,在数据分类和数据合成上均可提供数据处理思路。在毒性数据分类场景下,我们可以基于少量种子数据,分析毒性样本在 SAE 特征上的激活模式,并筛选出与毒性高度相关的特征用于分类。整个过程无需额外训练分类器,显著降低了标注和训练成本;同时,即使只依赖少量启动数据,也能获得较高的分类准确率,大幅降低了对大规模标注数据的依赖。 在数据合成场景中,Qwen-Scope 还可以帮助识别已有数据中激活次数少甚至未激活的毒性文本特征,并定向合成补充样本。相比传统合成数据方案,这种方式具有更强的可控性和针对性,能够更高效地覆盖长尾能力,使训练数据能效比提升至约 15 倍。 训练:定向优化 Qwen-Scope 的特征也可以应用在训练阶段。例如,当我们发现模型存在语言混用现象(比如英文回复中异常出现中文词)时,我们可以定位到异常激活特征,并在监督微调阶段,针对异常激活特征设计损失函数,引导模型降低 badcase 出现的频率。 再比如重复生成问题,这是一种低频现象,很难在强化学习阶段被采样到。为此,我们可以通过控制相应特征从而提高采样出异常回复的频率,增加学习奖励密度,以方便模型在强化学习阶段充分优化这一问题。 评估:测试样本的缺失与冗余 评估是大模型开发的核心之一,如今待评估能力、维度越来越多,样本规模越来越大,哪些评测集存在冗余,哪些领域覆盖不足是一个关键问题。通过 Qwen-Scope,我们可以对测试集的特征覆盖度进行分析以判断不同评测集之间的评测冗余程度。如下图所示,我们发现部分常用评测集在所激活特征上存在互相覆盖关系,致使部分评测集会受重复评估影响导致实用意义相比而言会更小。我们希望此类分析方法,可以方便大家挑选出覆盖度更高的、评测成本更低的测试样本和评测集。 总结 Qwen-Scope 不仅可以用于分析模型行为,更可以深入模型内部,将复杂的参数运算转化为人类可理解的概念与规律。它不仅仅能“看懂”模型,更能“改进”模型。实践证明,它可以在推理、评估、数据、训练等阶段,向我们提供模型优化思路、指导优化方向。可解释性,不仅是事后分析的工具,也可以是驱动模型进化的核心引擎之一。我们欢迎社区反馈,同时更希望可以看到大家发挥创造力,展示更多的、有趣的用法! 试用 大家可以前往 Huggingface 或魔搭体验 Qwen-Scope。 链接地址 Hugging Face: https://huggingface.co/spaces/Qwen/QwenScope ?spm= a2ty_o06.30285417.0.0.65e5c921MGq3Tu Modelscope: https://modelscope.cn/studios/Qwen/QwenScope ?spm= a2ty_o06.30285417.0.0.65e5c921FZvQi4 ios/Qwen/QwenScope?spm= a2ty_o06.30285417.0.0.65e5c921FZvQi4 技术报告: https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf

www.ithome.com · 2026-04-30 13:35:26+08:00 · tech

IT之家 4 月 30 日消息,科技媒体 Ars Technica 今天(4 月 30 日)发布博文,报道称在最新开源的 Codex CLI 代码中,OpenAI 披露了 GPT-5.5 模型的系统提示词, 其中包含一条令人费解的禁令:严禁讨论哥布林、小精灵等生物。 在长达 3500 多个词的基础指令集中,一条针对特定生物的禁令引发了广泛关注,GPT-5.5 模型在和用户查询没有存在绝对且明确的关联性前, 明确禁止讨论哥布林(goblins)、小精灵(gremlins)、浣熊(raccoons)、巨魔(trolls)、食人魔(ogres)和鸽子(pigeons)等动物与生物。 这一禁令在指令中重复出现了 2 次,与“禁止使用表情符号”及“禁止执行破坏性命令”等常规操作规范并列。 对比同一 JSON 文件中早期模型的系统提示,并未发现类似的对特定生物的禁令,这表明该描述是 GPT-5.5 最新版本中特有的现象。该媒体分析认为,这可能是 OpenAI 为了解决新模型在无关对话中频繁“幻觉”出哥布林等生物内容而采取的针对性技术措施。 社交媒体上的大量用户反馈佐证了这一推测。不少用户近期投诉 GPT 在处理完全无关的话题时,会莫名其妙地聚焦于哥布林。 这种怪异的输出倾向不仅影响了用户体验,也暴露了大模型在生成控制上的不稳定性。虽然 OpenAI 工程师 Nick Pash 强调这不是营销噱头,但这一独特的“漏洞”已经演变成了社区的热门话题。 IT之家附上参考地址 models.json

www.ithome.com · 2026-04-30 09:22:01+08:00 · tech

IT之家 4 月 30 日消息,蚂蚁集团旗下的百灵大模型今日宣布,今天将 Ling-2.6-1T 正式开源。 官方表示,Ling-2.6-1T 并不是为了单纯追求更长的思考链,或制造更强的“参数规模体感”,而是面向真实复杂任务,系统性优化模型的智效比、指令执行、工具适配、长上下文承接和工程任务处理能力。该模型重点解决三个问题: 在更低 Token 开销下保持强综合智能: 依托 MLA 与 Linear Attention 的 Hybrid 架构创新,结合抑制“过程冗余”的强化奖励策略,Ling-2.6-1T 在保持 1T 参数能力上限的同时,减少对冗长思考链的依赖,以更高效的“快思考”机制直达结果,从而压缩同等智能水平下的输出成本。 在复杂任务中实现更可靠的多步执行: 在 Agent、Coding 和工作流场景中,模型需要的不只是单点回答能力,而是对指令、工具、上下文和中间状态的持续把控,在噪声环境下的推理与精准作答。Ling-2.6-1T 加强对复合型任务的学习,在 AIME26、SWE-bench Verified、BFCL-V4 、TAU2-Bench、IFBench 等执行类基准上达到开源 SOTA 水平,展现出面向复杂任务的综合执行能力。 让万亿级模型真正进入开发者和企业的生产工作流: Ling-2.6-1T 具备从代码生成到缺陷修复的完整工程落地能力,并与主流 Agent 框架高度兼容,适用于多工具、多步骤、多约束的复杂场景。它的目标不是停留在单次演示,而是成为真实业务系统中可部署、可协同、可持续运行的模型能力底座。 ▲ Ling-2.6-1T 以 16M tokens 完成 Artificial Analysis 完整评测 官方还表示,为支持更多开发者体验与评测 Ling-2.6-1T,将 OpenRouter 平台 的免费 API 调用服务延期一周 。 IT之家附开源链接如下: Hugging Face : https://huggingface.co/inclusionAI/Ling-2.6-1T ModelScope : https://www.modelscope.cn/models/inclusionAI/Ling-2.6-1T 相关阅读: 《 蚂蚁百灵万亿旗舰模型 Ling-2.6-1T 发布:主打“快思考”,对标 GPT-5.4 非推理版 》

www.ithome.com · 2026-04-29 16:51:53+08:00 · tech

IT之家 4 月 29 日消息,今日腾讯混元宣布开源手机端离线翻译模型 Hy-MT1.5-1.8B-1.25bit,把支持 33 种语言的翻译大模型压缩至 440MB,无需联网,下载即可直接在手机本地运行,“翻译质量优于谷歌翻译”。 演示设备:高通骁龙 865,8GB 内存 IT之家附官方详细介绍如下: 基于混元翻译大模型 Hy-MT1.5 打造,翻译效果比肩商用翻译模型 Hy-MT1.5 是腾讯混元团队打造的专业翻译大模型,原生支持 33 种语言、5 种方言 / 民汉及 1056 个翻译方向。从常见的中英互译,到法语、日语、阿拉伯语、俄语,甚至藏语、蒙古语等少数民族语言,它都能游刃有余地处理。 仅以 1.8B 参数量,Hy-MT1.5 实现了比肩商业翻译 API 和 235B 级大模型的翻译效果。在严格的评测基准中,其翻译质量不仅超越了谷歌翻译等主流系统,更证明了在高效优化下,轻量级模型能够迸发出令人印象深刻的翻译能力。 Hy-MT1.5-1.8B 翻译效果评分,详情见文末链接「Hy-MT1.5 技术报告」 但问题来了:原始的 1.8B 模型即使在 FP16 精度下,依然占用 3.3GB 内存。对于手机上金子般的内存来说,依然太大、太慢,所以需要量化压缩。 最极致的量化压缩,把模型装进手机 量化压缩,简单来说就是:把模型里原本用 16 位数字 (16-bit) 表示的参数转用更低位数字储存。这就像把一幅高清照片压缩成缩略图,文件小了很多,但你还是能看清楚里面的内容。针对不同的手机用户,腾讯特别推出了 2-bit 与 1.25-bit 两种极致的量化压缩方案。 不同大小的模型在 FLORES-200 中外互译的效果评分 2-bit 模型:性能与质量的平衡(适用:中高端机型) 2-bit 模型采用了业内顶尖的拉伸弹性量化(SEQ),将模型参数量化至 {-1.5,-0.5,0.5,1.5},并结合量化感知蒸馏,在将模型体积压缩至 574MB 的同时,实现了几乎无损的翻译质量,效果超越上百 GB 的大模型。在支持 Arm SME2 技术的移动设备上,2-bit 模型能够实现更快速、更高效的推理。 2-bit 模型在 SME2 及 Neon 内核的速度对比演示 1.25-bit 模型:Sherry 极致压缩(适用:全系机型) 为了达成极致的轻量化,腾讯推出了基于 Sherry(稀疏高效三值量化)技术的 1.25-bit 模型。该技术方案已经被 NLP 顶级学术会议 ACL 2026 录用。 链接: https://arxiv.org/ abs/2601.07892 Sherry 压缩方案的核心逻辑在于“细粒度稀疏”策略:每 4 个模型参数,3 个最重要的用 1-bit 储存,1 个用 0 储存,平均每个参数仅需 1.25-bit。 配合腾讯专门为手机 CPU 设计的 STQ 内核,该方案实现了对 SIMD 指令集的完美适配。最终,3.3GB 的原始模型被进一步压缩至 440MB,轻松常驻后台,让内存紧张的普通手机也能顺滑进行高质量离线翻译。 FP16 (八倍速)vs.1.25bit 速度对比,演示设备:高通骁龙 888,8GB 内存 实际体验:全离线、零成本、零隐私暴露 本次开源不仅包含模型权重,我们还特别制作了一个实际可用的腾讯混元翻译 Demo 版,特别适配了“后台取词模式”。无论是在本地查看邮件还是浏览网页,混元翻译都能随叫随到。无需网络,无需订阅,完全本地处理、不涉及个人信息的采集和上传,一次下载永久使用! 演示设备:高通骁龙 7+gen2,16GB 内存 立即体验 所有的模型权重、代码及技术报告均已全面开源。(暂时只支持安卓体验 demo,后续正式版会添加对 IOS 等平台的支持。) 体验链接: Huggingface(海外用户):: https://huggingface.co/ AngelSlim / Hy-MT1.5-1.8B-1.25bit-GGUF / resolve / main / Hy-MT-demo.apk 魔搭社区(国内用户): https://modelscope.cn/ models / AngelSlim / Hy-MT1.5-1.8B-1.25bit-GGUF / resolve / master / Hy-MT-demo.apk 模型下载 1、Huggingface(海外用户): 2-bit 模型权重: https://huggingface.co/ AngelSlim / Hy-MT1.5-1.8B-2bit 2-bit 模型 gguf: https://huggingface.co/ AngelSlim / Hy-MT1.5-1.8B-2bit-GGUF 1.25-bit 模型权重: https://huggingface.co/ AngelSlim / Hy-MT1.5-1.8B-1.25bit 1.25-bit 模型 gguf: https://huggingface.co/ AngelSlim / Hy-MT1.5-1.8B-1.25bit-GGUF 2、魔搭社区(国内用户): 2-bit 模型权重: https://modelscope.cn/ models / AngelSlim / Hy-MT1.5-1.8B-2bit 2-bit 模型 gguf: https://modelscope.cn/ models / AngelSlim / Hy-MT1.5-1.8B-2bit-GGUF 1.25-bit 模型权重: https://modelscope.cn/ models / AngelSlim / Hy-MT1.5-1.8B-1.25bit 1.25-bit 模型 gguf: https://modelscope.cn/ models / AngelSlim / Hy-MT1.5-1.8B-1.25bit-GGUF 3、技术报告: Sherry 论文地址: https://arxiv.org/ abs/2601.07892 AngelSlim 技术报告: https://arxiv.org/ abs/2602.21233 Hy-MT1.5 技术报告: https://arxiv.org/ abs/2512.24092 4、代码仓库: AngelSlim: https://github.com/tencent/AngelSlim

www.ithome.com · 2026-04-29 16:13:04+08:00 · tech

IT之家 4 月 29 日消息,在目前正在进行的 2026 数字中国建设峰会上,腾讯展示了旗下多款 Agent 智能体生态,腾讯混元 Hy3 preview 语言模型同步迎来展会首秀。 现场工作人员向IT之家展示了腾讯 WorkBuddy 桌面智能体工作台,其号称只需要一句话描述,就能自动完成工作并交付可验收的结果。 同时,工作人员还介绍了腾讯专为中国用户优化的 AI Skills 社区“SkillHub”,腾讯已将腾讯文档、腾讯会议、腾讯地图、ima、QQ 浏览器等核心产品能力封装为官方 Skills 分享在社区中,同时在第三方开发者加持下,目前 SkillHub 已收录超过 3.5 万个技能并在持续增长中。 本届峰会上,最新发布的腾讯混元 Hy3 preview 语言模型迎来展会“首秀”。据介绍,这款模型是快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。 作为混元重建后训练的第一个模型,Hy3 preview 在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升,让中小企业无需高额投入,即可快速搭建专属 AI 应用。目前腾讯混元 Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy 等产品首发上线,实现“模型 + 产品”的协同。

www.ithome.com · 2026-04-29 15:39:31+08:00 · tech

IT之家 4 月 29 日消息,4 月 29 日(今天)下午,科大讯飞总裁吴晓如在公司 2025 年度暨 2026 年第一季度业绩说明会上表示,今年 10 月,公司将在昇腾 950 平台上发布 中国首个对标业界最先进主流模型 的旗舰大模型。 而在今天早些时候,科大讯飞星火 X2-Flash 模型正式发布,API 同步开放。其采用 MoE 架构, 总参数 30B,最大支持 256K 上下文 ,宣称在智能体、代码等能力上实现了大幅提升,基于 华为昇腾 910B 集群 训练完成。 IT之家汇总科大讯飞 2026 年一季度财务信息如下: 营业总收入 :52.74 亿元,同比增长 13.23% 归母净利润 :-1.70 亿元,同比增长 12.17% 扣非净利润 :-4.30 亿元,同比下降 88.58% 经营现金流 :-10.69 亿元,同比下降 50.06% 基本每股收益 :-0.07 元 / 股,同比增长 12.50% 稀释每股收益 :-0.07 元 / 股,同比增长 12.50% 加权平均净资产收益率 :-0.91%,同比增长 0.18 个百分点 相关阅读: 《 科大讯飞星火 X2-Flash 模型发布:基于华为昇腾 910B 集群训练,最大 256K 上下文 》

www.ithome.com · 2026-04-29 15:09:05+08:00 · tech

IT之家 4 月 29 日消息,科大讯飞星火 X2-Flash 模型今日正式发布,同步开放 API。 星火 X2-Flash 采用 MoE 架构, 总参数 30B,最大支持 256K 上下文 ,宣称在智能体、代码等能力上实现了大幅提升,基于 华为昇腾 910B 集群 训练完成。 目前,AstronClaw、Loomy 已率先接入星火 X2-Flash。 科大讯飞表示,经 AstronClaw 实测,星火 X2-Flash 在深度研究报告、Skill 管理与调用、系统控制与执行等 多类“养龙虾”最常用的任务上效果接近业界万亿级参数模型效果 ;在相同工作流下,整体 token 消耗不到当前主流大尺寸模型的三分之一,降低了开发者构建复杂 Agent 应用的使用成本。 以创建一个复杂的视频生成 Skill 为例,星火 X2-Flash 在了解详细需求后快速生成,并给出技能结构、核心功能和使用案例等关于 Skill 的详细说明。 科大讯飞介绍称,星火 X2-Flash 率先在国产算力上实现了 DSA(稀疏注意力)与 MTP(多 token 预测)结合的长文本高效训练,上下文拓展至 256K,通过亲和国产芯片的算子和分布式训练策略深度优化实现训练效率相比同规模 A800 集群从 20% 提升到 90%, 解决了智能体长上下文在国产芯片训练慢的难题 。 在智能体强化学习训练场景,星火 X2-Flash 通过上述的算法创新 + 工程创新,大幅提升了采样推理效率,相对于非 DSA 结构的采样解码效率最高可以提升 2 倍以上。该突破, 一定程度缓解了 910B 上智能体长交互场景下采样效率过低影响 RL 训练问题 ,为后续的大规模强化学习对齐训练扫清了算力障碍。 星火 X2-flash 已实现了 OpenClaw、Claude Code 等主流 Agent 框架的深度兼容。 IT之家附 API 地址如下: https://xinghuo.xfyun.cn/sparkapi

www.ithome.com · 2026-04-29 14:13:26+08:00 · tech

IT之家 4 月 29 日消息,当地时间 4 月 28 日,在亚马逊云科技(Amazon Web Services,简称 AWS)新品发布会上,AWS 宣布携手 OpenAI, 将 OpenAI 最新大模型接入 Amazon Bedroc k ,在 Amazon Bedrock 上线 Codex 代码 Agent,并推出由 OpenAI 赋能的 Amazon Bedrock 托管 Agent(以上功能均为有限预览版)。 据IT之家此前报道,当地时间 4 月 27 日, OpenAI 与微软宣布对双方的合作协议作出调整 , OpenAI 可通过任意云服务商向客户提供旗下全部产品服务 。 据 AWS 介绍,GPT-5.5、GPT-5.4 等全新 OpenAI 旗舰模型,将登陆 Amazon Bedrock 预览版。企业可沿用现有的 Bedrock 接口调用前沿模型, 无需额外部署基础设施 ,也无需适配全新安全体系。 企业可在日常规模化使用的 AWS 运行环境中, 直接调用 OpenAI 代码 Agent 。支持通过 AWS 账号完成身份认证,依托 Amazon Bedrock 算力完成模型推理,Codex 服务用量可抵扣企业 AWS 云服务合约额度。此外可通过 Amazon Bedrock 接口调用,同步支持 Codex 命令行工具、桌面客户端及 VS Code 插件。 相关阅读: 《 OpenAI 摊牌:微软限制了我们满足客户的能力 》 《 盟友反目:OpenAI 牵手亚马逊,微软拟对其采取法律行动 》

www.ithome.com · 2026-04-29 09:27:20+08:00 · tech

IT之家 4 月 29 日消息,蚂蚁集团旗下的百灵大模型今日宣布, Ling-2.6-flash 正式开源 。同步提供 BF16、FP8、INT4 等多个版本,方便开发者根据不同硬件环境、推理成本和部署需求灵活选择。 Ling-2.6-flash 是一款总参数量 104B、激活参数 7.4B 的 Instruct 模型,两周前以 Elephant Alpha 的匿名身份登陆 OpenRouter。 官方表示,过去两周里持续收集来自开发者的真实反馈,并针对 Ling-2.6-flash 的使用体验进行了多轮优化, 进一步改善了中英文自然切换能力,并提升了其在主流 Coding 框架中的适配效果 。 据介绍,Ling-2.6-flash 的核心能力体现在三个方面: 混合线性架构,释放推理效率: 通过引入混合线性架构,模型从底层优化计算效率,在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s ,Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍 Token 效率优化,提升智效比: 在训练过程中对 Token 效率进行了针对性校准,力求以更精简的输出完成既定目标。在 Artificial Analysis 的完整评测中,Ling-2.6-flash 仅消耗 15M tokens ,约为 Nemotron-3-Super 等模型的 1/10 面向 Agent 场景进行定向增强: 针对当前需求最旺盛的 Agent 应用,在工具调用、多步规划与任务执行能力上持续打磨,使模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等评测中,即使面对激活参数更大的模型,依然能够取得相近甚至 SOTA 级别的表现 IT之家附开源链接如下: Hugging Face : https://huggingface.co/inclusionAI/Ling-2.6-flash ModelScope : https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash