liquid ai 正式推出了其全新实验性模型 lfm2-2.6b-exp。这款仅含 2.6b(26 亿)参数的轻量级开源模型,在多项核心基准测试中展现出卓越性能,尤其在指令遵循能力方面,显著优于参数规模达数百亿级别的 deepseek r1-0528。
LFM2-2.6B-Exp 基于 Liquid AI 第二代 Liquid Foundation Models(LFM2)系列中的 2.6B 基础模型,采用纯强化学习(RL)方式进行后训练优化,全程无需监督微调预热,也...
阶跃星辰正式开源了参数量达320亿(32b)的深度研究专用大模型:step-deepresearch。该模型在深度研究任务上的表现已比肩openai o3-mini与gemini 2.0 flash等顶尖商业模型,而单次调用成本却降至其十分之一以内。
https://www.php.cn/link/ae5ef52da81b8f483ac166475587ad87
模型简介
Step-DeepResearch是一款兼顾高性能与高性价比的端到端深度研究智能体模型,专为...
你是否想过:一台仅搭载单张24GB显存消费级显卡的设备,竟能完整运行参数量高达671B的DeepSeek R1“满血版”模型,并稳定输出5并发、51 Token/秒的推理速度(更详尽性能指标见下图)?这一水平已完全胜任报告解析、数据洞察等对响应延迟容忍度较高的AI任务。
这组震撼数据源自英特尔最新公布的异构大语言模型服务方案——其底层依托HeteroFlow软件框架,硬件平台则采用至强6性能核CPU(搭配MRDIMM内存并启用AMX指令集加速),核心使命正是突破...
订房、叫车过去常需切换多个app,但未来或许只需停留在同一个界面——openai正将这些日常服务整合进chatgpt对话窗口。在devday 2025大会上,openai宣布:booking.com、expedia、spotify、figma、coursera、zillow、canva等第三方平台,已以「app」形式原生嵌入chatgpt;后续还将接入doordash、instacart、uber、alltrails等生活服务平台,实现吃喝玩乐一站式操作。
延伸阅读...
yuanlab.ai 团队正式对外开源 源 yuan3.0 flash 多模态基础大模型。本次发布涵盖完整模型权重(支持16bit与4bit量化版本)、详尽技术白皮书、全流程训练方案及全面评测数据,全面开放社区进行后续微调、二次训练与垂直领域定制化开发。
据官方说明,Yuan3.0 Flash 是一款参数量达40B的多模态基础大模型,基于稀疏混合专家(MoE)架构设计,单次前向推理仅动态激活约3.7B参数。该模型首次提出并落地强化学习优化范式 RAPO(Reflecti...
作为全球科技领域一年一度的“盛会”,ces2026将于1月6日至9日在美国拉斯维加斯盛大举行。海信空调将携多款创新产品高调登场,集中呈现人工智能在空气环境管理方面的最新突破与实践成果。其中,斩获德国红点概念设计大奖的海信空调智慧风pro系列新品airmaster,将首次亮相ces国际舞台。据了解,该产品与近期在国内首发的海信大力神空调同属2026美加墨世界杯定制机型,延续海信空调“全球协同、本地深耕”的研发理念,专为全球球迷打造兼具沉浸感与健康属性的“满分世界杯观赛空调”。...
离职的杨立昆(lecun),转身便向 meta 抛出一记重击:饱受诟病的 llama 4,确实存在“刷榜”操作!
结果的确被轻微调整过。 为追求更优指标,团队在不同基准测试中切换使用了多个模型版本。
常言道:莫招惹离职人。不只杨立昆,田渊栋也在其个人年度复盘中悄然揭开一角内情。
明明是被临时抽调来为 Llama 4 紧急救场的,出发前我预设了四种可能路径,结果扎克伯格直接甩给我第五种……
(扶额苦笑.jpg)
Anyway,关于离职后的动向,两位业界泰...
deepseek团队近期发布了一篇题为《mhc: manifold-constrained hyper-connections》(《mhc:流形约束超连接》)的论文,正式推出全新网络架构——mhc(流形约束超连接)。该设计聚焦于缓解大规模模型训练过程中普遍存在的不稳定性难题,有望为未来基础模型架构的升级提供关键思路。
论文作者名单中,DeepSeek创始人兼CEO梁文锋位列联合作者,核心研发工作由解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)与曹焕琪(H...
在最新公布的 semianalysis inferencemax 基准评测中,signal65 对 deepseek-r1 0528 混合专家(moe)模型的推理能力进行了深度评估。结果显示,英伟达(nvidia)gb200 nvl72 机架级系统在同等规模下,推理性能显著超越 amd instinct mi355x 集群。
混合专家架构的核心优势在于按需调用最适配任务的“专家”子模型,从而提升计算效率;但当模型规模持续扩大时,节点间通信延迟与带宽压力随之加剧,极易演变...
晚点独家获悉,1 月 8 日智谱上市当天,清华大学计算机系教授、智谱创立发起人兼首席科学家唐杰发布内部信,宣布很快将推出新一代模型 GLM-5。
唐杰说,今天是 “智谱生命中激动人心的一天”。他没有直接回应大模型公司的商业模式争议或给出智谱 2026 年商业化目标,但强调,真正 “有人用”,能帮到更多的人的理论、技术或产品才是智谱在追逐 AGI 路上的重要成就。
除了 GLM-5 的发布,内部信还介绍了 2026 年智谱聚焦的三个技术方向,包括全新的模型架构设计,...