deepseek 第44页_百娱影视网

Liquid AI 最新实验性模型 LFM2-2.6B-Exp 发布

liquid ai 正式推出了其全新实验性模型 lfm2-2.6b-exp。这款仅含 2.6b（26 亿）参数的轻量级开源模型，在多项核心基准测试中展现出卓越性能，尤其在指令遵循能力方面，显著优于参数规模达数百亿级别的 deepseek r1-0528。 LFM2-2.6B-Exp 基于 Liquid AI 第二代 Liquid Foundation Models（LFM2）系列中的 2.6B 基础模型，采用纯强化学习（RL）方式进行后训练优化，全程无需监督微调预热，也...

2026-01-09/ 58 次浏览/ 资讯

阶跃星辰开源 Step-DeepResearch，经济高效的端到端深度研究模型

阶跃星辰正式开源了参数量达320亿（32b）的深度研究专用大模型：step-deepresearch。该模型在深度研究任务上的表现已比肩openai o3-mini与gemini 2.0 flash等顶尖商业模型，而单次调用成本却降至其十分之一以内。 https://www.php.cn/link/ae5ef52da81b8f483ac166475587ad87 模型简介 Step-DeepResearch是一款兼顾高性能与高性价比的端到端深度研究智能体模型，专为...

2026-01-09/ 60 次浏览/ 资讯

大模型千亿参数让 GPU 显存告急，英特尔居然让你试试 CPU

你是否想过：一台仅搭载单张24GB显存消费级显卡的设备，竟能完整运行参数量高达671B的DeepSeek R1“满血版”模型，并稳定输出5并发、51 Token/秒的推理速度（更详尽性能指标见下图）？这一水平已完全胜任报告解析、数据洞察等对响应延迟容忍度较高的AI任务。这组震撼数据源自英特尔最新公布的异构大语言模型服务方案——其底层依托HeteroFlow软件框架，硬件平台则采用至强6性能核CPU（搭配MRDIMM内存并启用AMX指令集加速），核心使命正是突破...

2026-01-09/ 59 次浏览/ 资讯

ChatGPT变身超级APP！订房、点餐、叫车通通一句话搞定

订房、叫车过去常需切换多个app，但未来或许只需停留在同一个界面——openai正将这些日常服务整合进chatgpt对话窗口。在devday 2025大会上，openai宣布：booking.com、expedia、spotify、figma、coursera、zillow、canva等第三方平台，已以「app」形式原生嵌入chatgpt；后续还将接入doordash、instacart、uber、alltrails等生活服务平台，实现吃喝玩乐一站式操作。延伸阅读...

2026-01-09/ 64 次浏览/ 资讯

源 Yuan 3.0 Flash 基础大模型开源发布

yuanlab.ai 团队正式对外开源源 yuan3.0 flash 多模态基础大模型。本次发布涵盖完整模型权重（支持16bit与4bit量化版本）、详尽技术白皮书、全流程训练方案及全面评测数据，全面开放社区进行后续微调、二次训练与垂直领域定制化开发。据官方说明，Yuan3.0 Flash 是一款参数量达40B的多模态基础大模型，基于稀疏混合专家（MoE）架构设计，单次前向推理仅动态激活约3.7B参数。该模型首次提出并落地强化学习优化范式 RAPO（Reflecti...

2026-01-09/ 63 次浏览/ 资讯

CES2026：海信空调智慧风Pro新品即将亮相

作为全球科技领域一年一度的“盛会”，ces2026将于1月6日至9日在美国拉斯维加斯盛大举行。海信空调将携多款创新产品高调登场，集中呈现人工智能在空气环境管理方面的最新突破与实践成果。其中，斩获德国红点概念设计大奖的海信空调智慧风pro系列新品airmaster，将首次亮相ces国际舞台。据了解，该产品与近期在国内首发的海信大力神空调同属2026美加墨世界杯定制机型，延续海信空调“全球协同、本地深耕”的研发理念，专为全球球迷打造兼具沉浸感与健康属性的“满分世界杯观赛空调”。...

2026-01-09/ 68 次浏览/ 资讯

AI 科学家杨立昆离职后曝 Meta 模型作弊刷榜

离职的杨立昆（lecun），转身便向 meta 抛出一记重击：饱受诟病的 llama 4，确实存在“刷榜”操作！结果的确被轻微调整过。为追求更优指标，团队在不同基准测试中切换使用了多个模型版本。常言道：莫招惹离职人。不只杨立昆，田渊栋也在其个人年度复盘中悄然揭开一角内情。明明是被临时抽调来为 Llama 4 紧急救场的，出发前我预设了四种可能路径，结果扎克伯格直接甩给我第五种…… （扶额苦笑.jpg） Anyway，关于离职后的动向，两位业界泰...

2026-01-09/ 66 次浏览/ 资讯

DeepSeek 新论文提出“流形约束超连接”（mHC）框架，梁文锋参与撰写

deepseek团队近期发布了一篇题为《mhc: manifold-constrained hyper-connections》（《mhc：流形约束超连接》）的论文，正式推出全新网络架构——mhc（流形约束超连接）。该设计聚焦于缓解大规模模型训练过程中普遍存在的不稳定性难题，有望为未来基础模型架构的升级提供关键思路。论文作者名单中，DeepSeek创始人兼CEO梁文锋位列联合作者，核心研发工作由解振达（Zhenda Xie）、韦毅轩（Yixuan Wei）与曹焕琪（H...

2026-01-09/ 52 次浏览/ 资讯

英伟达 GB200 NVL72 性能超越 AMD MI355X 达 28 倍

在最新公布的 semianalysis inferencemax 基准评测中，signal65 对 deepseek-r1 0528 混合专家（moe）模型的推理能力进行了深度评估。结果显示，英伟达（nvidia）gb200 nvl72 机架级系统在同等规模下，推理性能显著超越 amd instinct mi355x 集群。混合专家架构的核心优势在于按需调用最适配任务的“专家”子模型，从而提升计算效率；但当模型规模持续扩大时，节点间通信延迟与带宽压力随之加剧，极易演变...

2026-01-09/ 47 次浏览/ 资讯

智谱首席科学家唐杰：很快将推出新一代模型 GLM-5

晚点独家获悉，1 月 8 日智谱上市当天，清华大学计算机系教授、智谱创立发起人兼首席科学家唐杰发布内部信，宣布很快将推出新一代模型 GLM-5。唐杰说，今天是 “智谱生命中激动人心的一天”。他没有直接回应大模型公司的商业模式争议或给出智谱 2026 年商业化目标，但强调，真正 “有人用”，能帮到更多的人的理论、技术或产品才是智谱在追逐 AGI 路上的重要成就。除了 GLM-5 的发布，内部信还介绍了 2026 年智谱聚焦的三个技术方向，包括全新的模型架构设计，...

2026-01-09/ 74 次浏览/ 资讯

‹‹ ‹ 35 36 37 38 39 40 41 42 43 44 ››