百娱影视网

展开菜单

谷歌准备发布新一代图像生成与编辑模型“Nano Banana 2”

谷歌准备发布新一代图像生成与编辑模型“Nano Banana 2”
根据 TestingCatalog 的最新消息,Google Gemini 网页端近日出现了一张新的功能预告卡片。 该信息显示,谷歌正计划推出其下一代图像生成模型,属于 Nano Banana 系列的升级版本。新模型或将命名为“GEMPIX2”,作为 Nano Banana 的第二代产品亮相。 报道指出,此类预告卡片通常在功能正式上线前一周左右出现,因此推测 GEMPIX2 很可能将在下周正式发布。 此前发布的 Nano Banana(即 Gemini 2.5...

谷歌推出 File Search Tool 文件搜索系统 ,集成至 Gemini API

谷歌推出 File Search Tool 文件搜索系统 ,集成至 Gemini API
谷歌近日宣布,其gemini api正式推出file search tool(文件搜索系统)。该工具是一项完全托管的检索增强生成(rag)服务,旨在为开发者提供一种简单、集成且可扩展的方法,利用自有数据对gemini模型进行“锚定”,从而提升生成内容的相关性与准确性。 借助这一功能,开发者可以上传私有文档,系统将自动完成文本分块、索引构建以及检索处理。这使得Gemini模型在响应查询时,能够基于用户提供的文件内容生成更具上下文感知能力的回答。 使用示例代码如下:...

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验
stepfun ai 近日发布了其开源的音频编辑模型 step-audio-editx,这一创新的3b 参数模型将音频编辑的操作变得像文本编辑一样直接和可控。通过将音频信号的编辑任务转换为逐字的令牌操作,step-audio-editx 使得表达性的语音编辑变得更加简单。 目前,大多数零样本文本到语音(TTS)系统在情感、风格、口音和音色的控制上都显得有限。尽管它们可以生成自然的语音,但往往无法精确地符合用户的需求。过去的研究尝试通过额外的编码器和复杂的架构来拆分这些因...

GPT-5.1“马甲”疑遭泄露,年底AI大战一触即发

GPT-5.1“马甲”疑遭泄露,年底AI大战一触即发
谷歌的gemini 3还未见踪影,openai的gpt-5.1,似乎已在“路上”了。 近日,在知名的AI模型路由平台OpenRouter上,突然上线了一个全新的、匿名的神秘模型。在经过了部分网友的尝鲜体验和“越狱”测试后,大家普遍认为,这很可能就是披着“马甲”的GPT-5.1,其暂定名为:Polaris Alpha。 初步体验:GPT风味十足,案头工作依旧流畅 记者也第一时间,对这款神秘的Polaris模型,进行了一番简单的试用。 在基础的文案写作、邮件撰写等案头工...

StepFun AI 开源音频编辑模型 Step-Audio-EditX

StepFun AI 开源音频编辑模型 Step-Audio-EditX
StepFun AI 最近推出了其开源音频编辑模型 Step-Audio-EditX,这款拥有30亿参数的创新模型让音频编辑如同文本编辑般直观且高度可控。它通过将音频信号的修改任务转化为逐字令牌操作,显著简化了富有表现力的语音内容调整过程。 当前主流的零样本文本到语音(TTS)系统在情感表达、语调风格、口音特征以及音色控制方面仍存在局限性。虽然能够生成自然流畅的语音,却难以精准满足用户的个性化需求。以往的研究多依赖额外编码模块或复杂网络结构来分离这些因素,而 Ste...

恶意软件利用 AI 技术实现自我重写,检测难度加剧

恶意软件利用 AI 技术实现自我重写,检测难度加剧
Google 威胁情报小组的安全专家在近期的网络行为分析中,识别出一个名为 PROMPTFLUX 的新型实验性恶意软件家族。该恶意程序的独特之处在于,它能够通过远程调用 Google 的 Gemini 人工智能服务,实时重构自身代码结构,从而有效规避传统安全防护机制的侦测。 PROMPTFLUX 的运作方式极为复杂,具备利用 AI 技术动态生成恶意脚本的能力,并能对自身的代码实施混淆处理。大多数现有的防病毒系统依赖于对已知恶意行为和代码特征的快速匹配扫描,然而由于...

消息称 苹果最早明年推出1万亿参数的自研Apple Intelligence模型

消息称 苹果最早明年推出1万亿参数的自研Apple Intelligence模型
据彭博社《Power On》专栏的马克·古尔曼(Mark Gurman)最新消息,苹果正计划在明年推出一款完全自主研发、参数规模约为1万亿的基础AI模型,作为其Apple Intelligence战略的核心组成部分。 报道指出,苹果目前已基本敲定与谷歌的合作,将基于后者定制一个约1.2万亿参数的Gemini模型,并部署于私有云环境,用于驱动即将更新的Siri系统。该合作预计每年将为苹果带来约10亿美元的支出。 为了评估最佳技术路径,苹果今年对包括Anthropic...

商汤正式发布并开源 SenseNova-SI 系列空间智能大模型

商汤正式发布并开源 SenseNova-SI 系列空间智能大模型
商汤近日正式推出并开源了 sensenova-si 系列空间智能大模型,据官方披露,在多项权威评测的空间理解与推理任务中,该系列模型不仅显著超越同规模的开源多模态大模型,更在性能上优于 gpt-5 和 gemini 2.5 pro 等国际领先的闭源模型。 SenseNova-SI 定位于专注空间智能的大模型,此次开源涵盖 2B 和 8B 两个参数量版本。最新测评结果显示,该系列在多个空间智能基准测试(VSI、MMSI、MindCube、ViewSpatial)中表现优异...

Google Maps新AI功能上线!一句话打造个人化旅游路线

Google Maps新AI功能上线!一句话打造个人化旅游路线
google maps 推出基于 ai 的全新功能,让开发者乃至普通用户都能通过自然语言快速创建互动式地图,如导览路线、地点故事与即时数据可视化,无需具备编程基础即可轻松上手。这项升级由 gemini 模型驱动,能将用户的文字指令自动转化为可用的地图组件与代码,显著缩短制作时间并提升成品质量。 此次更新推出两大核心工具:「Builder Agent」与「MCP Server」。前者可协助用户规划并生成各类地图功能;后者则让 AI 能直接理解 Google Maps 的技...

历史手稿破译,Gemini 3 首次逼近“人类专家”

历史手稿破译,Gemini 3 首次逼近“人类专家”
一位历史学者对 Gemini3Pro 展开了一项极为严苛的评估:使用50份总计约一万词的英文历史手稿图像,涵盖多种复杂笔迹风格与不同成像质量条件。测试结果令人震惊——Gemini3在字符错误率(CER)和词语错误率(WER)上取得突破性进展,CER低至0.56%,WER仅为1.22%,已逼近甚至在某些情况下达到专业人工转录的水准。 该模型不仅成功识别出未曾在训练数据中出现的复杂手写体与表格结构,其表现甚至超越受过专门训练的研究生。在严格评分标准下,前代模型 Gemi...