12月22日,阿里巴巴集团发布并开源了其最新的图像生成模型“Qwen-Image-Layered”。该模型的核心突破在于,能够像专业图像处理软件一样,理解并生成具有分层结构的图像,从而实现了对图像内容进行精准、可分离的编辑。
据悉,传统视觉模型在处理图像时,通常将其视为一个不可分割的“扁平”像素 *** ,这导致对图像中任何元素的修改都可能引发整体画面的不可控变化。而新模型通过创新的自研架构,成功模拟了专业设计软件中的图层工作逻辑。它能够将图像智能分解为多个独立图层,并理解物体间的空间关系(如远近、遮挡),从而允许用户对特定图层进行移动、缩放或重绘等操作,同时保持其他部分的高度一致性。
这一技术进展,旨在解决当前AI图像生成领域长期存在的“编辑一致性”难题。在商业广告、UI设计、影视后期等对精度要求极高的专业领域,传统AI生图工具的随机性往往使其仅能作为创意参考。Qwen-Image-Layered模型通过引入对透明通道(Alpha Channel)的结构化理解与全新的模型架构,使得AI生成的图像从“一次性成品”转变为可灵活、精准调整的“素材库”,显著提升了其在专业工作流中的实用价值。
Qwen-Image-Layered模型架构示意图
技术团队透露,为了使模型具备这种“分层思维”,其训练数据来源于海量的专业设计源文件,从中学习真实的图层组织逻辑。这种基于物理空间关系的理解方式,标志着视觉大模型的研究方向正从单纯的像素预测,向更深层的结构理解与重组演进。
行业观察人士认为,该模型的推出,有望为数字内容创作带来实质性变革。设计及影视 *** 人员可以直接在生成结果上进行局部、非破坏性的编辑,无需复杂的后期抠图与合成,这将大幅提升创作效率与灵活性。
目前,Qwen-Image-Layered模型已在主流开源社区平台公开,供开发者与研究机构免费下载并用于商业用途。数据显示,阿里巴巴开源的通义千问系列模型累计下载量已突破7亿次,服务企业客户超百万家,在中国企业级模型市场中占据领先地位。
今日,阿里Z-Image登顶开源图像生成模型榜单。 全球权威AI基准测试平台ArtificialAnalysis公布最新的图像模型榜单,阿里6B参数Z-Image Turbo超越32B的FLUX.2,成为最强开源图像生成模型。 目前,该模型已在阿里云百炼上线,生成1千张图片仅需5美元。 Z-Image Turbo的ELO分数达到1152,也刷新了榜单纪录。 业内人士认为,这是业界性能更好、生成速度最快、价格更便宜的图像生成模型之�
本期AI日报涵盖多项重要进展:阿里通义千问发布分层图像编辑模型Qwen-Image-Layered,实现类似Photoshop的图层操作;Claude Chrome插件全面开放,提升AI与网页交互体验;快手Kling 2.6通过语音与动作控制提升视频生成质量;MiniMax通过港交所上市聆讯,展现AI领域实力;三星与谷歌合作推出全球首款搭载Gemini的AI冰箱,实现食材识别与红酒管理;北京人形机器人推出国内首个符合国标的VLA大模型XR-1,具备复杂操作能力;谷歌推出A2UI开放标准,让AI *** 即时创建图形界面;以及开源提示词工具PromptFill上线,降低AI绘画门槛。
本期AI日报聚焦行业动态与产品更新。微信推出AI小程序成长计划,提供免费资源助力开发者。中国电信开源千亿参数MoE大模型TeleChat-3,实现国产算力训练。谷歌测试新图像模型Nano Banana2Flash,主打高性价比。马斯克宣布Grok新版上线,全球用户突破3000万。ChatGPT全面接入主流App,可一键订酒店、点外卖等。此外,高德打车上线“AI服务卫士”提升安全,AI助手“ima”新增PPT生成功能,Plaud推出AI录音笔,智元与MiniMax合作定制个性化机器人语音。
文章探讨了职场中数据可视化面临的挑战,指出传统AI工具生成静态图表难以编辑,导致返工成本高。爱图表(aitubiao.com)作为解决方案,通过“白盒式”生成逻辑,提供可深度编辑的图表与报告,打通从数据到洞察的“最后一公里”。其核心在于多智能体协作架构,结合多年积累的数据集与自研模型,确保生成内容透明可控。产品上线后用户增长迅速,反映了市场对“AI生成可编辑图表”的强烈需求。
大模型界的翘楚openai,面对每年数十亿美元的研发成本,正迎来一个艰难的决定:其员工正在琢磨如何让 ChatGPT 在用户提出相关问题时,优先显示赞助内容。 也就是说,当用户让大模型推荐一家眼镜店、一款工业传感器、一家民宿时,很可能大模型给出的是企业的软广。但大模型本身可能并不知道答案被“精心设计”过,它依然兢兢业业,会根据各个指标筛选出你想要的产品�
通用型AI Agent领域佼佼者Manus近日宣布加入Meta大家庭,此举被视为对其技术实力的高度认可。Manus专注于构建通用型AI Agent,帮助用户高效完成研究、自动化及复杂任务,已处理超147万亿token并创建超8000万台虚拟计算机,展现强大技术实力。加入Meta后,Manus将保持独立运营,现有服务不受影响,双方将共同推动先进AI能力转化为可规模化、可靠的系统,为用户带来更优质的AI服务体验。
本期AI日报聚焦多项技术突破与应用创新。清华开源TurboDiffusion框架,将AI视频生成速度提升200倍,消费级显卡也能秒出大片。腾讯混元推出ETC领域首款AI智能体,通过多模态交互提升出行体验。阿里通义千问发布新一代图像编辑模型Qwen-Image-Edit-2511,大幅提升人物一致性编辑能力。京东物流在英国启用首个“智羚仓”,近200台自研机器人提升分拣效率。1min.AI推出终身全能计划,
随着生成式AI的普及,用户搜索行为从传统网页转向直接向AI提问,品牌面临“数字隐身”风险。GEO(生成式引擎优化)应运而生,旨在优化品牌在AI回答中的可见度。AIbase推出的GEOBase平台,通过多平台矩阵监控、AI引用来源分析、业务主题与语义分析、竞品对标分析等功能,帮助企业精准掌握品牌曝光与口碑,并提供从监控到优化的闭环策略,是AI时代品牌生存的“雷达系统”。
AI对话模型重塑搜索生态,品牌面临如何在海量信息中被精准“找到”的难题。GEOBase作为企业级智能数据平台,提供从品牌数据监测、竞品分析到内容优化的全链路解决方案,帮助品牌跳出“盲目试错”困境,用数据驱动决策。多个行业案例显示,借助其功能,品牌AI提及率、用户咨询量及转化率均获显著提升。在AI搜索流量快速增长的趋势下,GEOBase助力企业高效抢占流量高地,实现智能时代的战略破局。
扎根印制电路板技术研发二十年,专注于汽车电子、高频通讯等中高端领域的协和电子(605258)本周启动招股,下周四(11月19日)即将网上申购。 多年的沉淀,令其收获了一批优质客户。不过随着行业规模增长放缓、各类成本抬升以及行业龙头集中度提高,协和电子往日优势逐渐消退,利润水平也逐年降低,此...
1947年,美国贝尔实验室的威廉.肖克利和他的两位助手布拉顿、巴丁,研制出了世界上第一只晶体管,为集成电路产业打开时代大门,也造就了现代信息社会的根基――“芯片”。 但是现代信息社会并不能避不开国与国之间的问题。 “芯片强则产业强,芯片兴则经济兴,没有高端芯片就没有真正的产业安全和国...
威腾电气,一家缺乏科创属性、爱夸夸其谈还带着问题供应商的公司,正在冲击科创板市场。 2021年1月14日,以输配电中母线产品研发、制造及销售为主业的威腾电气,正式通过上市委会议,距离科创板上市又近了一步。 但这对投资者而言,可能并不是一件好事。 由于身在传统电力行业,科研步伐又...
钱流不进口袋的企业,真的算是赚钱企业吗? 盈利,是大部分投资者最关心的问题。但企业盈利的有效性,是有前提的,现金流就是这个前提。但这部分,往往会被许多投资者忽略,正如巴菲特的那句著名评论:“现金是氧气,99%的时间你不会注意它,直到它没有了”。 没有现金流入的盈利只是纸面数字,纸面数...
以19%市占率位居精微屏蔽罩市场头部玩家的和林微纳,即将亮相科创板。 2021年3月9日,主要产品为微机电(MEMS)精微电子零部件的和林微纳,开启了科创板招股。公司与楼氏电子、瑞声科技、裕元电子和银河机械,一同成为精微屏蔽罩市场的主要玩家,2019年五家企业合计占到全球市场总份额的80%...
作为“光伏、风电”等大热门行业上游关键零部件供应商的新风光,即将登陆科创资本市场。 2021年3月24日,以大功率电力电子节能控制技术为核心技术平台,构筑电气控制装备产品体系的新风光,在科创板开启招股环节。 招股资料显示,新风光本次共计将募资5.9亿元,其中1.5亿元用于变频器和SV...