
往常让AI绘制,我们皆是告成甩一句“画个猫”就完事。但目下这种形式要升级啦!香港科技大学(广州)、好意思团等团队搞了个叫GenEvolve的新框架,它把图像生成形成了“器具编排”模式。AI不再傻乎乎地只靠一句话硬刚,而是先贯通需求,再天真调用搜索、图像检索这些器具,临了把汇集到的信息打包成精确指示,交给生成器出图。这招让复杂需求的出图遵守稳多了,比如画个带特定商场所奶茶杯,再也无用反复调提醒词到崩溃。

GenEvolve主要解决两类贫穷:一类是依赖外部学问的,比如画某个果然建筑或名东说念主;另一类是要求视觉质地的,比如翰墨暴露、数目准确、材质传神。为了贬责这些,它配备了三样法宝:文本搜索补事实、图像搜索找参考、生成学问库调工夫。举个栗子,要画“穿汉服的姚明在长城上喝奶茶”,AI会先搜姚明相片和长城实景,再查汉服细节,临了把奶茶杯上的logo位置皆算了了——这哪是生成图,几乎是AI版好意思工小组。
![]()
最强横的是,悉数这个词历程是多轮有策画的——AI会我方判断该搜什么、参考哪张图、若何成就敛迹要求。固然目下它还能搭配Qwen-Image-Edit和Nano Banana Pro这些生成器玩,但念念路也曾翻开了:明天的AI绘图,可能更像合营伙伴,而不是简短器具。论文和代码皆开源了,感趣味的不错去arXiv和GitHub围不雅,说不定下次你画的“会飞的暖锅”就能精确带毛肚数目了。