更新:这个系列是之前就有的,简单来说就是大模型视觉生成/读取端到端,现在这个比之前的效果好了很多(见评论区图),不过还是比不上专注图片生成领域的 Top(SD等),大概只是为了以后多模态的更大的模型探路
分辨率只有 384x384(输入输出都是),技术文档还没出,我瞎猜一下,可能是把 RectifiedFlowSigLIPSDXL-VAE 的架构整合进了 transformer decoder/encoder,然后一起训练来对齐语义向量

这个活没那么大,并没有 V3 和 R1 那么震撼,ds 一般小活,不过可以期待一下日后的表现
 
 
Back to Top