更新：这个系列是之前就有的，简单来说就是大模型视觉生成/读取端到端，现在这个比之前的效果好了很多（见评论区图），不过还是比不上专注图片生成领域的 Top（SD等），大概只是为了以后多模态的更大的模型探路分辨率只有 384x384（输入输出都是），技术文档还没出，我瞎猜一下，可能是把 RectifiedFlow，SigLIP，SDXL-VAE 的架构整合进了 transformer decoder/encoder，然后一起训练来对齐语义向量这个活没那么大，并没有 V3 和 R1 那么震撼，ds 一般小活，不过可以期待一下日后的表现

更新：这个系列是之前就有的，简单来说就是大模型视觉生成/读取端到端，现在这个比之前的效果好了很多（见评论区图），不过还是比不上专注图片生成领域的 Top（SD等），大概只是为了以后多模态的更大的模型探路
分辨率只有 384x384（输入输出都是），技术文档还没出，我瞎猜一下，可能是把 RectifiedFlow，SigLIP，SDXL-VAE 的架构整合进了 transformer decoder/encoder，然后一起训练来对齐语义向量

这个活没那么大，并没有 V3 和 R1 那么震撼，ds 一般小活，不过可以期待一下日后的表现