Google開發了可以在行動裝置上,以次秒(Subsecond)速度執行文字轉圖像的模型MobileDiffusion。MobileDiffusion是一種高效的擴散模型,在iOS和Android高階裝置...

贴文 3周前
650 0

Google開發了可以在行動裝置上,以次秒(Subsecond)速度執行文字轉圖像的模型MobileDiffusion。MobileDiffusion是一種高效的擴散模型,在iOS和Android高階裝置上,能在半秒內生成512×512的高品質圖像。MobileDiffusion相較於其他圖像生成模型小上許多,只有5.2億參數特別適用於行動應用部署。

當前文字轉圖像擴散模型越來越成熟,使用者只要輸入文字提示,模型就可生成高品質圖像,但是先進的模型動輒擁有數十億個參數,因此執行成本也非常高昂,需要強大的桌面電腦或是伺服器才能快速運算。

研究人員指出,造成文字轉圖像擴散模型效能低落的主要原因有兩個,第一是擴散模型固有設計需要迭代去噪生成圖像,而這需要對模型進行多次評估,第二則是文字轉圖像擴散模型網路架構的高複雜性,通常具有數十億參數導致運算成本高昂。

由於這些效能上的障礙,儘管在行動裝置上執行生成式人工智慧模型,具有強化用戶體驗、高隱私性的好處,但目前研究仍相對較少。當然還是有一些提升文字轉圖像擴散模型效率的研究,像是透過數值求解器或是蒸餾技術,減少模型的功能評估數量(Number of Function Evaluations,NFE),希望藉由降低評估所帶來的運算負擔。但即便如此,由於模型架構仍然非常複雜,在行動裝置上即便是少量的評估步驟,仍然可能執行地很慢。

MobileDiffusion則是研究人員試圖突破行動裝置有限運算能力的限制,藉由仔細檢視Stable Diffusion中UNet架構每個組成部分和計算操作,設計出高效文字轉圖像擴散模型。MobileDiffusion遵循潛在擴散模型的設計,具有文字編碼器、擴散UNet和圖像解碼器,研究人員使用適用於行動裝置的小模型CLIP-ViT/L14,作為MobileDiffusion文字編碼器,並將改進效率的重點,擺在擴散UNet和圖像解碼器上。网页链接

暂无评论

暂无评论...