DeepSeek 发布Janus-Pro & JanusFlow :多模态证据与生成新糟蹋!
发布日期:2025-03-06 09:42 点击次数:102专题:DeepSeek为何能升沉天下AI圈
开头:Safphere
🔥DeepSeek 发布Janus-Pro & JanusFlow :多模态证据与生成新糟蹋✨

DeepSeek 团队认真发布两款多模态框架——Janus-Pro 和 JanusFlow!。以下为两款模子的刺眼先容:
🌟 Janus-Pro:解耦视觉编码,已毕多模态高效斡旋

Janus-Pro Teaser 1
Janus-Pro 是一款斡旋多模态证据与生成的鼎新框架,通过解耦视觉编码的花式,极大进步了模子在不同任务中的适配性与性能。
✨ 时刻亮点
视觉编码解耦
采选沉寂的旅途区别处理多模态证据与生成任务,有用管束视觉编码器在两种任务中的功能冲突。
斡旋 Transformer 架构
使用单一的 Transformer 架构处理多模态任务,既简化了模子设想,又进步了延迟才能。
高性能发扬
多模态证据:模子性能匹配以至终点任务专用模子。
图像生成:高质地图像生成才能,适配 384x384 分辨率,称心多场景需求。
🛠 模子细节
视觉编码器:采选 SigLIP-L[1],维持 384x384 分辨率输入,捕捉图像细节。
生成模块:使用 LlamaGen Tokenizer[2],下采样率为 16,生成更细致的图像。
基础架构:基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造。

Janus-Pro Teaser 2
Janus-Pro 的架构设想邻接了纯真性与高效性,可适配视觉问答、图像标注等多模态场景,展现了明天多模态时刻的纷乱后劲!
**🌟 JanusFlow:会通生成流与说话模子,再行界说多模态 **

JanusFlow Teaser
JanusFlow 是一款通过生成流(Rectified Flow)与自转头说话模子会通已毕斡旋的框架。它不仅在理罢黜务中发扬优异,还能生成高质地图像,展现了框架设想的极简与纷乱。
✨ 时刻亮点
架构检朴且鼎新
无需复杂转变,获胜将生成流融入大说话模子框架,简化了多模态建模经过。
图像生成才能优厚
邻接 Rectified Flow 与 SDXL-VAE[3],已毕高质地 384x384 图像生成,已往适配不同运用场景。
高纯真性与可延迟性
维持多任务延迟,成为斡旋多模态框架的优秀采选。
🛠 模子细节
视觉编码器:相似采选 SigLIP-L[4],确保图像细节捕捉才能。
生成模块:基于 Rectified Flow 与 SDXL-VAE,生成细致度更高的图像。
基础架构:构建于 DeepSeek-LLM-1.3b-base,邻接预锻练与监督微调后的 EMA 查验点,性能发扬极端。

JanusFlow 架构
JanusFlow 的设想旨在为权略东谈主员与成立者提供一种极简但纷乱的多模态管束有蓄意,助力生成与理罢黜务的时刻向上!
📊 模子性能总结
模子称呼 |
多模态证据性能 |
图像生成才能 |
纯真性与延迟性 |
---|---|---|---|
Janus-Pro |
终点专用模子,解耦更高效 |
优异生成才能,维持多场景运用 |
高度纯真,架构斡旋设想 |
JanusFlow |
大说话模子与生成流高效会通 |
高质地生成,适配 384x384 分辨率 |
极简架构,纯真性更强 |
两款模子均展现了前沿性能与设想鼎新,为多模态限制带来糟蹋性进展!
🚀 快速上手
两款模子已开源,成立者可通过以下运动得到更多信息并快速部署:
Janus-Pro Github 仓库[5]
JanusFlow Github 仓库[6]
此外,刺眼的使用教程与示例也已在仓库中提供,匡助用户更快上手!
🔗 开源契约
代码:遵命 MIT License[7]。
模子:需效用 DeepSeek 模子契约[8]。

🎉 Janus 系列模子为多模态限制带来全新启发,期待它在更多场景中创造价值! 🌍
干系运动
[1]
SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384
[2]
LlamaGen Tokenizer: https://github.com/FoundationVision/LlamaGen
[3]
SDXL-VAE: https://huggingface.co/stabilityai/sdxl-vae
[4]
SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384
[5]
Janus-Pro Github 仓库: https://github.com/deepseek-ai/Janus
[6]
JanusFlow Github 仓库: https://github.com/deepseek-ai/Janus
[7]
MIT License: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE
[8]
DeepSeek 模子契约: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL

包袱裁剪:李桐
栏目分类