DeepSeek 发布Janus-Pro & JanusFlow :多模态证据与生成新糟蹋!
厦门游乐米

厦门游乐米

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

DeepSeek 发布Janus-Pro & JanusFlow :多模态证据与生成新糟蹋!

发布日期:2025-03-06 09:42    点击次数:102

专题:DeepSeek为何能升沉天下AI圈

  开头:Safphere

  🔥DeepSeek 发布Janus-Pro & JanusFlow :多模态证据与生成新糟蹋✨

  DeepSeek 团队认真发布两款多模态框架——Janus-Pro 和 JanusFlow!。以下为两款模子的刺眼先容:

  🌟 Janus-Pro:解耦视觉编码,已毕多模态高效斡旋

  Janus-Pro Teaser 1

  Janus-Pro 是一款斡旋多模态证据与生成的鼎新框架,通过解耦视觉编码的花式,极大进步了模子在不同任务中的适配性与性能。

  ✨ 时刻亮点

视觉编码解耦

采选沉寂的旅途区别处理多模态证据与生成任务,有用管束视觉编码器在两种任务中的功能冲突。

  斡旋 Transformer 架构

使用单一的 Transformer 架构处理多模态任务,既简化了模子设想,又进步了延迟才能。

  高性能发扬

多模态证据:模子性能匹配以至终点任务专用模子。

图像生成:高质地图像生成才能,适配 384x384 分辨率,称心多场景需求。

  🛠 模子细节

视觉编码器:采选 SigLIP-L[1],维持 384x384 分辨率输入,捕捉图像细节。

生成模块:使用 LlamaGen Tokenizer[2],下采样率为 16,生成更细致的图像。

基础架构:基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 打造。

  Janus-Pro Teaser 2

  Janus-Pro 的架构设想邻接了纯真性与高效性,可适配视觉问答、图像标注等多模态场景,展现了明天多模态时刻的纷乱后劲!

  **🌟 JanusFlow:会通生成流与说话模子,再行界说多模态 **

  JanusFlow Teaser

  JanusFlow 是一款通过生成流(Rectified Flow)与自转头说话模子会通已毕斡旋的框架。它不仅在理罢黜务中发扬优异,还能生成高质地图像,展现了框架设想的极简与纷乱。

  ✨ 时刻亮点

架构检朴且鼎新

无需复杂转变,获胜将生成流融入大说话模子框架,简化了多模态建模经过。

图像生成才能优厚

邻接 Rectified Flow 与 SDXL-VAE[3],已毕高质地 384x384 图像生成,已往适配不同运用场景。

高纯真性与可延迟性

维持多任务延迟,成为斡旋多模态框架的优秀采选。

  🛠 模子细节

视觉编码器:相似采选 SigLIP-L[4],确保图像细节捕捉才能。

生成模块:基于 Rectified Flow 与 SDXL-VAE,生成细致度更高的图像。

基础架构:构建于 DeepSeek-LLM-1.3b-base,邻接预锻练与监督微调后的 EMA 查验点,性能发扬极端。

  JanusFlow 架构

  JanusFlow 的设想旨在为权略东谈主员与成立者提供一种极简但纷乱的多模态管束有蓄意,助力生成与理罢黜务的时刻向上!

  📊 模子性能总结

模子称呼

多模态证据性能

图像生成才能

纯真性与延迟性

Janus-Pro

终点专用模子,解耦更高效

优异生成才能,维持多场景运用

高度纯真,架构斡旋设想

JanusFlow

大说话模子与生成流高效会通

高质地生成,适配 384x384 分辨率

极简架构,纯真性更强

  两款模子均展现了前沿性能与设想鼎新,为多模态限制带来糟蹋性进展!

  🚀 快速上手

  两款模子已开源,成立者可通过以下运动得到更多信息并快速部署:

Janus-Pro Github 仓库[5]

JanusFlow Github 仓库[6]

  此外,刺眼的使用教程与示例也已在仓库中提供,匡助用户更快上手!

  🔗 开源契约

代码:遵命 MIT License[7]。

模子:需效用 DeepSeek 模子契约[8]。

  🎉 Janus 系列模子为多模态限制带来全新启发,期待它在更多场景中创造价值! 🌍

  干系运动

  [1] 

  SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384

  [2] 

  LlamaGen Tokenizer: https://github.com/FoundationVision/LlamaGen

  [3] 

  SDXL-VAE: https://huggingface.co/stabilityai/sdxl-vae

  [4] 

  SigLIP-L: https://huggingface.co/timm/ViT-L-16-SigLIP-384

  [5] 

  Janus-Pro Github 仓库: https://github.com/deepseek-ai/Janus

  [6] 

  JanusFlow Github 仓库: https://github.com/deepseek-ai/Janus

  [7] 

  MIT License: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-CODE

  [8] 

  DeepSeek 模子契约: https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL

海量资讯、精确解读,尽在新浪财经APP

包袱裁剪:李桐



栏目分类

厦门游乐米

专题:DeepSeek为何能升沉天下AI圈 开头:Safphere 🔥DeepSeek 发布Janus-Pro JanusFlow :多模态证据与生成新糟蹋✨ DeepSeek 团队认真发布两款多模态框架——Janus-Pro和JanusFlow!。以下为两款模子的刺眼先容: 🌟 Janus-Pro:解耦视觉编码,已毕多模态高效斡旋 Janus-Pro Teaser 1 Janus-Pro 是一款斡旋多模态证据与生成的鼎新框架,通过解耦视觉编码的花式,极大进步了模子在不同任务中的适配性与性能。