BlockDance：扩散模型加速革命！复旦字节联手实现50%无损提速

作者：小编　添加时间：2025-03-26 19:39:17

　　：基于 BlockDance-Ada，根据不同生成任务的复杂性动态调整计算资源分配，实现更优的速度与质量平衡。

　　今天要破局的BlockDance正在重构生成式AI速度法则！这个学术派加速神器：

　　DeepSeek开源周第五弹之二◆■★★★！Smallpond：构建于3FS之上的轻量级数据处理框架，高效处理PB级数据

　　Chitu：清华核弹级开源！推理引擎3倍提速+50%省卡，国产芯片告别英伟达绑架

　　：基于减少冗余计算，将 DiTs 的推理速度提升 25% 至 50%，提高模型在实际应用中的效率■◆。

　　❤️ 如果你也关注 AI 的发展现状◆★■，且对 AI 应用开发感兴趣◆■★，我会每日分享大模型与 AI 领域的开源项目和应用◆◆，提供运行实例和实用教程★◆，帮助你快速上手AI技术★◆★★★！

　　机器学习(Machine Learning◆◆◆★◆★, ML)是人工智能的核心◆◆★，专门研究计算机怎样模拟或实现人类的学习行为■■◆◆■★，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，它是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域◆★◆。本课程将带你入门机器学习◆★■■，掌握机器学习的概念和常用的算法。

　　本文内容由阿里云实名注册用户自发贡献◆★■，版权归原作者所有◆★■，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任◆■◆★■。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有的内容■■◆◆★，填写侵权投诉表单进行举报，一经查实★◆★★■，本社区将立刻删除涉嫌侵权内容★◆■。

　　已有游戏公司用它实时渲染CG，广告团队靠它批量生成营销素材——你的扩散模型，是时候开启「涡轮增压」模式了！

　　MT-TransformerEngine：国产训练核弹◆■★！FP8+算子融合黑科技■★★，Transformer训练速度飙升300%

　　Chitu★★◆★◆：清华核弹级开源★■■◆！推理引擎3倍提速+50%省卡，国产芯片告别英伟达绑架

　　DeepSeek开源周第四弹之一！DualPipe■★■：训练V3/R1的双向流水线并行技术，计算与训练完全重叠，训练效率提升200%

　　◆■◆★■★：在加速的同时，保持与原始模型一致的生成效果★★■★◆，确保图像和视频的视觉质量、细节表现和对提示的遵循程度。

　　FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架，通过两阶段方法显著降低计算成本，快速生成高质量视频。

　　BlockDance 是复旦大学与字节跳动智能创作团队联合推出的一种扩散模型加速方法。它通过识别重用相邻时间步中结构相似的时空特征（STSS），减少冗余计算，从而提升推理速度，最高可加速50%■■◆■★。

　　■★■■◆◆：支持无缝应用于多种扩散模型和生成任务◆◆◆■★◆，如图像生成◆★★★◆、视频生成等◆◆★◆，具有很强的通用性。

　　DeepSeek 开源周第三弹！DeepGEMM：FP8矩阵计算神器！JIT编译+Hopper架构优化，MoE性能飙升

　　【7月更文挑战第4天】昆仑万维与南洋理工大学推出Q*算法，大幅提升7B规模语言模型的推理效能。Q*通过学习Q值模型优化LLMs的多步推理★◆■，减少错误★◆★★，无需微调，已在多个数据集上展示出显著优于传统方法的效果★◆。尽管面临简化复杂性和效率挑战，这一创新为LLM推理能力提升带来重大突破■■。[论文链接★★◆■■■:](

　　全球首个知识增强千亿大模型鹏城-百度·文心发布，打破AI技术与行业落地鸿沟

　　BlockDance：扩散模型加速革命！复旦字节联手实现50%无损提速

　　：用强化学习中的策略梯度方法训练决策网络◆★◆■★★。基于设计奖励函数，平衡图像质量和计算效率之间的权衡。奖励函数包括图像质量奖励（如视觉美感■★■◆、对提示的遵循程度）和计算奖励（如重用步骤的比例）。基于最大化预期奖励，决策网络能学习到最优的缓存和重用策略◆■◆，在保持生成质量的同时实现最大的加速效果★◆■◆。

　　DeepSeek开源周第五弹之二！Smallpond：构建于3FS之上的轻量级数据处理框架★■★★，高效处理PB级数据

　　BlockDance：扩散模型加速革命！复旦字节联手实现50%无损提速

　　破解自注意力推理缺陷的奥秘◆★◆，蚂蚁自研新一代Transformer或实现无损外推

　　Evo 2：基因编程AI革命◆★◆！★◆■！DNA版GPT-4问世★★：100万碱基全解析，自动设计基因编辑器

　　exo：22.1K Star■◆！一个能让任何人利用日常设备构建AI集群的强大工具，组成一个虚拟GPU在多台设备上并行运行模型

　　全球首个知识增强千亿大模型鹏城-百度·文心发布，打破AI技术与行业落地鸿沟

　　DeepSeek开源周第五弹之一！3FS：支撑V3/R1模型数据访问的高性能分布式文件系统

　　MNN★◆★★：阿里开源的轻量级深度学习推理框架，支持在移动端等多种终端上运行★★■◆，兼容主流的模型格式

　　【科技少年】★★◆“天池杯★★★■”AI领航计划·高级挑战教程（赛题及baseline解读）

　　：引入 BlockDance-Ada，基于强化学习的轻量级决策网络。根据当前生成任务的复杂性（例如图像的结构复杂性、对象数量等），动态决定哪些步骤应该进行缓存■■◆★★，哪些步骤能进行重用。动态调整机制让 BlockDance 在不同的生成任务和模型上实现更优的速度与质量平衡。

　　FlashVideo：生成1080p视频仅需102秒■◆，字节联合港大推出低成本高分辨率视频生成框架

　　：在扩散模型的去噪过程中，相邻时间步的特征之间存在高度相似性◆★，尤其是在模型的浅层和中层模块中。模块主要负责生成图像的结构信息，结构信息在去噪过程的早期阶段就已经相对稳定。BlockDance 基于分析特征的相似性，识别出结构相似的时空特征（Structurally Similar Spatio-Temporal★★◆★◆，STSS）★◆★◆★，作为加速的关键点。

　　随着大语言模型的快速发展，其长度外推能力（length extrapolating）正日益受到研究者的关注★■。尽管这在 Transformer 诞生之初，被视为天然具备的能力★◆■◆■，但随着相关研究的深入，现实远非如此。传统的 Transformer 架构在训练长度之外无一例外表现出糟糕的推理性能★◆◆■★。

　　【创意坊】未来之巅★◆：国内ChatGPT对标◆■◆★■■，双千亿级大模型引爆科幻革命！

　　❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程◆◆★■■★，帮助你快速上手AI技术◆■■■◆■！

　　人工智能大模型的涌现能力是当今科技的焦点★■★◆。其产生依赖于四大关键因素：1) 海量数据提供丰富的训练素材，涵盖多样化的文本和图像；2) 强大算力如GPU、TPU加速模型训练◆◆◆★★★，突破性能瓶颈；3) 精妙架构如Transformer引入自注意力机制■■★◆，提升语义理解；4) 过参数化与优化策略使模型不断进化，展现未曾预设的能力。这些因素协同作用★★◆■，推动大模型在复杂任务中表现出色，为未来带来更多可能■★◆■★★。

　　MT-TransformerEngine★■◆：国产训练核弹！FP8+算子融合黑科技■★★◆◆，Transformer训练速度飙升300%

　　BlockDance：扩散模型加速革命■◆◆■◆！复旦字节联手实现50%无损提速

　　★◆★■◆：将去噪过程分为“缓存步骤”和“重用步骤◆★■◆■◆”◆★◆。在缓存步骤中，模型保存当前步骤中某些模块的特征输出★■。在后续的重用步骤中，模型直接使用之前缓存的特征■◆★★■■，跳过模块的重复计算■◆◆★★，节省计算资源◆◆。

　　DeepSeek开源周第四弹之三！Profiling Data：训练V3/R1时计算与通信重叠策略的性能分析数据

　　本场景中主要介绍如何使用模型在线服务（PAI-EAS）部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理，并通过LangChain集成自己的业务数据。

　　MT-MegatronLM◆★◆■■■：国产训练框架逆袭！三合一并行+FP8黑科技◆■◆★，大模型训练效率暴涨200%

　　谷歌机器人迈入「交互语言」新纪元■◆！开放命令正确率高达93◆★◆★◆◆.5%，开源数据量提升十倍

　　BlockDance 专注于去噪后期的结构特征★★■，避免因重用低相似度特征导致的图像质量下降。此外，BlockDance 还引入了 BlockDance-Ada，基于强化学习动态分配计算资源◆★◆★★■，根据不同实例的复杂性调整加速策略★■★◆■◆，进一步优化内容质量和推理速度。

　　MHA2MLA：0.3%数据微调★★■★！复旦团队开源推理加速神器，KV缓存狂降96◆◆■★★◆.87%

　　COMET：字节跳动开源MoE训练加速神器，单层1.96倍性能提升◆■★◆■，节省百万GPU小时

　　BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法■■◆，通过识别重用相邻时间步中的结构相似特征，减少冗余计算◆★，最高可加速50%，同时保持生成质量。

　　【创意坊】未来之巅：国内ChatGPT对标，双千亿级大模型引爆科幻革命！

　　谷歌机器人迈入「交互语言」新纪元◆◆◆★■！开放命令正确率高达93■■★★★◆.5%，开源数据量提升十倍