Show HN:Lance – 在一个模型中生成和理解图像/视频

2026-05-20 1 阅读 cleardusk
Lance: 多任务协同统一多模态建模 付凤仪 * , 黄梦奇 *,✉ , 吴少金 * , 蒋云生 * , 霍宇飞, 郭建柱 ✉,§ 李浩, 宋英航, 丁飞, 何谦, 付哲人, 毛振东, 张永东 字节跳动 * 同等贡献 ✉ 通讯作者 § 项目负责人 英文 | 简体中文 ? 亮点 Lance 是一个 3B 原生统一多模态模型,支持在单一框架内理解、生成和编辑图像和视频。在 3B 规模下高效。仅凭借 3B 活动参数,Lance 即可在图像生成、图像编辑和视频生成基准测试中提供强大的性能。从头开始训练。 Lance 采用分阶段多任务配方构建,并在 128-A100-GPU 预算内完全从头开始训练(ViT 和 VAE 编码器除外;Transformer 主干完全从头开始训练)。我们正在积极更新和改进这个存储库。如果您发现任何错误或有建议,请随时提出问题或提交拉取请求 (PR) ?。 ? 演示 文本转视频 视频编辑 多轮一致性编辑 智能视频生成 视频理解 问题:这个人在桌子上发射了多少次物体?选项:(A) 3 (B) 2 (C) 4 回答:(A) 3 问题:该人做出一系列重复的动作。此人做了多少个不同的重复动作?选项:(A) 2 (B) 3 (C) 4 回答:(A) 2 问题:视频中紫色球体向哪个方向移动?选项: (A) 向下并向右。 (B) 向上和向左。 (C) 向上并向右。 (D) 物体静止。响应: (A) 向下并向右。问:视频中表现出的不真实现象是什么?选项: (A) 该男子可以通过电话操纵时间。 (B) 男子通过手机屏幕抓取物体。 (C) 巧克力变成不同的物体。 (D) 可见的推进装置能够实现飞行。响应:(B) 男子通过手机屏幕抓住一个物体。问题:简要介绍该视频中显示的烹饪过程。反应:加入番茄泥,与鸡块拌匀。问题:提供给定视频的详细描述,捕捉其关键时刻。回应:在阳光照射的草地上,一只小玳瑁蝴蝶栖息在一朵紫色的花朵上。一只带有黑色和黄色条纹的蜜蜂落在同一朵花上。蝴蝶轻轻拍动翅膀,蜜蜂忙着采集花蜜。花朵在微风中轻轻摇曳。然后蝴蝶起飞,蜜蜂紧随其后,两者都前往下一朵花。该场景生动地展示了自然环境中昆虫的互动,蝴蝶和蜜蜂的颜色与草地的绿色背景形成鲜明对比。视频在短短的6秒内捕捉到了这宁静的时刻。文本到图像生成 图像编辑 图像理解 问题:最大的片段是否大于所有其他片段的总和?响应:是的,饼图中最大的部分是蓝色部分,这是人口最多的部分。问题:有多少比例的受访者希望更好的边境安全?回答:29% 问题:该车的车牌号是多少?回复:该车车牌号为BX62 BFY。问:根据自营市场调查的数据,1998年在促销会议和活动上花费了多少钱?答复:根据专有市场研究的数据,1998年促销会议和活动的总支出约为13亿美元。问:意大利罗马斗兽场是什么样子?回应:意大利罗马的斗兽场是一座由石头和混凝土建成的宏伟的古代圆形剧场。它的特点是其大的拱形开口和半圆形形状。斗兽场已部分修复,原来的颜色已褪色,但柱子和半圆形拱门等建筑细节仍然可见。图像中的灯光凸显了罗马斗兽场的宏伟和历史意义,使其在夜空的背景下显得格外引人注目。问题:从地球上看日全食是什么样子?响应:日全食看起来像一个带有明亮白色外缘的黑圈。这是地球自转和地球阴影部分遮挡太阳光的结果。日食的明亮白色边缘是由太阳的高能量及其与地球大气层的相互作用造成的,而日食的黑暗部分是由地球的阴影和周围的气流造成的。日食的形状具有明亮的白色边缘和黑暗的中心,类似于满月或黑色圆盘的形状。它是发生在地球大气层中的自然现象,是太阳系的重要组成部分。 ? 安装推荐环境 软件:Python 3.10+、CUDA 12.4+(必需) 硬件:需要至少 40GB VRAM 的 GPU