awesome colab notebooks
1.0.0
该页面可能无法正确呈现。请直接打开README.md文件
存储库 | 文件 |
---|---|
|
|
姓名 | 描述 | 作者 | 链接 | 合作实验室 | 更新 |
---|---|---|---|---|---|
协同追踪器 | 在整个视频中联合跟踪多个点的架构 |
其他的 |
| 2024年10月16日 | |
PIFu | 用于高分辨率穿着人体数字化的像素对齐隐式函数 |
| 2024年10月8日 | ||
差异面 | 能够更优雅地应对看不见的复杂退化的方法,无需复杂的损耗设计 |
|
| 2024年10月5日 | |
分段任何内容 2 | 解决图像和视频中即时视觉分割问题的基础模型 |
其他的 |
| 2024年10月1日 | |
打开-取消混合 | 用于音乐源分离的深度神经网络参考实现,适用于研究人员、音频工程师和艺术家 |
|
| 2024年9月25日 | |
深刻的绘画和谐 | 与照片合成或全局风格化技术相比,算法产生的结果明显更好,并且它可以实现原本难以实现的创造性绘画编辑 |
|
| 2024年9月23日 | |
音频2照片真实 | 用于生成全身逼真化身的框架,该化身根据二元交互的对话动态进行手势 |
其他的 |
| 2024年9月13日 | |
快速分割任何东西 | 仅使用 SAM 作者发布的 SA-1B 数据集的 2% 来训练 CNN Segment Anything 模型 |
其他的 |
| 2024年9月10日 | |
纽拉兰杰洛 | 从 RGB 视频捕获进行高保真 3D 表面重建的框架 |
其他的 |
| 2024年9月2日 | |
双参考网 | 高分辨率二分图像分割的双边参考框架 |
其他的 |
| 2024年8月23日 | |
旋转 | 学习通过循环中的模型拟合重建 3D 人体姿势和形状 |
|
| 2024年8月21日 | |
YOLOv10 | 旨在从后处理和模型架构上进一步推进YOLO的性能效率边界 |
其他的 |
| 2024年8月20日 | |
规格VQGAN | 通过将训练数据集缩小为一组代表性向量来驯服视觉引导声音的生成 |
|
| 2024年7月12日 | |
现场肖像 | 视频驱动的人像动画框架,注重更好的通用性、可控性和实际使用的效率 |
其他的 |
| 2024年7月10日 | |
貘 | 通过每帧初始化和时间细化跟踪任意点 |
其他的 |
| 2024年7月5日 | |
声音2唇 | 口型同步专家是您在野外进行语音到唇型生成所需的一切 |
|
| 2024年6月27日 | |
深实验室切割 | 基于深度神经网络迁移学习的无标记姿态估计的有效方法,用最少的训练数据取得优异的结果 |
其他的 |
| 2024年6月5日 | |
泳池前 | MetaFormer 实际上是您实现视觉所需的工具 |
其他的 |
| 2024年6月1日 | |
故事扩散 | 自注意力计算方式,称为一致性自注意力,可显着提高生成图像之间的一致性,并以零样本方式增强流行的基于预训练扩散的文本到图像模型 |
|
| 2024年5月4日 | |
普利德 | Pure and Lightning ID 定制,一种无需调优的文本转图像 ID 定制方法 |
|
| 2024年5月3日 | |
电影 | 一种帧插值算法,可从两个具有较大中间运动的输入图像合成多个中间帧 |
其他的 |
| 2024年5月3日 | |
声艺 | 令牌填充神经编解码器语言模型,在有声读物、互联网视频和播客的语音编辑和零样本文本转语音方面实现了最先进的性能 |
|
| 2024年4月21日 | |
泽斯特 | 给定材料样本图像的情况下,零样本材料转移到输入图像中的对象的方法 |
|
| 2024年4月16日 | |
即时网格 | 用于从单个图像即时生成 3D 网格的前馈框架,具有最先进的生成质量和显着的训练可扩展性 |
其他的 |
| 2024年4月16日 | |
阿尔法折叠 | 高精度蛋白质结构预测 |
其他的 |
| 2024年4月15日 | |
维尔斯辰 | 用于文本到图像合成的架构,将大规模文本到图像扩散模型的竞争性能与前所未有的成本效益相结合 |
| 2024年4月6日 | ||
质量管理体系 | 通过加性量化对大型语言模型进行极限压缩 |
其他的 |
| 2024年3月8日 | |
YOLOv9 | 使用可编程梯度信息学习您想学习的内容 |
|
| 2024年3月5日 | |
多LoRA组合 | LoRA Switch 和 LoRA Composite 是旨在在准确性和图像质量方面超越传统技术的方法,尤其是在复杂的构图中 |
其他的 |
| 2024年3月3日 | |
苦杏酒 | 调节网络的多尺度和多模式推理,以识别人类疾病生物系统内和跨生物系统共享和不同的细胞回路及其驱动因素 |
其他的 |
| 2024年2月28日 | |
利达 | 用于生成与语法无关的可视化和信息图表的工具 | 维克多·迪比亚 |
| 2024年2月6日 | |
维特 | 视觉转换器和 MLP 混合器架构 |
其他的 |
| 2024年2月6日 | |
3D肯·伯恩斯 | 使用 PyTorch 从单个图像实现 3D Ken Burns 效果的参考实现 - 给定单个输入图像,它通过虚拟相机扫描和缩放受运动视差影响的静态图像进行动画处理 | 曼努埃尔·罗梅罗 | 2024年1月24日 | ||
瓦莱X | 用于跨语言语音合成的跨语言神经编解码器语言模型 |
其他的 |
| 2024年1月19日 | |
照片制作者 | 高效的个性化文本到图像生成方法,主要是将任意数量的输入ID图像编码成堆栈ID嵌入,以保存ID信息 |
其他的 |
| 2024年1月18日 | |
DD色彩 | 具有双解码器的端到端图像着色方法 |
其他的 |
| 2024年1月15日 | |
帕斯卡 | 像素感知稳定扩散网络,以实现强大的 Real-ISR 以及个性化风格化 |
|
| 2024年1月12日 | |
手工精炼机 | 通过基于扩散的条件修复来细化生成图像中畸形的手 |
|
| 2024年1月8日 | |
图播 | 学习熟练的中期全球天气预报 |
其他的 |
| 2024年1月4日 | |
环境管理署 | 进化规模建模:蛋白质的预训练语言模型 |
其他的 |
| 2023年12月28日 | |
拉瓦 | 大型语言和视觉助手,一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解 |
|
| 2023年12月22日 | |
背景抠图 V2 | 实时高分辨率背景替换技术,在现代 GPU 上以 4K 分辨率为 30 fps 运行,高清为 60 fps |
其他的 |
| 2023年12月22日 | |
高斯泼溅 | 最先进的视觉质量,同时保持有竞争力的训练时间,重要的是允许在 1080p 分辨率下进行高质量实时 (≥ 100 fps) 新颖的视图合成 |
|
| 2023年12月19日 | |
SMPLer-X | 将 EHPS 扩展到第一个通用基础模型,以 ViT-Huge 作为骨干,并使用来自不同数据源的多达 450 万个实例进行训练 |
其他的 |
| 2023年12月18日 | |
深度缓存 | 从模型架构角度加速扩散模型的免训练范式 |
|
| 2023年12月18日 | |
魔法动画 | 基于扩散的框架,旨在增强时间一致性、忠实地保留参考图像并提高动画保真度 |
其他的 |
| 2023年12月18日 | |
差分BIR | 利用生成扩散先验实现盲图像恢复 |
其他的 |
| 2023年12月18日 | |
音频LDM | 建立在潜在空间上的文本到音频系统,用于从对比语言音频预训练潜在中学习连续音频表示 |
其他的 |
| 2023年12月2日 | |
标签PFN | 学习进行表格数据预测的神经网络 |
|
| 2023年11月29日 | |
概念滑块 | 应用在预训练模型之上的即插即用低等级适配器 |
|
| 2023年11月26日 | |
Qwen-VL | 一组旨在感知和理解文本和图像的大规模视觉语言模型 |
其他的 |
| 2023年11月24日 | |
动漫GANv3 | 用于快速照片动画的双尾生成对抗网络 |
|
| 2023年11月23日 | |
伊萨卡岛 | 第一个深度神经网络,用于古希腊铭文的文本恢复、地理和时间归属 |
其他的 |
| 2023年11月21日 | |
原相-Σ | 用于 4K 文本到图像生成的扩散变压器的弱到强训练 |
其他的 |
| 2023年11月7日 | |
零123++ | 用于从单个输入视图生成 3D 一致的多视图图像的图像条件扩散模型 |
其他的 |
| 2023年10月26日 | |
UniFormerV2 | 用于高效时空表示学习的统一变压器 |
其他的 |
| 2023年10月20日 | |
显示-1 | 混合模型,称为 Show-1,结合了基于像素和基于潜在的 VDM,用于文本到视频的生成 |
其他的 |
| 2023年10月15日 | |
音频九月 | 使用自然语言查询进行开放域音频源分离的基础模型 |
其他的 |
| 2023年10月12日 | |
DA-CLIP | 退化感知视觉语言模型可以更好地将预训练的视觉语言模型转移到低级视觉任务中,作为图像恢复的通用框架 |
|
| 2023年10月11日 | |
悲伤语者 | 从音频生成 3DMM 的 3D 运动系数,并隐式调制新颖的 3D 感知面部渲染以生成头部说话 |
其他的 |
| 2023年10月10日 | |
穆西卡 | 音乐生成系统可以使用单个消费类 GPU 进行数百小时的音乐训练,并且比在消费类 CPU 上实时生成任意长度的音乐要快得多 |
|
| 2023年10月9日 | |
YOLOv6 | 专用于工业应用的单级物体检测框架 |
|
| 2023年10月8日 | |
梦幻高斯 | 将 3D 高斯转换为纹理网格并应用微调阶段来细化细节的算法 |
|
| 2023年10月4日 | |
图标 | 给定一组图像,该方法会根据每个图像估计详细的 3D 表面,然后将它们组合成可动画化的头像 |
|
| 2023年8月31日 | |
恐龙v2 | 产生高性能的视觉特征,可以直接与分类器一起使用,就像各种计算机视觉任务中的线性层一样简单;这些视觉功能非常强大,并且跨领域表现良好,无需任何微调 |
其他的 |
| 2023年8月31日 | |
猫头鹰ViT | 使用视觉转换器进行简单的开放词汇目标检测 |
其他的 | 2023年8月21日 | ||
样式GAN3 | 无别名生成对抗网络 |
其他的 |
| 2023年8月13日 | |
命运零 | 针对真实视频的零镜头基于文本的编辑方法,无需按提示进行训练或使用特定的掩模 |
其他的 |
| 2023年8月13日 | |
大甘 | 用于高保真自然图像合成的大规模 GAN 训练 |
| 2023年8月3日 | ||
喇嘛 | 使用傅立叶卷积进行分辨率鲁棒的大型掩模修复 |
其他的 |
| 2023年8月2日 | |
让它说话 | 一种以音频作为唯一输入,从单个面部图像生成富有表现力的头部说话视频的方法 |
其他的 |
| 2023年7月27日 | |
HIDT | 生成图像到图像模型和新的上采样方案,允许以高分辨率应用图像转换 |
|
| 2023年7月24日 | |
卡特勒 | 训练无监督对象检测和分割模型的简单方法 |
|
| 2023年7月24日 | |
识别任何内容和 Tag2Text | 视觉语言预训练框架,将图像标签引入视觉语言模型中,指导视觉语言特征的学习 |
其他的 |
| 2023年7月9日 | |
薄板样条运动模型 | 端到端无监督运动传输框架 |
|
| 2023年7月7日 | |
拖动GAN | 拖动您的 GAN:生成图像流形上基于点的交互式操作 |
其他的 |
| 2023年7月3日 | |
移动SAM | 迈向移动应用的轻量级 SAM |
其他的 |
| 2023年6月30日 | |
恐龙接地 | 将 DINO 与开放集目标检测的接地预训练结合起来 |
其他的 |
| 2023年6月28日 | |
T5X | 模块化、可组合、研究友好的框架,用于多种规模的序列模型的高性能、可配置、自助训练、评估和推理 |
其他的 |
| 2023年6月27日 | |
码语者 | 将语音驱动的面部动画作为学习代码本的有限代理空间中的代码查询任务,通过减少跨模态映射的不确定性,有效提升生成动作的生动性 |
其他的 |
| 2023年6月16日 | |
图像动画的一阶运动模型 | 将面部动作从视频传输到图像 | 阿利亚克桑德尔·西亚罗欣 |
| 2023年6月4日 | |
并行WaveGAN | 最先进的非自回归模型来构建您自己的出色声码器 | 林智树 |
| 2023年6月1日 | |
经济 | 专为“彩色图像的人体数字化”而设计,它结合了隐式和显式表示的最佳特性,从野外图像中推断出高保真 3D 穿着人类,即使穿着宽松的衣服或处于具有挑战性的姿势 |
|
| 2023年5月31日 | |
彩信 | 大规模多语言语音项目通过构建支持 1100 多种语言的单一多语言语音识别模型、能够识别 4000 多种语言的语言识别模型、支持 1400 多种语言的预训练模型以及文本到文本的转换,将语音技术从大约 100 种语言扩展到 1000 多种语言。超过 1100 种语言的语音模型 |
其他的 |
| 2023年5月26日 | |
FAB | Flow AIS Bootstrap 使用 AIS 在流量不太接近目标的区域生成样本,从而促进新模式的发现 |
|
| 2023年4月29日 | |
代码形成者 | 基于 Transformer 的预测网络可对低质量人脸的全局组成和上下文进行建模以进行代码预测,即使输入严重退化,也能发现与目标人脸非常接近的自然人脸 |
|
| 2023年4月21日 | |
文本2视频-零 | 文本到图像扩散模型是零样本视频生成器 |
其他的 |
| 2023年4月11日 | |
分割任何东西 | 分段任何模型可根据点或框等输入提示生成高质量的对象蒙版,并且可用于为图像中的所有对象生成蒙版 |
其他的 |
| 2023年4月10日 | |
跟随你的姿势 | 两阶段训练方案,可以利用图像姿势对和无姿势视频数据集以及预训练的文本到图像模型来获得姿势可控的角色视频 |
其他的 |
| 2023年4月7日 | |
EVA3D | 高质量无条件 3D 人体生成模型,仅需要 2D 图像集合进行训练 |
|
| 2023年4月6日 | |
稳定的梦境融合 | 使用预训练的 2D 文本到图像扩散模型执行文本到 3D 合成 |
|
| 2023年4月4日 | |
PIFuHD | 用于高分辨率 3D 人体数字化的多级像素对齐隐式函数 |
|
| 2023年3月26日 | |
视频重讲 | 系统根据输入音频编辑现实世界中头部说话视频的面孔,即使情绪不同,也能生成高质量且口型同步的输出视频 |
其他的 |
| 2023年3月19日 | |
可视化聊天GPT | 连接 ChatGPT 和一系列 Visual Foundation 模型,以实现在聊天期间发送和接收图像 |
其他的 |
| 2023年3月15日 | |
调整视频 | 用于文本到视频生成的图像扩散模型的一次性调整 |
其他的 |
| 2023年2月23日 | |
GPEN | GAN Prior 嵌入式网络用于野外盲人面部恢复 |
|
| 2023年2月15日 | |
PyMAF-X | 基于回归的方法从单目图像中恢复参数化全身模型 |
其他的 |
| 2023年2月14日 | |
迪斯科扩散 | 用于生成人工智能艺术和动画的笔记本、模型和技术的弗兰肯斯坦式融合 |
|
| 2023年2月11日 | |
格鲁VAE | 机器学习在生成和操纵节拍和鼓演奏方面的一些应用 |
|
| 2023年2月2日 | |
多轨音乐VAE | 该笔记本中的模型能够编码和解码最多 8 个轨道的单个小节,可以选择以基础和弦为条件 |
其他的 |
| 2023年2月2日 | |
音乐VAE | 用于学习音乐长期结构的分层潜在向量模型 |
|
| 2023年2月2日 | |
学习绘画 | 使用基于模型的深度强化学习学习绘画 | 曼努埃尔·罗梅罗 | 2023年2月1日 | ||
即时NGP | 具有多分辨率哈希编码的即时神经图形基元 |
|
| 2023年1月18日 | |
傅里叶特征网络 | 傅里叶特征让网络学习低维域中的高频函数 |
其他的 |
| 2023年1月17日 | |
阿尔法姿势 | 全身局部多人姿势实时估计和跟踪 |
其他的 |
| 2023年1月7日 | |
混合 IK | 用于 3D 人体姿势和形状估计的混合分析神经逆运动学解决方案 |
其他的 |
| 2023年1月1日 | |
雅可比链分数 | 对学习到的梯度应用链式法则,并通过可微渲染器的雅可比行列式反向传播扩散模型的分数,我们将其实例化为体素辐射场 |
|
| 2022年12月5日 | |
德穆克斯 | 混合频谱图和波形源分离 | 亚历山大·德福塞 |
| 2022年11月21日 | |
风格剪辑 | StyleGAN 成像器的文本驱动操作 |
|
| 2022年10月30日 | |
运动漫反射 | 第一个基于扩散模型的文本驱动运动生成框架,它展示了现有方法的几个所需属性 |
其他的 |
| 2022年10月13日 | |
VToonify | 利用StyleGAN的中高分辨率层,根据编码器提取的多尺度内容特征,渲染高质量的艺术肖像,更好地保留帧细节 |
|
| 2022年10月7日 | |
皮玛夫 | 金字塔网格对齐回归网络中的反馈循环,用于对齐良好的身体网格恢复,并将其扩展以恢复富有表现力的全身模型 |
其他的 |
| 2022年10月6日 | |
阿尔法张量 | 通过强化学习发现更快的矩阵乘法算法 |
其他的 |
| 2022年10月4日 | |
斯温2SR | 新颖的 Swin Transformer V2,用于改进 SwinIR 的图像超分辨率,特别是压缩输入场景 |
|
| 2022年10月3日 | |
功能 | 从数据到函数:您的数据点是一个函数,您可以将其视为一个函数 |
|
| 2022年9月24日 | |
耳语 | 自动语音识别系统使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练 |
其他的 |
| 2022年9月21日 | |
去旧化(视频) | 为您自己的视频上色! | 贾森·安提克 |
| 2022年9月19日 | |
去旧化(照片) | 为您自己的照片上色! |
|
| 2022年9月19日 | |
真实ESRGAN | 将强大的 ESRGAN 扩展到实际的恢复应用,该应用使用纯合成数据进行训练 |
|
| 2022年9月18日 | |
IDE-3D | 用于高分辨率 3D 感知肖像合成的交互式解缠结编辑 |
其他的 |
| 2022年9月8日 | |
决策变压器 | 将 RL 问题转化为条件序列模型的架构
展开
相关应用
为您推荐
相关资讯
全部
|