GenAI_LLM_timeline下载 - GenAI_LLM

ChatGPT、GenerativeAI 和法学硕士时间表

该存储库组织了 ChatGPT 公告前后发生的关键事件（产品、服务、论文、GitHub、博客文章和新闻）的时间表。

它在此时间线中整理了各种信息，特别关注法学硕士和生成人工智能。

也许这是最热门历史中的一个场景，所以我认为好好保存这些记忆很重要，所以我把它们整理了一下。

统计数据

这些图表是由 ChatGPT 的代码解释器生成的。

贡献

非常感谢问题和请求请求。如果您之前从未为开源项目做出过贡献，我非常乐意引导您完成如何创建拉取请求。

您可以首先打开一个问题来描述您想要解决的问题，我们将从那里开始。

表情符号

arXiv ，PDF ？，arxiv-vanity ？，纸页？，带有代码的论文✳️，Github

执照

时间轴V2

2024年

05/17 - OpenAI 与 Reddit 达成协议，在你的帖子上训练其人工智能
（消息），
05/17 - OpenAI 解散了专注于长期人工智能风险的团队，距离宣布这一消息不到一年
（消息），
05/17 -关于高级人工智能安全性的国际科学报告
（博客），
05/16 - TRANSIC：通过在线修正学习从模拟到真实的策略转移
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/16 - Toon3D：从新角度看卡通
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/16 -测试基于人工智能的大语言模型从科学文献中提取生态信息的可靠性
（消息），
05/16 -多模态基础模型中的多镜头情境学习
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/16 -如何在为时已晚之前暂停人工智能
（消息），
05/16 - DINO 1.5 基础：推进开放集物体检测的“边缘”
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/16 - GPT 商店挖掘与分析
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/16 - Dual3D：利用双模式多视图潜在扩散实现高效一致的文本到 3D 生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/16 - Chameleon：混合模态早期融合基础模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/16 - CAT3D：使用多视图扩散模型在 3D 中创建任何内容
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/15 - Xmodel-VLM：多模态视觉语言模型的简单基线
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/15 - LoRA 学得少，忘记得少
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/15 -谷歌的隐形人工智能水印将有助于识别生成文本和视频
（消息），
05/15 - Google I/O 2024：一切已公布
（博客），
05/15 - BEHAVIOR Vision Suite：通过模拟生成可定制的数据集
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/15 - ALPINE：揭示语言模型中自回归学习的规划能力
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/14 -了解在线和离线对齐算法之间的性能差距
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/14 - SpeechVerse：大规模通用音频语言模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/14 - SpeechGuard：探索多模态大语言模型的对抗鲁棒性
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/14 -没有时间可以浪费：将时间挤入移动视频理解渠道
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/14 - Hunyuan-DiT：强大的多分辨率扩散变压器，具有细粒度的中文理解
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/14 -使用密集 Blob 表示的组合文本到图像生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/14 -超越缩放定律：通过关联内存了解变压器性能
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/13 - SambaNova SN40L：通过数据流和专家组合扩展 AI 内存墙
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/13 - RLHF 工作流程：从奖励建模到在线 RLHF
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/13 - Plot2Code：用于评估科学绘图代码生成中的多模态大型语言模型的综合基准
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/13 - OpenAI 推出最新人工智能模型 GPT-4o
（消息），
05/13 - MS MARCO Web 搜索：包含数百万个真实点击标签的大规模信息丰富的 Web 数据集
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/13 -有多少研究是由大型语言模型撰写的？
（博客），
05/13 -你好 GPT-4o
（博客），
05/13 - Coin3D：通过代理引导条件生成可控且交互式的 3D 资产
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/11 - Piccolo2：具有多任务混合损失训练的通用文本嵌入
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/11 - LogoMotion：内容感知动画的视觉基础代码生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/10 - INSPECT - 用于大型语言模型评估的开源框架
（博客），
05/10 - AI安全研究所发布新的AI安全评估平台
（消息），
05/07 - SUTRA：可扩展的多语言语言模型架构
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/07 - Meta 发布 Llama 3 开源 LLM
（消息），
05/03 -构建视觉语言模型时什么最重要？
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/02 - WildChat：1M ChatGPT 野外交互日志
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/02 - StoryDiffusion：用于长距离图像和视频生成的一致自注意力
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/02 - Prometheus 2：专门用于评估其他语言模型的开源语言模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/02 - NeMo-Aligner：用于高效模型对齐的可扩展工具包
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/02 - LLM-AD：基于大型语言模型的音频描述系统
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/02 - FLAME：大型语言模型的事实感知对齐
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/02 -使用单个图像对自定义文本到图像模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/01 -具有神经补偿的光谱修剪高斯场
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/01 -语言模型对齐的自玩偏好优化
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/01 -编辑批量大小越大越好吗？ -- Llama-3模型编辑的实证研究
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/01 - Clover：使用顺序知识进行回归轻量级推测解码
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
05/01 -仔细检查大型语言模型在小学算术中的表现
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 -视觉事实检查器：实现高保真详细字幕生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - STT：使用 Transformers 实现自动驾驶状态跟踪
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - SemantiCodec：适用于一般声音的超低比特率语义音频编解码器
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - Octopus v4：语言模型图
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - MotionLCM：通过潜在一致性模型生成实时可控运动
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - MicroDreamer：通过基于分数的迭代重建在 sim20 秒内实现零样本 3D 生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - Lightplane：神经 3D 场的高度可扩展组件
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - KAN：柯尔莫哥洛夫-阿诺德网络
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 -迭代推理偏好优化
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 -隐形缝合：通过深度修复生成平滑的 3D 场景
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - InstantFamily：零样本多 ID 图像生成的屏蔽注意力
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - GS-LRM：3D 高斯泼溅的大型重建模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 -一夜之间将 Llama-3 的上下文扩展十倍
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 - DOCCI：连接和对比图像的描述
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/30 -通过多标记预测更好更快的大型语言模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/29 - Stylus：扩散模型的自动适配器选择
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/29 - SAGS：结构感知 3D 高斯泼溅
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/29 -用陪审团取代法官：用不同模型小组评估法学硕士一代
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/29 - NIST AI RMF 生成式人工智能简介
（消息），
04/29 - LoRA Land：310 个可与 GPT-4 竞争的微调 LLM，技术报告
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/29 -袋鼠：通过双提前退出进行无损自推测解码
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/29 -双子座模型在医学中的能力
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/28 - Inpaint 绘制：学习通过首先删除图像对象来添加图像对象
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/28 - LEGENT：实体代理的开放平台
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/27 - Ag2Manip：通过与代理无关的视觉和动作表示学习新颖的操作技能
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/26 - MaPa：用于 3D 形状的文本驱动的真实感材质绘画
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/26 - BlenderAlchemy：使用视觉语言模型编辑 3D 图形
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 - Tele-FLM 技术报告
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 - SEED-Bench-2-Plus：通过富含文本的视觉理解对多模式大型语言模型进行基准测试
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 -使用 Gecko 重新审视文本到图像评估：关于指标、提示和人类评级
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 - PLLaVA：从图像到视频的无参数 LLaVA 扩展，用于视频密集字幕
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 -让你的法学硕士充分利用环境
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 -逐一列出项目：多模式法学硕士的新数据源和学习范式
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 -层跳跃：启用提前退出推理和自推测解码
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 - Interactive3D：通过交互式 3D 生成创建您想要的内容
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 -我们离 GPT-4V 还有多远？通过开源套件缩小与商业多式联运模式的差距
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/25 - ConsolidatedID：具有多模式细粒度身份保留的肖像生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - XC-Cache：交叉参与缓存上下文以实现高效的 LLM 推理
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 -高级人工智能助手的道德规范
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - PuLID：通过对比对齐进行 Pure 和 Lightning ID 定制
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - NeRF-XL：使用多个 GPU 扩展 NeRF
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - MotionMaster：用于视频生成的免训练相机运动传输
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - MoDE：通过集群获得 CLIP 数据专家
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - MMT-Bench：用于评估面向多任务 AGI 的大型视觉语言模型的综合多模态基准
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - MaGGIe：蒙面引导渐进人体实例抠图
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - ID-Aligner：通过奖励反馈学习增强身份保护文本到图像的生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 -用于可控合成的可编辑图像元素
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - CatLIP：CLIP 级视觉识别精度，网络规模图像文本数据预训练速度提高 2.7 倍
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/24 - BASS：批量注意力优化推测采样
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/23 - Transformers 可以表示 n-gram 语言模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/23 - Pegasus-v1 技术报告
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/23 -多头专家混合
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/23 - FlashSpeech：高效的零样本语音合成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 - SnapKV：法学硕士在一代之前就知道你在寻找什么
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 - SEED-X：具有统一多粒度理解和生成的多模态模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 -场景坐标重建：通过重新定位器的增量学习来摆出图像集合的姿势
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 - Phi-3 技术报告：手机本地功能强大的语言模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 - OpenELM：具有开源训练和推理框架的高效语言模型系列
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 - MultiBooth：从文本生成图像中的所有概念
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 -学习 H-Infinity 运动控制
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 -低位量化 LLaMA3 模型有多好？实证研究
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 -调整您的步骤：优化扩散模型中的采样计划
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/22 -多模式自动解释代理
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/21 - Hyper-SD：用于高效图像合成的轨迹分段一致性模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/21 - AdvPrompter：法学硕士的快速自适应对抗性提示
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/20 -音乐一致性模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 -指令层次结构：培训法学硕士优先考虑特权指令
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 - TextSquare：扩大以文本为中心的视觉指令调整
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 - PhysDreamer：通过视频生成与 3D 对象进行基于物理的交互
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 - LLM-R2：大型语言模型增强型基于规则的重写系统，用于提高查询效率
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 -真实有多真实？无限制对抗性例子的人类评估框架
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 -实用的功能级程序修复能走多远？
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 - Groma：用于基础多模态大型语言模型的本地化视觉标记化
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 - Gaussian Splatting 需要 SFM 初始化吗？
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/19 - AutoCrawler：用于生成网络爬虫的渐进式理解网络代理
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 - TriForce：通过分层推测解码无损加速长序列生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 -通过想象力、搜索和批评实现法学硕士的自我完善
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 -重用您的奖励：零样本跨语言对齐的奖励模型转移
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 - Reka Core、Flash 和 Edge：一系列强大的多模式语言模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 - OpenBezoar：小型、经济高效且开放的模型，经过混合指令数据训练
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 - MeshLRM：高质量网格的大型重建模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 -推出 MLCommons 的 AI 安全基准 v0.5
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 -介绍 Meta Llama 3：迄今为止最有能力的公开法学硕士
（博客），
04/18 - EdgeFusion：设备上文本到图像生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 - BLINK：多模态大型语言模型可以看到但无法感知
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/18 - AniClipart：带有文本到视频先验的剪贴画动画
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/17 - MoA：个性化图像生成中主题上下文解开的混合注意力
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/17 - FlowMind：使用法学硕士自动生成工作流程
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/17 -动态版式：让文字栩栩如生
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/17 -稳定 Diffusion 3 API 现已推出
（推特）、（博客）、（演示）、
04/16 - VASA-1：实时生成逼真的音频驱动的说话面孔
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/16 -美国商务部长吉娜·雷蒙多宣布扩大美国人工智能安全研究所领导团队
（消息），
04/16 -具有潜在扩散的长格式音乐生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/15 -法学硕士评估者认可并偏爱他们自己的一代人
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/15 - Video2Game：来自单个视频的实时、交互式、逼真且浏览器兼容的环境
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/15 - Tango 2：通过直接偏好优化调整基于扩散的文本到音频生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/15 -驯服神经辐射场修复的潜在扩散模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/15 - Opus 可以作为图灵机运行
（叽叽喳喳），
04/15 - MathGPT：利用 Llama 2 创建高度个性化学习的平台
04/15 - HQ-Edit：用于基于指令的图像编辑的高质量数据集
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/15 - Ctrl-Adapter：一种高效且多功能的框架，用于使各种控制适应任何扩散模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/15 -压缩线性代表智能
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/15 - CompGS：通过压缩高斯泼溅实现高效 3D 场景表示
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/14 - TextHawk：探索多模态大语言模型的高效细粒度感知
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/13 - Cathie Wood 通过新的 OpenAI 股份推动 ChatGPT 繁荣
（消息），
04/12 -扩展（缩小）CLIP：数据、架构和训练策略的综合分析
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/12 -探索视觉基础模型的 3D 意识
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/12 -使用更少的代币预训练小型 LM
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/12 -关于低级视觉任务的语言指导的稳健性：深度估计的发现
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/12 - MonoPatchNeRF：通过基于补丁的单目引导改善神经辐射场
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/12 - Megalodon：高效的法学硕士预训练和无限上下文长度的推理
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/12 - ChatGPT 正在改变学者的写作风格吗？
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/12 - COCONut：现代化 COCO 分割
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/12 - AI 芯片将能源预算削减了 99% 以上
（消息），
04/12 - AdapterSwap：通过数据删除和访问控制保证对法学硕士进行持续培训
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/12 - Grok-1.5 视觉预览
（演示），
04/12 -好的、坏的和人道徽章
（消息），
04/12 -付费 ChatGPT 用户现在可以访问 GPT-4 Turbo
（推特）、（新闻）、、（）
04/11 -人工智能审计标准委员会的必要性
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/11 -记住 Transformer 以进行持续学习
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 -亚马逊将人工智能领域的领军人物吴恩达 (Andrew Ng) 纳入董事会
（消息），
04/11 - Adobe 以每分钟 3 美元的价格购买视频来构建 AI 模型
（消息），
04/11 - UltraEval：为法学硕士提供灵活、全面评估的轻量级平台
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/11 -开放词汇分割的可转移和原则效率
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/11 - SWE 代理
（推特）、（演示）、、（）
04/11 -稀疏车道形成者
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - Rho-1：并非所有代币都是您所需要的
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/11 - ResearchAgent：利用大型语言模型对科学文献进行迭代研究想法生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - RecurrentGemma：超越 Transformers 以实现高效的开放语言模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - OSWorld：真实计算机环境中开放式任务的多模式代理基准测试
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - LLoCO：离线学习长上下文
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 -利用大型语言模型 (LLM) 支持人类与人工智能协作在线风险数据注释
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - JetMoE：以 10 万美元实现 Llama2 性能
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS) (项目), (twitter), , (✳️), ()
04/11 - HGRN2：具有状态扩展的门控线性 RNN
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/11 -从单词到数字：当给出上下文示例时，您的大型语言模型实际上是一个有能力的回归器
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - Ferret-v2：改进的大型语言模型参考和基础基线
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - ControlNet++：通过高效的一致性反馈改进条件控制
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 -长期数据集中的上下文感知视频异常检测
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - ChatGPT-3.5，Claude 3 在法学硕士街头霸王 III 锦标赛中踢像素化屁股
（消息），
04/11 - ChatGPT 讲述关于过去的未来故事时可以预测未来
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 -语言模型合成数据的最佳实践和经验教训
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 -通过《街头霸王 3》中的战斗来衡量法学硕士的基准
（演示）, , ()
04/11 -音频对话：用于音频和音乐理解的对话数据集
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 -在有限的时间间隔内应用指导可提高扩散模型中的样本和分布质量
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/11 - AmpleGCG：学习开放式和封闭式法学硕士越狱的通用且可转移的对抗性后缀生成模型
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/10 - LM Transparency Tool：用于分析 Transformer 语言模型的交互式工具
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 - Gemini 1.5 Pro 现在可以理解音频
（叽叽喳喳），
04/10 -探索概念深度：大型语言模型如何获取不同层的知识？
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/10 -城市建筑师：具有布局优先的可操纵 3D 城市场景生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 - RealmDreamer：具有修复和深度扩散的文本驱动 3D 场景生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 -报告称，OpenAI 和 Meta 即将发布能够像人类一样推理的人工智能模型
（消息），
04/10 - MetaCheckGPT——使用 LLM 不确定性和元模型的多任务幻觉检测器
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 - Meta 确认其 Llama 3 开源 LLM 将于下个月推出
（消息），
04/10 -不留任何上下文：具有无限注意力的高效无限上下文转换器
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 -增量 XAI：通过增量解释对 AI 进行令人难忘的理解
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 - DreamScene360：使用全景高斯泼溅生成无约束文本到 3D 场景
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 -麻婆豆腐含有咖啡吗？探索法学硕士的食品相关文化知识
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 - BRAVE：拓宽视觉语言模型的视觉编码
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 - AI 初创公司 Mistral 推出 281GB AI 模型，与 OpenAI、Meta 和 Google 竞争
（消息），
04/10 -用于远程监控的代理驱动的生成语义通信
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 -使 LLaMA 解码器适应 Vision Transformer
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/10 -关于生成式人工智能在移动网络中整合批判性思维的调查
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/09 -看看吧！重新思考如何评估语言模型越狱
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/09 - RULER：您的长上下文语言模型的真实上下文大小是多少？
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/09 -修改高斯泼溅中的致密化
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/09 -以 3D 方式重建手持物体
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/09 - RAR-b：推理作为检索基准
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/09 -隐私保护提示工程：调查
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/09 -关于评估法学硕士生成的源代码的效率
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)
04/09 - OmniFusion 技术报告
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/09 - MuPT：生成符号音乐预训练 Transformer
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/09 - MiniCPM：通过可扩展的训练策略揭示小语言模型的潜力
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/09 - Magic-Boost：通过多视图条件扩散增强 3D 生成
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/09 - LLM2Vec：大型语言模型是秘密强大的文本编码器
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/09 - InternLM-XComposer2-4KHD：开创性的大型视觉语言模型，可处理从 336 像素到 4K 高清的分辨率
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/09 - Hash3D：3D 生成的免训练加速
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/09 -谷歌推出生成人工智能开源项目
（消息），
04/09 -大象永远不会忘记：大型语言模型中表格数据的记忆和学习
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/09 - Apple 刚刚推出了新的 Ferret-UI LLM - 这个 AI 可以读取你的 iPhone 屏幕
（消息），
04/09 - AEGIS：法学硕士专家团队的在线自适应人工智能内容安全审核
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/08 - YaART：另一种 ART 渲染技术
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/08 - WILBUR：自适应上下文学习，实现强大而准确的网络代理
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/08 - UniFL：通过统一反馈学习提高稳定扩散
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/08 -肆无忌惮的伊卡洛斯：多模态大语言模型安全中图像输入的潜在危险调查
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/08 -幻觉排行榜——在大型语言模型中测量幻觉的公开努力
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)
04/08 -基于 LLM 的程序修复中的事实选择问题
()、()、(?)、(?)、(?)、(HTML)、(SL)、(SP)、(GS)、(SS)、(✳️)、()
04/08 - SwapAnything：在个性化可视化编辑中启用任意对象交换
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08- sambalingo：教大语模型新语言
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08-负偏好优化：从灾难性崩溃到有效的学习
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08- NAVER首次亮相多语言HyperClova X LLM将用于为亚洲构建主权AI
（消息），
04/08- MOMA：快速个性化图像生成的多模式LLM适配器
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08 -MEDEXPQA：大型语言模型的多语言基准测试
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08- MA-LMM：记忆扬名的大型多模式，用于长期视频理解
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08- layoutllm：使用大型语言模型的布局指令调整以供文档理解
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/08 -ferret -UI：具有多模式LLM的接地移动UI理解
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08-评估大语言模型的介入推理能力
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08-鹰和芬奇：带有矩阵值态和动态复发的RWKV
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/08-编解码器：与量身定制的合成数据对齐语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/08-自动编码器：自主程序改进
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/07-负载预测中的时间段：一个大的时间序列模型透视图
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/07- OpenAI在一百万小时的YouTube视频中转录训练GPT -4
（消息），
04/07-魔术：延时视频生成模型作为变质模拟器
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/07-比teedit：提升，遵守和加速生成图像编辑
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/06-医生的多数投票提高了人工智能对病理的适当性
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss）
04/06-扩散-RWKV：扩散模型的缩放RWKV类架构
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/06- Datenerf：nerfs的深度感知文本编辑
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/06-超越：以预处理扩散的高分辨率以人为中心的场景产生
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/06-通过优化人类实用程序来对齐扩散模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/06-开发从头开始计划式任务的基础模型的情况
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05-通过微调和量化增加了LLM漏洞
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05-空间拖车：在3D空间中跟踪任何2D像素
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05-大语言模型的社交技能培训
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05 -Sigma：用于多模式语义分段的暹罗山网络
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/05-强大的高斯裂开
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05 -Physavatar：从视觉观察中学习穿着3D头像的物理学
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05- Koala：钥匙帧条件的长视频-LLM
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05-线索：LLMS的临床语言理解评估
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05-中文小法学硕士：以中文为中心的大语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/05-协助人类进行复杂的比较：自动化信息比较
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04-带有两个臂的AI体现：零射击学习，安全性和模块化
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss）
04/04-语言模型演变：迭代学习观点
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04-在大语言模型中可视化的想法引起空间推理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（twitter），（twitter），（twitter），（twitter），
04/04-没有指数数据的没有“零射”：概念概念频率决定了多模型模型性能
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/04-在检测LLM响应中的错误时评估LLM
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/04-评估信息提取中的生成语言模型作为主观问题更正
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/04-直接NASH优化：教授语言模型，以自我兴起一般的偏好
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04- CBR-RAG：基于案例的推理，用于检索LLMS的法律问题回答
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04-控制工程中大语言模型的功能：GPT -4，Claude 3 Opus和Gemini 1.0 Ultra的基准研究
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04- cantTalkaboutthis：对齐语言模型以对话中的话题
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04- autowebglm：引导和加强基于语言模型的大型网络导航代理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/04-神经压缩文本的培训LLM
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04- reft：语言模型的表示列表
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/04-红色团队GPT-4V：GPT-4V是否安全地抵抗Uni/多模式越狱攻击？
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04- RALL-E：使用经过三链链的鲁棒编解码语言建模提示文本到语音综合
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04-点Infinity：分辨率为Invariant点扩散模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04- Minigpt4-Video：使用交织的视觉文本代币进行视频理解的多模式LLM
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04-昏迷：与图像到文本概念匹配的文本对图像扩散模型对齐
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04- CodeedOtorBench：评估大语模型的代码编辑功能
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/04- autowebglm：引导和加强基于语言模型的大型网络导航代理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/03-视觉自回旋建模：通过临时预测可扩展图像生成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/03-关于基于扩散的文本对图像生成的可伸缩性
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/03-许多越狱
()
04/03- lvlm-intrepret：用于大型视觉模型的可解释性工具
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/03-语言模型作为编译器：模拟伪代码执行改善语言模型中的算法推理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/03- InstantStyle：在文本到图像中免费提供午餐
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/03 -Freditor：高保真和可转移的NERF通过频率分解编辑
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/03-跨注意使推理在文本到图像扩散模型中麻烦
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/03- ChatGlm-Math：使用自我批评的管道改善大型语言模型的数学解决问题
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/02-英国和美国宣布AI安全科学伙伴关系
（消息），
04/02-大型语言模型作为计划域生成器
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss）
04/02 -Poro 34B和多语言的祝福
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/02-章鱼V2：超级代理的设备语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/02-详细信息的混合物：在基于变压器的语言模型中动态分配计算
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/02- Long-context LLM与长期内在学习斗争
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/02 -LLM -ABR：通过大语言模型设计自适应比特率算法
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/02-大型语言模型可能会改变行为医疗保健的未来：负责任的发展和评估的建议
()
04/02 -HyperClova X技术报告
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/02- CAMERACTRL：启用摄像机控制文本到视频生成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/02-推进LLM推理通才的偏好树
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/01-搜索流（SOS）：学习语言搜索
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/01 -LLM作为策划者：大语言模型的战略推理调查
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/01- AI大语言模型（LLM）的兴起和崛起
（博客），
04/01-流媒体密集的视频字幕
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/01-扩散模型中的测量样式相似性
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/01-正确正确：提高文本对图像模型的空间一致性
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/01-对于数据策划的AI公司，互联网太小
（消息），
04/01- flexidreamer：flexicubes的单图像到3D生成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/01-评估：大语言模型评估的统一且可访问的库
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/01-从语言模型奖励中直接优化视频大型多模型模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
04/01 -DBRX，持续预处理，奖励台，推理速度更快，更多
（博客），
04/01- Cosmicman：人类的文本对图像基础模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/01-可控图像生成的条件感知神经网络
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/01-较大并不总是更好：潜扩散模型的缩放属性
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
04/01-大语言模型是超人化学家吗？
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/31 -WAVLLM：迈向强大而自适应的语音大语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/31-厌倦了插件？大型语言模型可以是端到端的推荐人
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/30-关于大语言模型增强强化学习的调查：概念，分类和方法
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/30 -ST -LLM：大语言模型是有效的临时学习者
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss）
03/30-布局意识语言模型的噪声感知培训
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/30 -Magritte：从图像，topview和文本实现的操纵和生成3D实现
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss）
03/30- Aurora-M：根据美国行政命令，第一个开源的多语言模型红色电池
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29-无法解决的问题检测：评估视觉语言模型的可信度
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29-变形金属：在手机GPU上大型语言模型的高效部署
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29- snap-it，tap-it，splat-it：触觉的3D高斯脱衣舞，用于重建挑战性的表面
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/ 29-领域：参考分辨率作为语言建模
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29 -NVIDIA H200 GPU CRUSS MLPERF的LLM推论基准测试
（消息），
03/29 -Mambamixer：具有双令牌和频道选择的有效选择性状态空间模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29- llava -gemma：具有紧凑语言模型的加速多模式基础模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29- Instantsplat：无界稀疏 - 视图无姿势无姿势的高斯裂口在40秒内
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29 -Gecko：从大语模型中蒸馏出的多功能文本嵌入式
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29 -Dijiang：通过紧凑的内核化有效的大型语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/29- DeepMind开发安全，这是一个基于AI的应用程序，可以检查事实 - 检查LLMS
（消息），
03/29 -CTRL -SIM：具有离线增强学习的反应性和可控驾驶剂
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/29-我们是否采取正确的方式评估大型视觉模型？
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/28 -SDPO：不要一次使用您的数据
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/28 -MESH2NERF：直接网格监督神经辐射场表示和发电
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/28-语言模型中的本地化段落记忆
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/28 -JAMBA：混合变压器 - 曼巴语模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/28 -GaussianCube ：使用最佳传输进行3D生成建模的构造高斯裂缝
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/28 -Claude 3在AI机器人的决斗中超过GPT -4。这是采取行动的方法
（消息），
03/28-宣布Grok -1.5
（博客），（演示），
03/27-通往法律自主权的途径：一种可互操作和可解释的方法，用于使用大语言模型，专家系统和贝叶斯网络提取，转换，加载和计算法律信息
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/27- VITAR：具有任何分辨率的视觉变压器
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/27-迈向一个世界英语语言模型，用于设备虚拟助手
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/27 -TextCraftor：您的文本编码器可以是图像质量控制器
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/27- objectDrop：bootstage formerantic对象删除和插入的反事实
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/27- Mini-Gemini：挖掘多模式视觉语言模型的潜力
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/27-大语言模型中的长期事实
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/27- LITA：语言指示的时间安置助手
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/27 -GARMENT3DGEN：3D服装风格和纹理生成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/27 -GAMBA：与Mamba结婚以获得单视3D重建
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/27-弹性：灵活且可控制的基于基于对象以对象的图像编辑
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/27 -BiomedLM：2.7b参数语言模型在生物医学文本上训练
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/26- MAGIS：基于LLM的GITHUB发行的多代理框架分辨率
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/26-更深层的无效性无效
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/26- TC4D：轨迹条件的文本到4D代
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/26- OCTREE-GS：朝着LOD结构3D高斯人持续实时渲染
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/26-介绍DBRX：新的最新开放式LLM
（博客），
03/26 -InternLM2技术报告
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/26-通过自动提示优化改善文本对图像一致性
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/26-英特尔数据中心上的完全融合的多层感知器GPU
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/26- egolifter：以自我感知的开放世界3D细分
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/26 -AniporTrait：光真逼真的肖像动画的音频驱动的合成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/26- 2D高斯分裂，用于几何准确的辐射场
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/25-朝着LLMS的临床能力自动评估：度量，数据和算法
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/25-维修：一种自主，基于LLM的程序维修代理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/25- RL用于一致性模型：更快的奖励引导文本对图像生成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/25- VP3D：释放2D视觉提示，以获取文本到3D
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/25-旅行：图像到视频扩散模型的图像噪声的时间残差学习模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/25- SDXS：具有图像条件的实时单步潜扩散模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/25 -LLM代理操作系统
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/25-闪存面：具有高保真身份保护的人类形象个性化
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/25- Dreampolisher：通过几何扩散迈向高质量的文本到3D代
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/25-做自己：多主题文本对图像生成的关注
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/23-基于LLM的代码生成符合软件开发过程时
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/22-主题：从几个示例中生成主题感知的3D资产
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/22 -SIMBA：简化的基于MAMBA的架构，用于视觉和多元时间序列
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/22 -LLM2LLM：通过新颖的迭代数据增强来增强LLM
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/22- LATTE3D：大规模摊销的文本到增强3D合成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/22- InternVideo2：用于多模式视频理解的缩放视频基础模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/22-关注：评估和教学信息检索模型以遵循说明
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/22- dragapart：在铰接对象的事先学习零件级运动
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/22-大型语言模型可以探索中文吗？
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/22- Allhands：通过大型逐字反馈通过大语言模型问我任何东西
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss）
03/21- peergpt：探讨基于LLM的同伴代理人作为团队主持人和参与者在儿童协作学习中的角色
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21- Stylecinegan：使用预训练的Stylegan的景观电影院
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/21- streamingt2v：一致，动态和可扩展的长视频生成从文本中
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/21- renoise：通过迭代陈述的真实图像反转
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21-填海的追索：与生成语言模型聊天
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21 -Rakutenai -7B：扩展日语的大型语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21 -MYVLM：个性化用户特定查询的VLM
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21-数学：您的多模式LLM是否真正看到视觉数学问题中的图表？
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21 -GRM：高效3D重建和生成的大型高斯重建模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/21-大会采用具有里程碑意义的人工智能决议
（消息），
03/21-高斯糖霜：带实时渲染的可编辑复杂的辐射场
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21-探索时间和空间的探索性进程
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21-通过内容 - 框架运动线子分解有效的视频扩散模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21- Dreamreward：文本到3d的人类偏好
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/21 -COBRA：将Mamba扩展到多模式的大型语言模型以提高推理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/21-冠军：具有3D参数指导的可控且一致的人类图像动画
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/21- ANYV2V：任何视频到视频编辑任务的插件和播放框架
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20-映射LLM安全景观：一项全面的利益相关风险评估建议
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20 -Zigma：锯齿形mamba扩散模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/20 -VSTAR：更长的动态视频综合的生成时间护理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20-奖励基地：评估语言建模的奖励模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/20-反向训练以护理逆转诅咒
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20- radsplat：radiance田间信息高斯拆卸，用于使用900+ fps的稳健实时渲染
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20 -MORA：通过多代理框架启用通才视频
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/20 -LlamaFactory：100多种语言模型的统一有效微调
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/20- IDADAPTER：学习用于文本对象模型的无调个性化的混合功能
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20 -Hyperlava：多模式模型的动态视觉和语言专家调整
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/20-评估边境模型的危险功能
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20 -DEPTHFM：流量匹配的快速单眼估计
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20 -Compress3D：从单个图像中的3D生成的压缩潜在空间
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/20- Be-Your-OutPainter：通过特定于输入的适应来掌握视频的主修
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/19-什么时候我们不需要更大的视力模型？
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/19- VID2ROBOT：端到端视频条件的政策学习，跨意义变形金刚
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19-迈向计算病理的通用基础模型
()
03/19- TexDreamer：朝零射击高保真3D人纹理产生
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19-场景标题：使用自回归结构化语言模型重建场景
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19- mplug-docowl 1.5：无OCR文档理解的统一结构学习
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/19-魔术修复：通过观看动态视频来简化照片编辑
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19- llmlingua-2：高效和忠实的任务不合时宜的提示压缩的数据蒸馏
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/19- GVGEN：具有体积表示形式的文本到3D生成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19 -GaussianFlow：4D内容创建的Gaussian动力学
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19- fresco：零拍视频翻译的时空通信
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/19-四台：无训练高分辨率图像合成的频率观点
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/19-模型合并食谱的进化优化
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（[：octocat：]（https）：//github.com/ sakanaai/Evolutionary-model-merge）！ sakanaai/进化模型 - 款式？style = social））））
03/19-组合：使用空间感知扩散指导创建组成3D资产
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19-基于图表的推理：将功能从LLMS转移到VLMS
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19 -Apple的MM1：一种多式模式的大型语言模型，能够解释图像和文本数据
（消息），
03/19-动画仪：跨模型扩散蒸馏
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/19 -Agent -Flan：设计大语模型的有效代理调整的数据和方法
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/19-计算病理学的视觉语言基础模型
（），（✳️）
03/19-通过大语言模型的特征AI代理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（！[github repo stars]（ https://img.shields.io/github/stars/nuaa-nlp/character100？style = social））
03/18-我们在LLM的决策方面有多远？评估LLMS在多代理环境中的游戏能力
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/18-视频：一种用于视频理解的内存启动的多模式代理
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/18 -VFusion3D：从视频扩散模型中学习可扩展的3D生成模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/18 -TNT -LLM：大规模的文本挖掘与大语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/18 -SV3D：使用潜在视频扩散从单个图像发出新颖的多视图合成和3D生成
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/18 -Routerbench：多LLLM路由系统的基准
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（ss）
03/18-使用LLMS自动化零摄像视觉识别的元启动
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/18 -LN3DIFF：可扩展的潜在神经场扩散3D代
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/18- llava-uhd：lmm感知任何纵横比和高分辨率图像
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（ss），（✳️），（）
03/18- LARIMAR：具有情节记忆控制的大语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/18- Infinite-ID：通过ID-Semantics脱钩范式保存身份的个性化
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/18 -GPT -4作为评估者：评估农业害虫管理的大型语言模型
（），（），（？），（？），（？），（html），（sl），（sp），（gs），（ss），（✳️）
03/18-使用受控的多视图编辑的通用3D扩散适配器
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/18 - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/18 - Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/18 - Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/18 - Compiler generated feedback for Large Language Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/17 - PhD: A Prompted Visual Hallucination Evaluation Dataset
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/17 - MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/16 - VisionCLIP: An Med-AIGC based Ethical Language-Image Foundation Model for Generalizable Retina Image Analysis
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/16 - Do Large Language Models understand Medical Codes?
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - VideoAgent: Long-form Video Understanding with Large Language Model as Agent
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - Uni-SMART: Universal Science Multimodal Analysis and Research Transformer
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - Trusting the Search: Unraveling Human Trust in Health Information from Google and ChatGPT
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/15 - RAFT: Adapting Language Model to Domain Specific RAG
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/15 - RAFT: Adapting Language Model to Domain Specific RAG
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - PERL: Parameter Efficient Reinforcement Learning from Human Feedback
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - NeuFlow: Real-time, High-accuracy Optical Flow Estimation on Robots Using Edge Devices
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/15 - MusicHiFi: Fast High-Fidelity Stereo Vocoding
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/15 - LightIt: Illumination Modeling and Control for Diffusion Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/15 - FDGaussian: Fast Gaussian Splatting from Single Image via Geometric-aware Diffusion Model
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - DiPaCo: Distributed Path Composition
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/15 - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - WavCraft: Audio Editing and Generation with Natural Language Prompts
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - Video Editing via Factorized Diffusion Distillation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - Scaling Instructable Agents Across Many Simulated Worlds
(twitter), (Blog),
03/14 - Recurrent Drafter for Fast Speculative Decoding in Large Language Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - LocalMamba: Visual State Space Model with Windowed Selective Scan
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - GPT on a Quantum Computer
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/14 - Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - GiT: Towards Generalist Vision Transformer through Universal Language Interface
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - Exploring the Capabilities and Limitations of Large Language Models in the Electric Energy Sector
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/14 - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/14 - 3D-VLA: A 3D Vision-Language-Action Generative World Model
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/13 - Scaling Instructable Agents Across Many Simulated Worlds
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/13 - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/13 - The Human Factor in Detecting Errors of Large Language Models: A Systematic Literature Review and Future Research Directions
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/13 - SOTOPIA-π: Interactive Learning of Socially Intelligent Language Agents
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/13 - Simple and Scalable Strategies to Continually Pre-train Large Language Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/13 - Scaling Up Dynamic Human-Scene Interaction Modeling
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/13 - Language-based game theory in the age of artificial intelligence
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/13 - Language models scale reliably with over-training and on downstream tasks
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/13 - Knowledge Conflicts for LLMs: A Survey
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/13 - Gemma: Open Models Based on Gemini Research and Technology
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/13 - GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/13 - Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/13 - Cultural evolution in populations of Large Language Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/13 - Bugs in Large Language Models Generated Code: An Empirical Study
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/12 - Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/12 - Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/12 - MoAI: Mixture of All Intelligence for Large Language and Vision Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/12 - Learning Generalizable Feature Fields for Mobile Manipulation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/12 - DragAnything: Motion Control for Anything using Entity Representation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/12 - Chronos: Learning the Language of Time Series
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/12 - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/11 - Transparent AI Disclosure Obligations: Who, What, When, Where, Why, How
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/11 - HILL: A Hallucination Identifier for Large Language Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/11 - FAX: Scalable and Differentiable Federated Primitives in JAX
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/11 - FashionReGen: LLM-Empowered Fashion Report Generation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/11 - VideoMamba: State Space Model for Efficient Video Understanding
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/11 - V3D: Video Diffusion Models are Effective 3D Generators
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/11 - Stealing Part of a Production Language Model
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/11 - Multistep Consistency Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/11 - FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/11 - Chain-of-table: Evolving tables in the reasoning chain for table understanding (Blog),
03/11 - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/11 - Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/10 - VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/09 - Algorithmic progress in language models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/08 - Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/08 - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/08 - VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/08 - Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/08 - Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/08 - ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/08 - DeepSeek-VL: Towards Real-World Vision-Language Understanding
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/08 - CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/08 - CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/08 - Now available on Poe: Claude 3 (Demo),
03/08 - Google - Health-specific embedding tools for dermatology and pathology (Blog),
03/07 - Yi: Open Foundation Models by 01.AI
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/07 - Teaching Large Language Models to Reason with Reinforcement Learning
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/07 - StableDrag: Stable Dragging for Point-based Image Editing
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/07 - Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/07 - PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/07 - Pix2Gif: Motion-Guided Diffusion for GIF Generation
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/07 - Meet 'Liberated Qwen', an uncensored LLM that strictly adheres to system prompts (News),
03/07 - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/07 - KAIST develops next-generation ultra-low power LLM accelerator (News),
03/07 - Inflection-2.5: meet the world's best personal AI (News),
03/07 - How Far Are We from Intelligent Visual Deductive Reasoning?
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/07 - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/07 - Evaluating LLM models at scale (Blog),
03/07 - Common 7B Language Models Already Possess Strong Math Capabilities
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/07 - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/06 - Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/06 - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/06 - SaulLM-7B: A pioneering Large Language Model for Law
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/06 - NY hospital exec: Multimodal LLM assistants will create a “paradigm shift” in patient care (News),
03/06 - Learning to Decode Collaboratively with Multiple Language Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/06 - Enhancing Vision-Language Pre-training with Rich Supervisions
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/06 - Backtracing: Retrieving the Cause of the Query
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/06 - AI Prompt Engineering Is Dead (News),
03/06 - 3D Diffusion Policy
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/05 - OpenAI and Elon Musk (Blog),
03/05 - Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - WikiTableEdit: A Benchmark for Table Editing by Natural Language Instruction (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - Updating the Minimum Information about CLinical Artificial Intelligence (MI-CLAIM) checklist for generative modeling research (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/05 - Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/05 - Revisiting Meta-evaluation for Grammatical Error Correction (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - MathScale: Scaling Instruction Tuning for Mathematical Reasoning (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/05 - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/05 - Interactive Continual Learning: Fast and Slow Thinking (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - In Search of Truth: An Interrogation Approach to Hallucination Detection (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - ImgTrojan: Jailbreaking Vision-Language Models with ONE Image (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - Generative Software Engineering (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/05 - Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - Exploring the Limitations of Large Language Models in Compositional Relation Reasoning (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - Design2Code: How Far Are We From Automating Front-End Engineering? (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - ChatCite: LLM Agent with Human Workflow Guidance for Comparative Literature Summary (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/05 - An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
3/5 - OpenAI - ChatGPT can now read responses to you. （叽叽喳喳，
03/04 - The Claude 3 Model Family: Opus, Sonnet, Haiku
() (twitter), , (✳️)
03/04 - Wukong: Towards a Scaling Law for Large-Scale Recommendation (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/04 - Large language models surpass human experts in predicting neuroscience results
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/04 - NoteLLM: A Retrievable Large Language Model for Note Recommendation (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/04 - MagicClay: Sculpting Meshes With Generative Neural Fields (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
03/04 - Enhancing LLM Safety via Constrained Direct Preference Optimization (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/04 - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/04 - CODE-ACCORD: A Corpus of Building Regulatory Data for Rule Generation towards Automatic Compliance Checking (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
03/04 - Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing Conversational LLMs with Direct RLHF (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
03/04 - adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource Languages with Integrated LLM Playgrounds (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
3/4 - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
3/4 - TripoSR: Fast 3D Object Reconstruction from a Single Image (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️ ), ()
3/4 - RT-H: Action Hierarchies Using Language (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
3/4 - ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
3/4 - OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
3/4 - Build AI for a Better Future (twitter), (News),
3/4 - AtomoVideo: High Fidelity Image-to-Video Generation (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️ ）
03/03 - Research Papers in February 2024: A LoRA Successor, Small Finetuned LLMs Vs Generalist LLMs, and Transparent LLM Research (Blog),
3/3 - Nvidia CEO Jensen Huang says AI could pass most human tests in 5 years (News
3/3 - MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
3/3 - InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
3/3 - Could this be bigger than OpenAI? Microsoft invests billions in French startup — Mistral AI is a multilingual maestro that's almost as good as ChatGPT 4 (News),
3/3 - 3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
3/2 - Nvidia CEO says AI could pass human tests in five years (News
3/1 - Elon Musk sues OpenAI and CEO Sam Altman over contract breach (News)
3.1 - AtP*: An efficient and scalable method for localizing LLM behaviour to components (), (), (?), (?), (?), (HTML), (SP), (GS), (SS)
3.1 - VisionLLaMA: A Unified LLaMA Interface for Vision Tasks (), (), (?), (?), (?), (HTML), (SP), (GS), (SS)
3.1 - Learning and Leveraging World Models in Visual Representation Learning (), (), (?), (?), (?), (HTML), (SP), (GS), (SS)
3.1 - RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization (), (), (?), (?), (?), (HTML), (SP), (GS), (SS)
3.1 - Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS)
3.1 - Resonance RoPE: Improving Context Length Generalization of Large Language Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️) , ()
02/29 - OHTA: One-shot Hand Avatar via Data-driven Implicit Priors
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
02/29 - Retrieval-Augmented Generation for AI-Generated Content: A Survey (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
2.29 - DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.29 - Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.29 - Humanoid Locomotion as Next Token Prediction (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.29 - Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.29 - StarCoder 2 and The Stack v2: The Next Generation (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.29 - Trajectory Consistency Distillation (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
2.29 - Beyond Language Models: Byte Models are Digital World Simulators (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.29 - Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on Pre-trained Language Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.29 - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
2.29 - MOSAIC: A Modular System for Assistive and Interactive Cooking (), (), (?), (?), (?), (HTML), (SP), (GS), (SS)
02/28 - Automatic Creative Selection with Cross-Modal Matching
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
2.28 - Priority Sampling of Large Language Models for Compilers (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.28 - Simple linear attention language models balance the recall-throughput tradeoff (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️) , ()
2.28 - Approaching Human-Level Forecasting with Language Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.28 - Datasets for Large Language Models: A Comprehensive Survey (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ( ）
2.28 - A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
02/27 - A High Level Guide to LLM Evaluation Metrics (Blog),
2/27 - Users Say Microsoft's AI Has Alternate Personality as Godlike AGI That Demands to Be Worshipped (News)
2/27 - Google DeepMind CEO on AGI, OpenAI and Beyond – MWC 2024 (News)
2.27 - Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
2.27 - Towards Optimal Learning of Language Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - Evaluating Very Long-Term Conversational Memory of LLM Agents (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - Training-Free Long-Context Scaling of Large Language Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️) , ()
2.27 - VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - Sora Generates Videos with Stunning Geometrical Consistency (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.27 - Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
2.27 - Video as the New Language for Real-World Decision Making (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
02/27 - On the Societal Impact of Open Foundation Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
02/26 - Set the Clock: Temporal Alignment of Pretrained Language Models
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
2/26 - DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models (), ()(?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
02/26 - Mistral Large is our flagship model, with top-tier reasoning capacities (News)
2.26 - Disentangled 3D Scene Generation with Layout Learning (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.26 - Multi-LoRA Composition for Image Generation (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.26 - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ( ）
2.26 - Do Large Language Models Latently Perform Multi-Hop Reasoning? (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.26 - Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.26 - Nemotron-4 15B Technical Report (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.26 - StructLM: Towards Building Generalist Models for Structured Knowledge Grounding (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.26 - Towards Open-ended Visual Quality Comparison (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.25 - ChatMusician: Understanding and Generating Music Intrinsically with LLM (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ( ）
2.25 - FuseChat: Knowledge Fusion of Chat Models (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
02/24 - Divide-or-Conquer? Which Part Should You Distill Your LLM?
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️)
02/24 - Perplexity.ai Revamps Google SEO Model For LLM Era (News)
02/24 - Data Interpreter: An LLM Agent For Data Science
(), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS), (✳️), ()
2.24 - Empowering Large Language Model Agents through Action Learning (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.23 - MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️ ）
2.23 - Seamless Human Motion Composition with Blended Positional Encodings (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️), ()
2.23 - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️ ）
2.23 - Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️) , ()
2.23 - API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.23 - Genie: Generative Interactive Environments (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.23 - GPTVQ: The Blessing of Dimensionality for LLM Quantization (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.23 - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition (), (), (?), (?), (?), (HTML), (SP), (GS), (SS), (✳️)
2.22 - CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models (), (), (?), (?), (?), (HTML), (AS), (GS), (✳️), ()
02/22 - Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models (), (), (?), (?), (?), (HTML), (SL), (SP), (GS), (SS)
2.22 - Divide-or-Conquer? Which Part Should You Distill Your LLM? (), (), (?), (?), (?), (HTML), (AS), (GS), (✳️)
2.22 - MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases (), (), (?), (?), (?), (HTML), (AS), (GS), (✳️)
2.22 - Watermarking Makes Language Models Radioactive (), (), (?), (?), (?), (HTML), (AS), (GS), (✳️)
2.22 - AutoPrompt - prompt optimization framework ()
2.22 - Announcing Stable Diffusion 3 (tweet), (blog)
2.22 - DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models (), (), (?), (?), (?), (HTML), (✳️) , ()
2.22 - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation (), (), (?), (?), (?), (HTML), (✳️)
2.22 - LLMs with Industrial Lens: Deciphering the Challenges and Prospects -- A Survey (), (), (?), (?), (?), (HTML), (✳️)
2.22 - Vision-Language Navigation with Embodied Intelligence: A Survey (), (), (?), (?), (?), (HTML), (✳️)
2.22 - Enhancing Robotic Manipulation with AI Feedback from Multimodal Large Language Models (), (), (?), (?), (?), (HTML), (✳️)
2.22 - Do Machines and Humans Focus on Similar Code? Exploring Explainability of Large Language Models in Code Summarization (), (), (?), (?), (?), (HTML), (✳️)
2.22 - PALO: A Polyglot Large Multimodal Model for 5B People (), (), (?), (?), (?), (HTML), (✳️) , ()
2.22 - GeneOH Diffusion: Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion (), (), ([:paperclip:](https://arxiv.org/pdf/2402.148