awesome colab notebooks
1.0.0
該頁面可能無法正確呈現。請直接開啟README.md文件
儲存庫 | 文件 |
---|---|
|
|
姓名 | 描述 | 作者 | 連結 | 合作實驗室 | 更新 |
---|---|---|---|---|---|
協同追蹤器 | 在整個影片中聯合追蹤多個點的架構 |
其他的 |
| 2024年10月16日 | |
PIFu | 用於高解析度穿著人體數位化的像素對齊隱式函數 |
| 2024年10月8日 | ||
差異面 | 能夠更優雅地應對看不見的複雜退化的方法,無需複雜的損耗設計 |
|
| 2024年10月5日 | |
分段任何內容 2 | 解決影像和影片中即時視覺分割問題的基礎模型 |
其他的 |
| 2024年10月1日 | |
打開-取消混合 | 用於音樂源分離的深度神經網路參考實現,適用於研究人員、音訊工程師和藝術家 |
|
| 2024年9月25日 | |
深刻的繪畫和諧 | 與照片合成或全局風格化技術相比,演算法產生的結果明顯更好,而且它可以實現原本難以實現的創意繪畫編輯 |
|
| 2024年9月23日 | |
音頻2照片真實 | 用於產生全身逼真化身的框架,該化身根據二元互動的對話動態進行手勢 |
其他的 |
| 2024年9月13日 | |
快速分割任何東西 | 僅使用 SAM 作者發布的 SA-1B 資料集的 2% 來訓練 CNN Segment Anything 模型 |
其他的 |
| 2024年9月10日 | |
紐拉蘭傑洛 | 從 RGB 視訊擷取進行高保真 3D 表面重建的框架 |
其他的 |
| 2024年9月2日 | |
雙參考網 | 高解析度二分影像分割的雙邊參考框架 |
其他的 |
| 2024年8月23日 | |
旋轉 | 學習透過循環中的模型擬合重建 3D 人體姿勢和形狀 |
|
| 2024年8月21日 | |
YOLOv10 | 旨在從後處理和模型架構上進一步推進YOLO的效能效率邊界 |
其他的 |
| 2024年8月20日 | |
規格VQGAN | 透過將訓練資料集縮小為一組代表性向量來馴服視覺引導聲音的生成 |
|
| 2024年7月12日 | |
現場肖像 | 視訊驅動的人像動畫框架,注重更好的通用性、可控性和實際使用的效率 |
其他的 |
| 2024年7月10日 | |
貘 | 透過每幀初始化和時間細化追蹤任意點 |
其他的 |
| 2024年7月5日 | |
聲音2唇 | 口型同步專家是您在野外進行語音到唇型生成所需的一切 |
|
| 2024年6月27日 | |
深實驗室切割 | 基於深度神經網路遷移學習的無標記姿態估計的有效方法,用最少的訓練資料取得優異的結果 |
其他的 |
| 2024年6月5日 | |
泳池前 | MetaFormer 實際上是您實現視覺所需的工具 |
其他的 |
| 2024年6月1日 | |
故事擴散 | 自註意力計算方式,稱為一致性自註意力,可顯著提高生成圖像之間的一致性,並以零樣本方式增強流行的基於預訓練擴散的文本到圖像模型 |
|
| 2024年5月4日 | |
普立茲 | Pure and Lightning ID 定制,一種無需調優的文本轉圖像 ID 定制方法 |
|
| 2024年5月3日 | |
電影 | 一種幀插值演算法,可從兩個具有較大中間運動的輸入影像合成多個中間幀 |
其他的 |
| 2024年5月3日 | |
聲藝 | 令牌填充神經編解碼器語言模型,在有聲讀物、網路視訊和播客的語音編輯和零樣本文字轉語音方面實現了最先進的性能 |
|
| 2024年4月21日 | |
澤斯特 | 在給定材料樣本影像的情況下,零樣本材料轉移到輸入影像中的物件的方法 |
|
| 2024年4月16日 | |
即時網格 | 用於從單一影像即時產生 3D 網格的前饋框架,具有最先進的生成品質和顯著的訓練可擴展性 |
其他的 |
| 2024年4月16日 | |
阿爾法折疊 | 高精準度蛋白質結構預測 |
其他的 |
| 2024年4月15日 | |
維爾斯辰 | 用於文字到圖像合成的架構,將大規模文字到圖像擴散模型的競爭性能與前所未有的成本效益相結合 |
| 2024年4月6日 | ||
品質管理體系 | 透過加性量化對大型語言模型進行極限壓縮 |
其他的 |
| 2024年3月8日 | |
YOLOv9 | 使用可編程梯度資訊學習您想學習的內容 |
|
| 2024年3月5日 | |
多LoRA組合 | LoRA Switch 和 LoRA Composite 是旨在在準確性和影像品質方面超越傳統技術的方法,尤其是在複雜的構圖中 |
其他的 |
| 2024年3月3日 | |
苦杏酒 | 調節網絡的多尺度和多模式推理,以識別人類疾病生物系統內和跨生物系統共享和不同的細胞迴路及其驅動因素 |
其他的 |
| 2024年2月28日 | |
利達 | 用於產生與語法無關的可視化和資訊圖表的工具 | 維克多·迪比亞 |
| 2024年2月6日 | |
維特 | 視覺轉換器和 MLP 混合器架構 |
其他的 |
| 2024年2月6日 | |
3D肯伯恩斯 | 使用 PyTorch 從單一影像實現 3D Ken Burns 效果的參考實作 - 給定單一輸入影像,它透過虛擬相機掃描和縮放受運動視差影響的靜態影像進行動畫處理 | 曼努埃爾·羅梅羅 | 2024年1月24日 | ||
瓦萊X | 用於跨語言語音合成的跨語言神經編解碼器語言模型 |
其他的 |
| 2024年1月19日 | |
照片製作者 | 高效的個人化文字到圖像生成方法,主要是將任意數量的輸入ID圖像編碼成堆疊ID嵌入,以保存ID訊息 |
其他的 |
| 2024年1月18日 | |
DD色彩 | 具有雙解碼器的端到端圖像著色方法 |
其他的 |
| 2024年1月15日 | |
帕斯卡 | 像素感知穩定擴散網絡,以實現強大的 Real-ISR 以及個人化風格化 |
|
| 2024年1月12日 | |
手工精煉機 | 透過基於擴散的條件修復來細化生成影像中畸形的手 |
|
| 2024年1月8日 | |
圖播 | 學習熟練的中期全球天氣預報 |
其他的 |
| 2024年1月4日 | |
環境管理署 | 演化規模建模:蛋白質的預訓練語言模型 |
其他的 |
| 2023年12月28日 | |
拉瓦 | 大型語言和視覺助手,端到端訓練的大型多模態模型,連接視覺編碼器和 LLM 以實現通用視覺和語言理解 |
|
| 2023年12月22日 | |
背景摳圖 V2 | 即時高解析度背景替換技術,在現代 GPU 上以 4K 解析度為 30 fps 運行,高清為 60 fps |
其他的 |
| 2023年12月22日 | |
高斯潑濺 | 最先進的視覺質量,同時保持有競爭力的訓練時間,重要的是允許在 1080p 分辨率下進行高質量實時 (≥ 100 fps) 新穎的視圖合成 |
|
| 2023年12月19日 | |
SMPLer-X | 將 EHPS 擴展到第一個通用基礎模型,以 ViT-Huge 作為骨幹,並使用來自不同資料來源的多達 450 萬個實例進行訓練 |
其他的 |
| 2023年12月18日 | |
深度緩存 | 從模型架構角度加速擴散模型的免訓練範式 |
|
| 2023年12月18日 | |
魔法動畫 | 基於擴散的框架,旨在增強時間一致性、忠實地保留參考影像並提高動畫保真度 |
其他的 |
| 2023年12月18日 | |
差分BIR | 利用生成擴散先驗實現盲影像恢復 |
其他的 |
| 2023年12月18日 | |
音訊LDM | 建立在潛在空間上的文字到音訊系統,用於從對比語言音訊預訓練潛在中學習連續音訊表示 |
其他的 |
| 2023年12月2日 | |
標籤PFN | 學習進行表格資料預測的神經網絡 |
|
| 2023年11月29日 | |
概念滑桿 | 應用在預訓練模型之上的即插即用低等級適配器 |
|
| 2023年11月26日 | |
Qwen-VL | 一組旨在感知和理解文字和圖像的大規模視覺語言模型 |
其他的 |
| 2023年11月24日 | |
動漫GANv3 | 用於快速照片動畫的雙尾生成對抗網絡 |
|
| 2023年11月23日 | |
伊薩卡島 | 第一個深度神經網絡,用於古希臘銘文的文本恢復、地理和時間歸屬 |
其他的 |
| 2023年11月21日 | |
原相-Σ | 用於 4K 文字到圖像生成的擴散變壓器的弱到強訓練 |
其他的 |
| 2023年11月7日 | |
零123++ | 用於從單一輸入視圖產生 3D 一致的多視圖影像的影像條件擴散模型 |
其他的 |
| 2023年10月26日 | |
UniFormerV2 | 用於高效時空表示學習的統一變壓器 |
其他的 |
| 2023年10月20日 | |
顯示-1 | 混合模型,稱為 Show-1,結合了基於像素和基於潛在的 VDM,用於文字到視訊的生成 |
其他的 |
| 2023年10月15日 | |
音頻九月 | 使用自然語言查詢進行開放域音訊來源分離的基礎模型 |
其他的 |
| 2023年10月12日 | |
DA-CLIP | 退化感知視覺語言模型可以更好地將預先訓練的視覺語言模型轉移到低階視覺任務中,作為圖像恢復的通用框架 |
|
| 2023年10月11日 | |
悲傷語者 | 從音訊產生 3DMM 的 3D 運動係數,並隱式調製新穎的 3D 感知臉部渲染以產生頭部說話 |
其他的 |
| 2023年10月10日 | |
穆西卡 | 音樂生成系統可以使用單一消費性 GPU 進行數百小時的音樂訓練,並且比在消費性 CPU 上即時產生任意長度的音樂要快得多 |
|
| 2023年10月9日 | |
YOLOv6 | 專用於工業應用的單級物體檢測框架 |
|
| 2023年10月8日 | |
夢幻高斯 | 將 3D 高斯轉換為紋理網格並應用微調階段來細化細節的演算法 |
|
| 2023年10月4日 | |
圖示 | 給定一組圖像,該方法會根據每個圖像估計詳細的 3D 表面,然後將它們組合成可動畫化的頭像 |
|
| 2023年8月31日 | |
恐龍v2 | 產生高性能的視覺特徵,可以直接與分類器一起使用,就像各種電腦視覺任務中的線性層一樣簡單;這些視覺功能非常強大,並且跨領域表現良好,無需任何微調 |
其他的 |
| 2023年8月31日 | |
貓頭鷹ViT | 使用視覺轉換器進行簡單的開放詞彙目標偵測 |
其他的 | 2023年8月21日 | ||
樣式GAN3 | 無別名生成對抗網絡 |
其他的 |
| 2023年8月13日 | |
命運零 | 針對真實影片的零鏡頭基於文字的編輯方法,無需按提示進行訓練或使用特定的掩模 |
其他的 |
| 2023年8月13日 | |
大甘 | 用於高保真自然圖像合成的大規模 GAN 訓練 |
| 2023年8月3日 | ||
喇嘛 | 使用傅立葉卷積進行分辨率穩健的大型遮罩修復 |
其他的 |
| 2023年8月2日 | |
讓它說話 | 以音訊作為唯一輸入,從單一臉部影像產生富有表現力的頭部說話影片的方法 |
其他的 |
| 2023年7月27日 | |
HIDT | 生成圖像到圖像模型和新的上採樣方案,允許以高解析度應用圖像轉換 |
|
| 2023年7月24日 | |
卡特勒 | 訓練無監督物件偵測和分割模型的簡單方法 |
|
| 2023年7月24日 | |
識別任何內容和 Tag2Text | 視覺語言預訓練框架,將圖像標籤引入視覺語言模型中,指導視覺語言特徵的學習 |
其他的 |
| 2023年7月9日 | |
薄板樣條運動模型 | 端到端無監督運動傳輸框架 |
|
| 2023年7月7日 | |
拖曳GAN | 拖曳您的 GAN:產生圖像流形上基於點的互動式操作 |
其他的 |
| 2023年7月3日 | |
移動SAM | 邁向行動應用的輕量級 SAM |
其他的 |
| 2023年6月30日 | |
恐龍接地 | 將 DINO 與開放集目標偵測的接地預訓練結合起來 |
其他的 |
| 2023年6月28日 | |
T5X | 模組化、可組合、研究友好的框架,用於多種規模的序列模型的高性能、可配置、自助訓練、評估和推理 |
其他的 |
| 2023年6月27日 | |
碼語者 | 將語音驅動的臉部動畫作為學習代碼本的有限代理空間中的代碼查詢任務,透過減少跨模態映射的不確定性,有效提升生成動作的生動性 |
其他的 |
| 2023年6月16日 | |
影像動畫的一階運動模型 | 將臉部動作從影片傳輸到影像 | 阿利亞克桑德爾·西亞羅欣 |
| 2023年6月4日 | |
並行WaveGAN | 最先進的非自回歸模型來建立您自己的出色聲碼器 | 林智樹 |
| 2023年6月1日 | |
經濟 | 專為「彩色圖像的人體數位化」而設計,它結合了隱式和顯式表示的最佳特性,從野外圖像中推斷出高保真 3D 穿著人類,即使穿著寬鬆的衣服或處於具有挑戰性的姿勢 |
|
| 2023年5月31日 | |
彩信 | 大規模多語言語音計畫透過建構支援1100 多種語言的單一多語言語音辨識模型、能夠識別4000 多種語言的語言識別模型、支援1400 多種語言的預訓練模型以及文本到文本的轉換,將語音技術從大約100 種語言擴展到1000 多種語言。 |
其他的 |
| 2023年5月26日 | |
FAB | Flow AIS Bootstrap 使用 AIS 在流量較不接近目標的區域產生樣本,促進新模式的發現 |
|
| 2023年4月29日 | |
代碼形成者 | 基於 Transformer 的預測網路可對低品質人臉的全局組成和上下文進行建模以進行程式碼預測,即使輸入嚴重退化,也能發現與目標人臉非常接近的自然人臉 |
|
| 2023年4月21日 | |
文字2影片-零 | 文字到影像擴散模型是零樣本影片產生器 |
其他的 |
| 2023年4月11日 | |
分割任何東西 | 分段任何模型可根據點或框等輸入提示產生高品質的物件蒙版,並可用於為影像中的所有物件產生蒙版 |
其他的 |
| 2023年4月10日 | |
跟隨你的姿勢 | 兩階段訓練方案,可以利用圖像姿勢對和無姿勢視頻資料集以及預訓練的文本到圖像模型來獲得姿勢可控的角色視頻 |
其他的 |
| 2023年4月7日 | |
EVA3D | 高品質無條件 3D 人體生成模型,僅需 2D 影像集合進行訓練 |
|
| 2023年4月6日 | |
穩定的夢境融合 | 使用預先訓練的 2D 文字到影像擴散模型執行文字到 3D 合成 |
|
| 2023年4月4日 | |
PIFuHD | 用於高解析度 3D 人體數位化的多層像素對齊隱式函數 |
|
| 2023年3月26日 | |
影片重講 | 系統根據輸入音頻編輯現實世界中頭部說話視頻的面孔,即使情緒不同,也能產生高品質且口型同步的輸出視頻 |
其他的 |
| 2023年3月19日 | |
可視化聊天GPT | 連接 ChatGPT 和一系列 Visual Foundation 模型,以實現在聊天期間傳送和接收影像 |
其他的 |
| 2023年3月15日 | |
調整影片 | 用於文字到視訊生成的圖像擴散模型的一次性調整 |
其他的 |
| 2023年2月23日 | |
GPEN | GAN Prior 嵌入式網路用於野外盲人臉部復原 |
|
| 2023年2月15日 | |
PyMAF-X | 基於迴歸的方法從單眼影像中恢復參數化全身模型 |
其他的 |
| 2023年2月14日 | |
迪斯可擴散 | 用於生成人工智慧藝術和動畫的筆記本、模型和技術的科學怪人式融合 |
|
| 2023年2月11日 | |
格魯VAE | 機器學習在生成和操縱節拍和鼓演奏方面的一些應用 |
|
| 2023年2月2日 | |
多軌音樂VAE | 此筆記本中的模型能夠編碼和解碼最多 8 個軌道的單一小節,可以選擇以基礎和弦為條件 |
其他的 |
| 2023年2月2日 | |
音樂VAE | 用於學習音樂長期結構的分層潛在向量模型 |
|
| 2023年2月2日 | |
學習繪畫 | 使用基於模型的深度強化學習學習繪畫 | 曼努埃爾·羅梅羅 | 2023年2月1日 | ||
即時NGP | 具有多重解析度雜湊編碼的即時神經圖形基元 |
|
| 2023年1月18日 | |
傅立葉特徵網絡 | 傅立葉特徵讓網路學習低維域中的高頻函數 |
其他的 |
| 2023年1月17日 | |
阿爾法姿勢 | 全身局部多人姿勢即時估計和跟踪 |
其他的 |
| 2023年1月7日 | |
混合 IK | 用於 3D 人體姿勢和形狀估計的混合分析神經逆運動學解決方案 |
其他的 |
| 2023年1月1日 | |
雅可比鏈分數 | 對學習到的梯度應用鍊式法則,並透過可微渲染器的雅可比行列式反向傳播擴散模型的分數,我們將其實例化為體素輻射場 |
|
| 2022年12月5日 | |
德穆克斯 | 混合頻譜圖和波形源分離 | 亞歷山大·德福塞 |
| 2022年11月21日 | |
風格剪輯 | StyleGAN 成像器的文字驅動操作 |
|
| 2022年10月30日 | |
運動漫反射 | 第一個基於擴散模型的文本驅動運動生成框架,它展示了現有方法的幾個所需屬性 |
其他的 |
| 2022年10月13日 | |
VToonify | 利用StyleGAN的中高解析度圖層,根據編碼器擷取的多尺度內容特徵,渲染高品質的藝術肖像,更好地保留幀細節 |
|
| 2022年10月7日 | |
皮瑪夫 | 金字塔網格對齊回歸網路中的反饋循環,用於對齊良好的身體網格恢復,並將其擴展以恢復富有表現力的全身模型 |
其他的 |
| 2022年10月6日 | |
阿爾法張量 | 透過強化學習發現更快的矩陣乘法演算法 |
其他的 |
| 2022年10月4日 | |
斯溫2SR | 新穎的 Swin Transformer V2,用於改進 SwinIR 的圖像超分辨率,特別是壓縮輸入場景 |
|
| 2022年10月3日 | |
功能 | 從資料到函數:您的資料點是一個函數,您可以將其視為一個函數 |
|
| 2022年9月24日 | |
耳語 | 自動語音辨識系統使用從網路收集的 680,000 小時多語言和多任務監督資料進行訓練 |
其他的 |
| 2022年9月21日 | |
去舊化(視頻) | 為自己的影片上色! | 賈森·安提克 |
| 2022年9月19日 | |
去舊化(照片) | 為自己的照片上色! |
|
| 2022年9月19日 | |
真實ESRGAN | 將強大的 ESRGAN 擴展到實際的恢復應用,該應用使用純合成資料進行訓練 |
|
| 2022年9月18日 | |
IDE-3D | 用於高解析度 3D 感知肖像合成的互動式解纏結編輯 |
其他的 |
| 2022年9月8日 | |
決策變壓器 | 將 RL 問題轉換為條件序列模型的架構
展開
相關應用
爲您推薦
相關資訊
全部
|