Загрузка MiraData - Загрузка исходного кода MiraData

MiraData

Другой исходный код

Скачать

MiraData: крупномасштабный набор видеоданных с большой продолжительностью и структурированными субтитрами

Сюань Цзюй ^1* , Имин Гао ^1* , Чжаоян Чжан ^1*# , Цзыян Юань ¹ , Синьтао Ван ¹ , Больной Цзэн, Юй Сюн, Цян Сюй, Инь Шань ¹
¹ Лаборатория ARC, Tencent PCG ² Китайский университет Гонконга ^* Равный вклад ^# Руководитель проекта

Введение

Наборы видеоданных играют решающую роль в создании видео, таких как Sora. Однако существующие наборы данных текстового видео часто не справляются с обработкой длинных видеопоследовательностей и захватом переходов между кадрами . Чтобы устранить эти ограничения, мы представляем MiraData — набор видеоданных, разработанный специально для задач создания длинных видео. Кроме того, чтобы лучше оценивать временную согласованность и интенсивность движения при создании видео, мы представляем MiraBench , который расширяет существующие тесты за счет добавления 3D-согласованности и показателей силы движения на основе отслеживания. Более подробную информацию вы можете найти в нашей исследовательской статье.

Ключевые особенности MiraData

Длинная продолжительность видео : в отличие от предыдущих наборов данных, где видеоклипы часто очень короткие (обычно менее 20 секунд), MiraData фокусируется на неразрезанных сегментах видео со средней продолжительностью 72 секунды. Такая увеличенная продолжительность позволяет более комплексно моделировать видеоконтент.
Структурированные субтитры : каждое видео в MiraData сопровождается структурированными субтитрами. Эти подписи содержат подробные описания с различных точек зрения, увеличивая богатство набора данных. Средняя длина субтитров составляет 318 слов, что обеспечивает полное представление видеоконтента.

альтернативный текст

Набор данных

Мета-файлы

Мы выпускаем четыре версии MiraData, содержащие данные 330K, 93K, 42K, 9K.

Метафайл для этой версии MiraData доступен на Google Диске и в наборе данных HuggingFace. Кроме того, чтобы лучше и быстрее понять состав наших метафайлов, мы случайным образом выбираем набор из 100 видеоклипов, доступ к которым можно получить здесь. Метафайл содержит следующую индексную информацию:

clip_id : индекс видеоклипа, состоящий из {download_id}.{clip_id}
источник : источник и категория загрузки видео
video_url : URL-адрес источника видео
video_id : идентификатор видео на исходном веб-сайте.
ширина : ширина видео
высота : высота видео
fps : частота кадров видео, используемая для извлечения кадра.
секунды : продолжительность видеоклипа
временная метка : временная метка начала и окончания клипа в исходном видео (используется для вырезания видеоклипа из исходного видео)
frame_number : номер кадра видеоклипа.
Framestamp : начальный и конечный кадр клипа в исходном видео.
file_path : путь к файлу для хранения видеоклипа
short_caption : краткая общая подпись.
Densent_caption : плотная общая подпись.
background_caption : подпись фонового видео.
main_object_caption : подпись основного объекта видео.
style_caption : заголовок стиля видео.
camera_caption : подпись движения камеры.

Скачать

Чтобы загрузить видео и разделить их на клипы, начните с загрузки метафайлов с Google Диска или набора данных HuggingFace. Получив метафайлы, вы можете использовать следующие сценарии для загрузки образцов видео:

 python download_data.py --meta_csv {meta file} --download_start_id {the start of download id} --download_end_id {the end of download id} --raw_video_save_dir {the path of saving raw videos} --clip_video_save_dir {the path of saving cutted video}

^{Мы удалим образцы видео из нашего набора данных / Github / веб-страницы проекта до тех пор, пока они вам понадобятся. Пожалуйста, свяжитесь с нами для запроса.}

Сборник и аннотация

Чтобы собрать MiraData, мы сначала вручную выбираем каналы YouTube в различных сценариях и включаем видео с HD-VILA-100M, Videovo, Pixabay и Pexels. Затем все видео в соответствующих каналах загружаются и разделяются с помощью PySceneDetect. Затем мы использовали несколько моделей, чтобы объединить короткие клипы и отфильтровать видео низкого качества. После этого мы отобрали видеоклипы большой продолжительности. Наконец, мы добавили субтитры ко всем видеоклипам, используя GPT-4V.

альтернативный текст

Структурированные подписи

Каждое видео в MiraData сопровождается структурированными подписями. Эти подписи содержат подробные описания с различных точек зрения, увеличивая богатство набора данных.

Шесть типов подписей

Описание основного объекта: описывает основной объект или субъект в видео, включая их атрибуты, действия, позиции и движения на протяжении всего видео.
Фон: предоставляет контекст об окружающей среде или обстановке, включая объекты, местоположение, погоду и время.
Стиль: охватывает художественный стиль, визуальные и фотографические аспекты, такие как реалистичный, киберпанк и кинематографический стиль.
Движение камеры: подробно описывает любые повороты камеры, масштабирование или другие движения.
Короткая подпись: краткое описание, отражающее суть видео, созданное с использованием модели титров Panda-70M.
Плотная подпись: более подробное и подробное описание, обобщающее пять вышеупомянутых типов подписей.

Подписи с GPT-4V

Мы протестировали существующие визуальные методы LLM с открытым исходным кодом и GPT-4V и обнаружили, что подписи GPT-4V демонстрируют лучшую точность и последовательность в семантическом понимании с точки зрения временной последовательности.

Чтобы сбалансировать затраты на аннотации и точность субтитров, мы равномерно выбираем 8 кадров для каждого видео и размещаем их в сетке 2х4 из одного большого изображения. Затем мы используем модель титров Panda-70M, чтобы аннотировать каждое видео заголовком из одного предложения, который служит подсказкой для основного контента, и вводим его в нашу точно настроенную подсказку. Подав точно настроенную подсказку и большое изображение 2x4 в GPT-4V, мы можем эффективно выводить подписи для нескольких размеров всего за один раунд разговора. Конкретное содержимое подсказки можно найти в файле caption_gpt4v.py, и мы приглашаем всех внести свой вклад в создание более высококачественных текстовых и видеоданных. ?

Статистика длины текста коротких, плотных и структурированных подписей.

Облако слов коротких подписей. Облако слов плотных подписей.

Тест - MiraBench

Чтобы оценить создание длинного видео, мы разработали 17 показателей оценки в MiraBench с 6 точек зрения, включая временную согласованность, временную силу движения, согласованность 3D, визуальное качество, выравнивание текста и видео и согласованность распределения. Эти показатели охватывают большинство распространенных стандартов оценки, использовавшихся в предыдущих моделях создания видео и тестах преобразования текста в видео.

Чтобы оценить сгенерированные видео, сначала настройте среду Python с помощью:

 pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install -r requirements.txt

Затем запустите оценку через:

 python calculate_score.py --meta_file data/evaluation_example/meta_generated.csv --frame_dir data/evaluation_example/frames_generated --gt_meta_file data/evaluation_example/meta_gt.csv --gt_frame_dir data/evaluation_example/frames_gt --output_folder data/evaluation_example/results --ckpt_path data/ckpt --device cuda

Вы можете воспользоваться примером в data/evaluation_example , чтобы оценить свои собственные видео.

Лицензионное соглашение

Пожалуйста, ознакомьтесь с ЛИЦЕНЗИЕЙ.

Набор данных MiraData доступен только в информационных целях. Авторские права остаются за первоначальными владельцами видео.
Все видео набора данных MiraData получены из Интернета и не являются собственностью наших учреждений. Наше учреждение не несет ответственности ни за содержание, ни за смысл этих видео.
Вы соглашаетесь не воспроизводить, не дублировать, не копировать, не продавать, не обменивать, не перепродавать и не использовать в каких-либо коммерческих целях любую часть видео и любую часть полученных данных. Вы соглашаетесь не копировать, не публиковать и не распространять в дальнейшем какую-либо часть набора данных MiraData.

Цитирование

Если вы найдете этот проект полезным для вашего исследования, пожалуйста, процитируйте нашу статью. ?

 @misc{ju2024miradatalargescalevideodataset,
      title={MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions}, 
      author={Xuan Ju and Yiming Gao and Zhaoyang Zhang and Ziyang Yuan and Xintao Wang and Ailing Zeng and Yu Xiong and Qiang Xu and Ying Shan},
      year={2024},
      eprint={2407.06358},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2407.06358}, 
}

Контактная информация

По любым вопросам пишите на [email protected] .

Лицензия

MiraData находится под лицензией GPL-v3 и поддерживается для коммерческого использования. Если вам нужна коммерческая лицензия для MiraData, свяжитесь с нами.

Расширять

Дополнительная информация