ML HARwithDTs Скачать - ML HARwithDTs Скачать исходный код

ML HARwithDTs

AI Исходный код

1.0.0

Скачать

Задание 1

Всего 20 баллов (будет сокращено до 10 баллов)

Распознавание деятельности человека (HAR)

Распознавание человеческой деятельности (HAR) относится к возможности машин для определения различных действий, выполняемых пользователями. Знания, полученные из этих систем/алгоритмов, интегрированы во многие приложения, где связанное устройство использует его для определения действий или жестов и выполняет предопределенные задачи в ответ.

Набор данных

Мы заинтересованы в классификации деятельности человека на основе данных акселерометра. Мы будем использовать общедоступный набор данных под названием UCI-HAR. Набор данных доступен для загрузки здесь. Просто для вашей ссылки на YouTube видео авторов, собирающих данные об акселерометре участника, также доступно здесь.

Задача 1: Исследовательский анализ данных (EDA) [3 оценки]

Предварительная обработка

Мы будем использовать данные необработанного акселерометра в папке инициал_Signals. Предоставленный скрипт CombineScript.py организует и сортирует данные акселерометра, создавая отдельные классы для каждой категории и составление данных участников в эти классы. Скрипт MakeDataset.py используется для прочтения всех данных участников и создания одного набора данных. Затем набор данных разделяется на набор тестирования и проверки. Мы сосредоточимся на первых 10 секунд активности, переведя к начальным 500 образцам данных из -за скорости отбора проб 50 Гц.

Шаг 1> Поместите CombineScript.py и MakeDataset.py в ту же папку, которая содержит набор данных UCI. Убедитесь, что вы переехали в папку перед запуском сценариев. Если вы забегаете сценарии из другой папки, вам придется поиграть с путями в сценариях, чтобы заставить его работать.
Шаг 2> run CombineScript.py и предоставьте пути для тестирования и обучения папок в наборе данных UCI. Это создаст папку с названием Combined , которая будет содержать все данные от всех участников. Так организована большинство наборов данных. В будущем вы можете столкнуться с аналогичными структурами наборов данных.
Шаг-3> запустите MakeDataset.py и обеспечить путь к Combined папке. Это создаст набор данных, который будет содержать набор поездов, тестирования и проверки. Вы можете использовать этот набор данных для обучения ваших моделей.

Вопросы

Постройте форму волны для одного образца данных из каждого класса активности. Вы можете видеть какую -либо разницу/сходство между действиями? Вы можете построить сюжет, имеющий 6 столбцов, чтобы показать различия/сходства между действиями. Как вы думаете, сможет ли модель классифицировать действия на основе данных? [0,5 баллов]
Как вы думаете, нам нужна модель машинного обучения, чтобы различать статические действия (укладки, сидение, стояние) и динамические занятия (ходьба, hailing_downstairs, walking_upstairs)? Посмотрите на линейное ускорение $ (acc_x^2+acc_y^2+acc_z^2) $ Для каждого действия и оправдывайте свой ответ. [0,5 баллов]
Визуализируйте данные с помощью PCA. [1 оценки]
- Используйте PCA (анализ основных компонентов) об общем ускорении $ (acc_x^2+acc_y^2+acc_z^2) $ Для сжатия временных городов ускорения в две особенности и график рассеянный график, чтобы визуализировать различные класс деятельности.
- Затем используйте TSFEL (библиотека Featurizer), чтобы создать функции (ваш выбор, какие из них вы считаете полезными), а затем выполните PCA, чтобы получить две функции. Настройте график рассеяния, чтобы визуализировать различные класс деятельности.
- Теперь используйте функции, предоставленные набором данных, и выполните PCA, чтобы получить две функции. Настройте график рассеяния, чтобы визуализировать различные класс деятельности.
- Сравните результаты PCA по общему ускорению, TSFEL и функциям набора данных. Какой метод, по вашему мнению, лучше для визуализации данных?
Рассчитайте корреляционную матрицу функций, полученных TSFEL, и предоставленные в наборе данных. Определите функции, которые тесно связаны друг с другом. Есть ли избыточные функции? [1 оценки]

Задача 2: Деревья решений для распознавания деятельности человека [3 оценки]

Вопросы

Используйте библиотеку Sklearn для обучения решений Tress. [1,5 баллов]
- Обучите модель дерева решений, используя данные необработанного акселерометра. Сообщите матрицу точности, точности, воспоминания и путаницы модели.
- Обурите модель дерева решений, используя функции, полученные TSFEL. Сообщите матрицу точности, точности, воспоминания и путаницы модели.
- Обучите модель дерева решений, используя функции, представленные в наборе данных. Сообщите матрицу точности, точности, воспоминания и путаницы модели.
- Сравните результаты трех моделей. Как вы думаете, какую модель лучше?
Дерево решений поезда с различной глубиной (2-8), используя все вышеупомянутые методы. Постройте точность модели на тестовых данных по сравнению с глубиной дерева. [1 оценки]
Есть ли участники/ активизии, где модель работает плохая? Если да, почему? [0,5 отметки]

Задача 3: Обратная техника для моделей крупных языков (LLMS) [4 балла]

Нулевой выстрел и несколько подсказков выстрела:

Подсказка с нулевым выстрелом включает в себя предоставление языковой модели с помощью запроса или набора инструкций, которые позволяют создавать текст или выполнять задачу без каких-либо явных данных обучения или помеченных примеров. Ожидается, что модель будет генерировать высококачественный текст или выполнить задачу точно, основанную исключительно на подсказке и ее внутренних знаниях.

Несколько выстрелов подсказывают подсказку с нулевым выстрелом, но оно включает в себя предоставление модели ограниченным количеством помеченных примеров или подсказок, которые имеют отношение к конкретной задаче или набору данных. Ожидается, что модель будет генерировать высококачественный текст или выполнить задачу точно на основе нескольких меченных примеров и ее внутренних знаний.

Описание задачи:

Вам были предоставлены блокнот Python, который демонстрирует, как использовать нулевые и несколько выстрелов с языковой моделью (LLM). Пример в ноутбуке включает в себя текстовые задачи, но LLMS также могут быть применены к широкому спектру задач (студенты заинтересованы в изучении, которые больше могут прочитать здесь и здесь).

Запросы будут предоставлены в виде данных с фиксированным акселерометром, и модель должна предсказать выполненную деятельность.

Нулевое обучение выстрела : модель должна иметь возможность предсказать деятельность на основе данных акселерометра без каких -либо явных учебных данных или помеченных примеров.
Немного обучения выстрела : модель также должна быть в состоянии предсказать деятельность на основе ограниченного числа помеченных примеров или подсказок, которые имеют отношение к конкретной задаче.

Вопросы

Продемонстрируйте, как использовать нулевое обучение и несколько выстрелов для классификации человеческой деятельности на основе данных с улучшением акселерометра. Качественно продемонстрировать производительность нескольких выстрелов с нулевым обучением. Какой метод работает лучше? Почему? [1 оценки]
Количественно сравнивайте точность нескольких выстрелов с деревьями решений (вы можете использовать подмножество испытательного набора, если вы столкнетесь с проблемами ограничения скорости). Какой метод работает лучше? Почему? [1 оценки]
Каковы ограничения обучения с нулевым выстрелом и нескольких выстрелов в контексте классификации человеческих видов деятельности на основе данных с улучшением акселерометра? [1 оценки]
Что классифицирует модель при получении ввода от совершенно нового деятельности, которую она раньше не видела? [0,5 отметки]
Проверьте модель со случайными данными (гарантируя, что данные имеют те же аспекты и диапазон, что и предыдущий вход) и сообщите о результатах. [0,5 отметки]

Задача 4: Сбор данных в дикой природе [4 балла]

Описание задачи

Для этого упражнения отметки не будут зависеть от того, какие цифры вы получаете, но от процесса, который вы следовали, используют такие приложения, как Physics Toolbox Suite от вашего смартфона, для сбора ваших данных в формате .csv/.txt. Убедитесь, что по меньшей мере 15 секунд данных собираются, обрезки ребра, чтобы получить 10 секунд соответствующих данных. Также запишите видео о себе при записи данных. Это видео потребуется в некоторых будущих заданиях. Соберите 3-5 образцов на класс активности.

Вещи, о которых нужно позаботиться:

Убедитесь, что телефон находится в одном и том же положении для всех действий.
Убедитесь, что телефон находится в том же выравнивании во время деятельности, что и изменение выравнивания, изменит собранные данные и повлияет на производительность модели.
Убедитесь, что для обучения есть как минимум 10 данных на файл. Поскольку данные собираются при 50 Гц, у вас будет 500 образцов данных.

Вопросы

Используйте модель дерева решений, обученную набору данных UCI-HAR, чтобы предсказать действия, которые вы выполняли. Сообщите матрицу точности, точности, воспоминания и путаницы модели. У вас есть три версии набора данных UCI. Выберите, какую версию использовать, гарантируя, что ваши тестовые данные аналогичны вашим учебным данным. Как работала модель? [1 оценки]
Используйте данные, которые вы собирали, чтобы предсказать действия, которые вы выполняли. Решите, применять ли предварительную обработку и эксплуатацию, и если да, выберите соответствующие методы. Как работала модель? [1 оценки]
Используйте метод подсказки нескольких выстрелов, используя набор данных UCI-HAR, чтобы предсказать действия, которые вы выполняли. Убедитесь, что как ваши примеры, так и тестовый запрос проходят аналогичную предварительную обработку. Как работала модель? [1 оценки]
Используйте метод подсказки нескольких выстрелов, используя собранные данные, чтобы предсказать выполненные вами действия. Принять правильные методы обработки по мере необходимости. Как работала модель? [1 оценки]

ПРИМЕЧАНИЕ :

Чтобы получить ключ API, перейдите на консоль разработчика Groqcloud по адресу https://console.groq.com/login. Следуйте руководству QuickStart, чтобы получить ключ API.
Не делитесь своим ключом API ни с кем, не делайте его публичным или загружайте его в любой публичный репозиторий, например, для этого задания. Если ключ найден в коде, вы будете наказаны с вычетом 1,0 балла.
Рекомендуется либо написать файл разметки (.md), либо использовать ноутбук Python (.ipynb), чтобы продемонстрировать ваши рассуждения, результаты и результаты.

Внедрение дерева решений [6 баллов]

Заполните реализацию дерева решений в Tree/Base.py. Код должен быть записан в Python и не использовать существующие библиотеки, отличные от тех, которые разделены в классе или уже импортируются в коде. Ваше дерево решений должно работать для четырех случаев: i) дискретные функции, дискретный вывод; ii) дискретные функции, реальные выводы; iii) реальные функции, дискретный выход; Реальные функции, реальная вывода. Ваша модель должна принимать только реальные входы (для дискретных входов, вы можете преобразовать атрибуты в однопольнутые кодируемые векторы). Ваше дерево решений должно иметь возможность использовать InformationGain с использованием энтропии или giniindex в качестве критериев для разделения для дискретного вывода. Ваше дерево решений должно иметь возможность использовать InformationGain с использованием MSE в качестве критериев для разделения для реального вывода. Ваш код также должен иметь возможность построить/отображать дерево решений. [2,5 баллов]
Вы должны редактировать следующие файлы.
- metrics.py : Заполните функции метриков производительности в этом файле.
- usage.py : запустите этот файл, чтобы проверить ваши решения.
- Дерево (каталог): модуль для дерева решений.
  - base.py : Полный класс дерева решений.
  - utils.py : завершить все функции утилиты.
  - __init__.py : не редактировать это
Вы должны запустить usage.py, чтобы проверить свои решения.
Создайте набор данных, используя следующие строки кода
```
 from sklearn . datasets import make_classification
X , y = make_classification (
n_features = 2 , n_redundant = 0 , n_informative = 2 , random_state = 1 , n_clusters_per_class = 2 , class_sep = 0.5 )

# For plotting
import matplotlib . pyplot as plt
plt . scatter ( X [:, 0 ], X [:, 1 ], c = y )
```
а) Показать использование дерева решений в приведенном выше наборе данных. Первые 70% данных должны использоваться для учебных целей, а оставшиеся 30% - для испытательных целей. Покажите точность, точность для класса и напомните дерево решений, которое вы реализовали в тестовом наборе данных. [0,5 отметки]
б) Используйте 5-кратную перекрестную проверку на наборе данных. Использование вложенной перекрестной проверки найдите оптимальную глубину дерева. [1 Марк]
Вы должны редактировать classification-exp.py для кода, содержащего вышеуказанные эксперименты.
а) Покажите использование вашего дерева решений для проблемы с эффективностью автомобильной эффективности. [0,5 баллов]
б) Сравните производительность вашей модели с модулем дерева решений от Scikit Learn. [0,5 баллов]
Вы должны редактировать auto-efficiency.py для кода, содержащего вышеуказанные эксперименты.
Создайте фальшивые данные, чтобы провести некоторые эксперименты по сложности времени выполнения алгоритма вашего дерева решений. Создайте набор данных с n образцами и M двоичными функциями. Варьируйтесь m и n, чтобы построить время, затрачиваемое на: 1) изучение дерева, 2) прогнозирование для тестовых данных. Как эти результаты сравниваются с теоретической временной сложностью для создания и прогнозирования дерева решений. Вы должны сделать сравнение для всех четырех случаев деревьев решений. [1 оценки]
Вы должны редактировать experiments.py для кода, содержащего вышеуказанные эксперименты.

Вы должны ответить на вопросы субъекта (визуализация, анализ синхронизации, отображение графиков), создав Asst#<task-name>_<Q#>.md

Genral Trancess:

Покажите свои результаты в ноутбуке Jupyter или файл MD. Если вы выбираете использование файла MD, вы также должны включить код.
Вы можете использовать реализацию дерева решений Scikit-Learn для распознавания деятельности человека.
Это задание составляет 20 баллов и будет сокращено до 10 баллов.

Расширять

Дополнительная информация