ML HARwithDTs下載ML HARwithDTs源代碼下載

ML HARwithDTs

Ai源碼

1.0.0

下載

作業1

總共20分（將縮放到10分）

人類活動認可（HAR）

人類活動識別（HAR）是指機器確定用戶執行的各種活動的能力。從這些系統/算法中獲取的知識已集成到許多應用程序中，相關設備將其用於識別動作或手勢並執行響應中的預定義任務。

數據集

我們有興趣根據加速度計數據對人類活動進行分類。我們將使用一個名為UCI-HAR的公開可用數據集。該數據集可在此處下載。在您的參考文獻中，也可以在此處獲得參與者收集參與者加速度計數據的作者的YouTube視頻。

任務1：探索性數據分析（EDA）[3分]

預處理

我們將在wertial_signals文件夾中使用原始加速度計數據。提供的腳本， CombineScript.py ，組織和分類加速度計數據，為每個類別建立單獨的類，並將參與者數據編譯到這些類中。 MakeDataset.py腳本用於讀取所有參與者數據並創建一個數據集。然後將數據集分為火車，測試和驗證集。我們專注於活動的前10秒，這轉化為最初的500個數據樣本，因為採樣率為50Hz。

步驟1>將CombineScript.py和MakeDataset.py放在包含UCI數據集的同一文件夾中。在運行腳本之前，請確保您已移至文件夾中。如果您要從其他文件夾中運行腳本，則必須使用腳本中的路徑來使其正常工作。
步驟2>運行CombineScript.py並提供UCI數據集中測試和火車文件夾的路徑。這將創建一個稱為Combined的文件夾，該文件夾將包含來自所有參與者的所有數據。這就是大多數數據集的組織方式。將來您可能會遇到類似的數據集結構。
步驟3>運行MakeDataset.py並提供Combined文件夾的路徑。這將創建一個數據集，該數據集將包含火車，測試和驗證集。您可以使用此數據集訓練模型。

問題

從每個活動類別中繪製一個樣本數據的波形。您能看到活動之間有任何差異/相似性嗎？您可以繪製一個具有6列的子圖，以顯示活動之間的差異/相似性。您是否認為該模型可以根據數據對活動進行分類？ [0.5分]
您是否認為我們需要機器學習模型來區分靜態活動（鋪設，坐著，站立）和動態活動（步行，步行_Downstairs，walking_upstairs）？看線性加速度 $（acc_x^2+acc_y^2+acc_z^2）$對於每個活動，並證明您的答案是合理的。 [0.5分]
使用PCA可視化數據。 [1分]
- 在總加速度上使用PCA（主要組件分析） $（acc_x^2+acc_y^2+acc_z^2）$將加速度時間表壓縮為兩個特徵，並繪製一個散點圖以可視化不同類別的活動。
- 接下來，使用tsfel（特徵器庫）創建功能（您選擇哪些是有用的），然後執行PCA以獲得兩個功能。繪製散點圖以可視化不同類別的活動。
- 現在，使用數據集提供的功能並執行PCA來獲得兩個功能。繪製散點圖以可視化不同類別的活動。
- 比較PCA在總加速度，TSFEL和數據集功能上的結果。您認為哪種方法更好地可視化數據？
計算TSFEL獲得併在數據集中提供的特徵的相關矩陣。確定彼此高度相關的功能。有任何冗餘功能嗎？ [1分]

任務2：人類活動識別的決策樹[3分]

問題

使用Sklearn庫來訓練決策。 [1.5分]
- 使用原始加速度計數據訓練決策樹模型。報告模型的準確性，精度，召回和混亂矩陣。
- 使用TSFEL獲得的功能訓練決策樹模型。報告模型的準確性，精度，召回和混亂矩陣。
- 使用數據集中提供的功能訓練決策樹模型。報告模型的準確性，精度，召回和混亂矩陣。
- 比較三個模型的結果。您認為哪種型號更好？
使用上述所有3種方法，使用不同深度（2-8）的訓練決策樹。將模型的精度繪製在測試數據與樹的深度上。 [1分]
是否有任何參與者/激活模型表現不好？如果是，為什麼？ [0.5分]

任務3：大型語言模型（LLMS）的及時工程[4分]

零射，很少射擊提示：

零射擊提示涉及提供一個提示或一組指令的語言模型，該模型允許其生成文本或執行任務，而無需任何明確的培訓數據或標記的示例。預計該模型將僅根據提示及其內部知識來準確地生成高質量的文本或準確執行任務。

很少有射擊提示類似於零拍的提示，但它涉及為模型提供與特定任務或數據集相關的標記示例或提示。然後，預計該模型將基於少數標記的示例及其內部知識來生成高質量的文本或準確執行任務。

任務說明：

為您提供了一本Python筆記本電腦，該筆記本顯示瞭如何使用語言模型（LLM）使用零射擊和很少的彈藥提示。筆記本中的示例涉及基於文本的任務，但是LLM也可以應用於廣泛的任務（學生學習更多的學生可以在這里和這裡閱讀）。

查詢將以特徵加速度計數據的形式提供，該模型應預測執行的活動。

零射擊學習：模型應該能夠根據加速度計數據預測活動，而無需任何明確的訓練數據或標記的示例。
很少有射擊學習：該模型還應該能夠根據有限數量的標記示例或與特定任務相關的提示來預測活動。

問題

演示如何使用零拍學習和幾乎沒有射擊學習來根據特徵加速度計數據對人類活動進行分類。定性地證明了通過零拍學習的幾次學習的表現。哪種方法的性能更好？為什麼？ [1分]
定量地將幾次學習的精度與決策樹進行比較（如果遇到限制速率問題，則可以使用測試集的子集）。哪種方法的性能更好？為什麼？ [1分]
在基於特徵加速度計數據對人類活動進行分類的背景下，零拍學習和幾乎沒有射擊學習的局限性是什麼？ [1分]
從以前從未見過的全新活動中給出輸入時，該模型會分類什麼？ [0.5分]
使用隨機數據測試模型（確保數據具有與以前輸入相同的維度和範圍）並報告結果。 [0.5分]

任務4：野外數據收集[4分]

任務說明

對於此練習標記，將不取決於您獲得的數字，而是在您遵循的過程中使用智能手機的Physics Toolbox Suite等應用程序以.csv/.txt格式收集數據。確保收集至少15秒的數據，修剪邊緣以獲得10秒的相關數據。還在錄製數據時錄製自己的視頻。將來的某些作業將需要該視頻。每個活動類別收集3-5個樣品。

要照顧的事情：

確保將手機放置在所有活動中。
確保手機在活動期間處於相同的對齊狀態，因為更改對齊方式將更改收集的數據並會影響模型的性能。
確保每個文件至少有10秒的數據進行培訓。隨著數據以50Hz收集，您將擁有500個數據示例。

問題

使用在UCI-HAR數據集上訓練的決策樹模型來預測您執行的活動。報告模型的準確性，精度，召回和混亂矩陣。您擁有三個版本的UCI數據集，您可以使用a）加速度計的原始數據，b）TSFEL特徵數據，c）作者提供的功能。選擇要使用的版本，以確保您的測試數據與培訓數據相似。模型的性能如何？ [1分]
使用您收集的數據來預測您執行的活動。決定是否應用預處理和特徵，如果是，請選擇適當的方法。模型的性能如何？ [1分]
使用使用UCI-HAR數據集的少量發射提示方法來預測您執行的活動。確保您的示例和測試查詢都需要進行類似的預處理。模型的性能如何？ [1分]
使用收集的數據使用少量射擊提示方法來預測您執行的活動。根據需要採用適當的處理方法。模型的性能如何？ [1分]

筆記：

要獲取API密鑰，請訪問https://console.groq.com/login的GroqCloud開發人員控制台。遵循快速啟動指南獲取您的API密鑰。
請勿與任何人共享您的API密鑰，也不要公開它或將其上傳到任何公共存儲庫，例如此任務。如果在代碼中找到鍵，您將以1.0分的扣除對您進行懲罰。
建議編寫降價文件（.md）或使用Python Notebook（.IPYNB）來演示您的推理，結果和發現。

決策樹實施[6分]

在樹/base.py中完成決策樹實現。該代碼應以Python編寫，並且不使用除課堂中共享或已經在代碼中導入的庫以外的現有庫。您的決策樹應適用於四種情況：i）離散功能，離散輸出； ii）離散功能，實際輸出； iii）真實功能，離散輸出；真實功能，實際輸出。您的模型應僅接受真實的輸入（對於離散輸入，您可以將屬性轉換為單熱編碼的向量）。您的決策樹應能夠使用熵或giniindex用作分裂輸出的標準。您的決策樹應能夠使用MSE作為分割實際輸出的標準。您的代碼還應該能夠繪製/顯示決策樹。 [2.5分]
您應該編輯以下文件。
- metrics.py ：完成此文件中的性能指標功能。
- usage.py ：運行此文件以檢查您的解決方案。
- 樹（目錄）：決策樹的模塊。
  - base.py ：完成決策樹類。
  - utils.py ：完成所有實用程序功能。
  - __init__.py ：不要編輯此
您應該運行usage.py來檢查您的解決方案。
使用以下代碼生成數據集
```
 from sklearn . datasets import make_classification
X , y = make_classification (
n_features = 2 , n_redundant = 0 , n_informative = 2 , random_state = 1 , n_clusters_per_class = 2 , class_sep = 0.5 )

# For plotting
import matplotlib . pyplot as plt
plt . scatter ( X [:, 0 ], X [:, 1 ], c = y )
```
a）在上述數據集上顯示您的決策樹的用法。前70％的數據應用於培訓目的，其餘30％用於測試目的。顯示您在測試數據集上實現的決策樹的準確性，每類精確度和回憶。 [0.5分]
b）在數據集上使用5倍的交叉驗證。使用嵌套交叉驗證找到樹的最佳深度。 [1標記]
您應該為包含上述實驗的代碼編輯classification-exp.py
a）顯示您對汽車效率問題的決策樹的用法。 [0.5分]
b）將模型的性能與Scikit Learn的決策樹模塊進行比較。 [0.5分]
對於包含上述實驗的代碼，您應該編輯auto-efficiency.py 。
創建一些虛假數據，以進行一些關於決策樹算法的運行時復雜性的實驗。創建一個帶有n個樣本和M二進制功能的數據集。改變M和N以繪製以下時間：1）學習樹，2）預測測試數據。這些結果與決策樹創建和預測的理論時間複雜性相比。您應該對所有四個決策樹進行比較。 [1分]
您應該為包含上述實驗的代碼編輯experiments.py 。