このリポジトリへようこそ。ここでは、chatGPT モデルを微調整するために使用できる素晴らしいデータをコミュニティ フォーラムから収集する方法を学びます。これは、データ収集からモデルの展開まで、AI ソリューションをゼロから構築する方法を示す素晴らしいプロジェクトです。
これは、ゼロから完全に微調整する例のシリーズの最初の部分です。 2 番目の部分はここにあります: https://github.com/BenderScript/techGPT
GenAI の楽しい部分に入る前に、まずデータを取得する必要があります。それは単なるデータではなく、私たちのタスクに関連し役立つ高品質のデータです。
フォーラムをスクレイピングするのは思ったほど簡単ではありません。私たちが直面しなければならない課題や決断は数多くあります。たとえば、次のとおりです。
ご覧のとおり、データのスクレイピングを開始する前に、考慮すべきことがたくさんあります。
データをスクレイピングしてクリーンアップしたら、トレーニング用にデータを準備する必要があります。これは、データを GenAI が理解できる形式に変換する必要があることを意味します。言い換えれば、質問と回答の意味とトーンを維持する方法で質問と回答を言い換える必要があります。
たとえば、「新しいワイヤレス AP を設定しようとしましたが、SSID とパスワードの設定方法を知りたいです。誰か助けてくれませんか?」のような質問は、「SSID とパスワードを設定するにはどうすればよいですか?」と言い換える必要があります。新しいワイヤレス AP のパスワードは?」
回答も同様です。それらを明確かつ簡潔な方法で言い換える必要があります。
このリポジトリで私が使用したアプローチは、chatGPT 自体を利用して質問と回答を整理し、言い換えることです。
最初は、データをクリーンアップするために複雑な正規表現をコーディングしようとしましたが、多くのテストの後、chatGPT の方がより適切な処理ができることがわかりました。
また、2 つのステップで実行するほうがよいこともわかりました。まず、chatGPT にデータをクリーンアップするように依頼し、次にそれを言い換えるように依頼しました。はい、時間はかかりますが、それだけの価値のある結果が得られます。
さて、その部分の書き直された可能性のあるバージョンは次のとおりです。
このリポジトリを機能させるには、コンピュータにPython 3.9以降が必要です。 pip を使用して、 requirements.txt内の Python ライブラリを取得する必要もあります。
次のように、OpenAI API キーを含む.env
ファイルが必要です。
OPENAI_API_KEY= < your api key >
デフォルト設定で実行するには、次のように入力します。
python3 main.py
保存された JSON Lines ファイルの例
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What could be causing the issue if the green LED is showing on all the newly added MR44 devices but they are not being displayed as online on the dashboard?"}, {"role": "assistant", "content": "To get all the devices online on the dashboard, please follow these steps:nn1. Remove the device from the current network.n2. Create a new network.n3. Add the device to the new network.n4. Factory reset the device.n5. Move the device back to the original network.nnFor more information, you can refer to the original post here: [Wireless-LAN/Meraki-is-showing-green-led-but-it-doesn-t-show-that-online-on](/t5/Wireless-LAN/Meraki-is-showing-green-led-but-it-doesn-t-show-that-online-on/m-p/212259#M29291)"}]}
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What could be the reason for the presence of different application categories in my networks, where one network has a more extensive drop-down list of applications compared to the other? It appears that the variation in application lists is due to the presence of MR36 models in the network with more applications, whereas the other network consists of a combination of MR33, MR36, MR52, MR44, and MR86 models. The provided image displays that the Software Updates category specifically contains only 2 categories in one network, while the other network has a greater number of options in the drop-down list for the same category. This pattern is also observed in other Application Categories."}, {"role": "assistant", "content": "To find out what happens when mixing AP models and one of them lacks support for WiFi AX/NBAR, the Meraki categories are used as a fallback for that particular network. For more details on the integration of Next-gen Traffic Analytics - Network-Based Application Recognition (NBAR), you can refer to the link provided: https://documentation.meraki.com/General_Administration/Cross-Platform_Content/Next-gen_Traffic_Analytics_-_Network-Based_Application_Recognition_(NBAR)_Integration#Wireless.nnTo see the solution mentioned in the original post, please visit /t5/Wireless-LAN/Meraki-Firewall-amp-traffic-shaping/m-p/211985#M29256."}]}
{ "messages" : [{ "role" : " system " , "content" : " You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible. " }, { "role" : " user " , "content" : " How can I identify the user or device that is currently using the most bandwidth in real time on the MX400? " }, { "role" : " assistant " , "content" : " No, I don't think so on the MX series. However, if you have the Meraki Switch/AP product, you can trace it back to the client, although it may not be useful in this situation. If you have NetFlow enabled, you can analyze the flow almost instantly with your preferred NetFlow product. " }]}
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What should be considered when determining the appropriate size of the MX at the central site for deploying SSID tunneling?"}, {"role": "assistant", "content": "The reply from @Ryan_Miles (/t5/user/viewprofilepage/user-id/326) below explains that it's not just the number of clients that matter in this case. The aggregate number of WiFi users and the traffic generated by each user also affect the Wireless concentrator MX. Ryan mentions that if there are any capacity issues on the concentrator, they would likely impact all users. Therefore, it's advisable to avoid reaching its maximum capacity. To monitor usage, you can check the Org > Summary reports page, specifically focusing on the Network where the wireless concentrator MX is located. Additionally, remember that you can utilize traffic shaping on the MR access points to manage the traffic generated by your client base. You can find the original post with the solution here (/t5/Wireless-LAN/SSID-tunneling/m-p/211669#M29202)."}]}
これが興味深いと思って、データのクリーニングと準備について貢献したり、より良い方法を提案したりする場合は、私は大歓迎です。