Willkommen in diesem Repository, in dem Sie erfahren, wie Sie ein Community-Forum nach erstaunlichen Daten durchsuchen, die Sie zur Feinabstimmung Ihres chatGPT-Modells verwenden können. Dies ist ein cooles Projekt, das Ihnen zeigt, wie Sie eine KI-Lösung von Grund auf aufbauen, von der Datenerfassung bis zur Modellbereitstellung.
Dies ist der erste Teil einer Reihe vollständiger Feinabstimmungsbeispiele von Grund auf. Der zweite Teil ist hier: https://github.com/BenderScript/techGPT
Bevor wir zum unterhaltsamen Teil von GenAI kommen, müssen wir zunächst einige Daten sammeln. Und nicht irgendwelche Daten, sondern qualitativ hochwertige Daten, die für unsere Aufgabe relevant und nützlich sind.
Ein Forum zu löschen ist nicht so einfach, wie es sich anhört. Es gibt viele Herausforderungen und Entscheidungen, denen wir uns stellen müssen, wie zum Beispiel:
Wie Sie sehen, gibt es viele Dinge zu bedenken, bevor wir mit dem Scrapen der Daten beginnen können.
Sobald wir die Daten gescrapt und bereinigt haben, müssen wir sie für das Training vorbereiten. Das bedeutet, dass wir die Daten in ein Format umwandeln müssen, das GenAI verstehen kann. Mit anderen Worten: Wir müssen die Fragen und Antworten so umformulieren, dass ihre Bedeutung und ihr Ton erhalten bleiben.
Beispielsweise muss eine Frage wie: „Ich habe versucht, einen neuen WLAN-AP zu konfigurieren und muss wissen, wie man die SSID und das Passwort konfiguriert. Kann mir jemand helfen?“ umformuliert werden als: „Wie richte ich die SSID ein und.“ Passwort für einen neuen WLAN-AP?“
Das Gleiche gilt für die Antworten. Wir müssen sie klar und prägnant umformulieren.
Der Ansatz, den ich in diesem Repository verwendet habe, besteht darin, chatGPT selbst zu nutzen, um die Fragen und Antworten zu bereinigen und neu zu formulieren.
Zuerst habe ich versucht, einen komplexen Regex-Ausdruck zu programmieren, um die Daten zu bereinigen, aber nach vielen Tests wurde mir klar, dass chatGPT einen besseren Job machen könnte.
Ich habe auch herausgefunden, dass es besser ist, es in zwei Schritten zu machen. Zuerst habe ich chatGPT gebeten, die Daten zu bereinigen, und dann habe ich es gebeten, sie neu zu formulieren. Ja, das dauert länger, aber die Ergebnisse sind es wert.
Okay, hier ist eine mögliche umgeschriebene Version dieses Teils:
Damit dieses Repository funktioniert, benötigen Sie Python 3.9 oder höher auf Ihrem Computer. Sie müssen auch die Python-Bibliotheken in „ requirements.txt “ mit pip abrufen:
Sie benötigen eine .env
Datei mit Ihrem OpenAI-API-Schlüssel wie in
OPENAI_API_KEY= < your api key >
Um es mit den Standardeinstellungen auszuführen, geben Sie einfach Folgendes ein:
python3 main.py
Beispiele für gespeicherte JSON Lines-Dateien
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What could be causing the issue if the green LED is showing on all the newly added MR44 devices but they are not being displayed as online on the dashboard?"}, {"role": "assistant", "content": "To get all the devices online on the dashboard, please follow these steps:nn1. Remove the device from the current network.n2. Create a new network.n3. Add the device to the new network.n4. Factory reset the device.n5. Move the device back to the original network.nnFor more information, you can refer to the original post here: [Wireless-LAN/Meraki-is-showing-green-led-but-it-doesn-t-show-that-online-on](/t5/Wireless-LAN/Meraki-is-showing-green-led-but-it-doesn-t-show-that-online-on/m-p/212259#M29291)"}]}
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What could be the reason for the presence of different application categories in my networks, where one network has a more extensive drop-down list of applications compared to the other? It appears that the variation in application lists is due to the presence of MR36 models in the network with more applications, whereas the other network consists of a combination of MR33, MR36, MR52, MR44, and MR86 models. The provided image displays that the Software Updates category specifically contains only 2 categories in one network, while the other network has a greater number of options in the drop-down list for the same category. This pattern is also observed in other Application Categories."}, {"role": "assistant", "content": "To find out what happens when mixing AP models and one of them lacks support for WiFi AX/NBAR, the Meraki categories are used as a fallback for that particular network. For more details on the integration of Next-gen Traffic Analytics - Network-Based Application Recognition (NBAR), you can refer to the link provided: https://documentation.meraki.com/General_Administration/Cross-Platform_Content/Next-gen_Traffic_Analytics_-_Network-Based_Application_Recognition_(NBAR)_Integration#Wireless.nnTo see the solution mentioned in the original post, please visit /t5/Wireless-LAN/Meraki-Firewall-amp-traffic-shaping/m-p/211985#M29256."}]}
{ "messages" : [{ "role" : " system " , "content" : " You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible. " }, { "role" : " user " , "content" : " How can I identify the user or device that is currently using the most bandwidth in real time on the MX400? " }, { "role" : " assistant " , "content" : " No, I don't think so on the MX series. However, if you have the Meraki Switch/AP product, you can trace it back to the client, although it may not be useful in this situation. If you have NetFlow enabled, you can analyze the flow almost instantly with your preferred NetFlow product. " }]}
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What should be considered when determining the appropriate size of the MX at the central site for deploying SSID tunneling?"}, {"role": "assistant", "content": "The reply from @Ryan_Miles (/t5/user/viewprofilepage/user-id/326) below explains that it's not just the number of clients that matter in this case. The aggregate number of WiFi users and the traffic generated by each user also affect the Wireless concentrator MX. Ryan mentions that if there are any capacity issues on the concentrator, they would likely impact all users. Therefore, it's advisable to avoid reaching its maximum capacity. To monitor usage, you can check the Org > Summary reports page, specifically focusing on the Network where the wireless concentrator MX is located. Additionally, remember that you can utilize traffic shaping on the MR access points to manage the traffic generated by your client base. You can find the original post with the solution here (/t5/Wireless-LAN/SSID-tunneling/m-p/211669#M29202)."}]}
Wenn Sie das für interessant halten und einen Beitrag leisten oder bessere Möglichkeiten zur Bereinigung und Aufbereitung von Daten vorschlagen möchten, bin ich ganz Ohr!