meraki_genai_community_scraper Télécharger - meraki_genai_community

meraki_genai_community_scraper

Code Source AI

1.0.0

Télécharger

Comment supprimer un forum pour obtenir de superbes données de réglage fin GPT

Bienvenue dans ce référentiel, où vous apprendrez à récupérer sur un forum communautaire des données étonnantes que vous pourrez utiliser pour affiner votre modèle chatGPT. Il s'agit d'un projet intéressant qui vous montre comment créer une solution d'IA à partir de zéro, de la collecte de données au déploiement du modèle.

Il s'agit de la première partie d'une série d'exemples complets de mise au point à partir de zéro. La deuxième partie est ici : https://github.com/BenderScript/techGPT

Données de grattage et de nettoyage

Avant d'aborder la partie amusante de GenAI, nous devons d'abord obtenir quelques données. Et pas n’importe quelles données, mais des données de qualité, pertinentes et utiles à notre tâche.

Scraper un forum n'est pas aussi simple qu'il y paraît. Nous devons faire face à de nombreux défis et décisions, tels que :

Comment extraire les questions et réponses de la structure HTML des pages du forum ?
Comment gérons-nous la pagination des pages du forum ? Devons-nous gratter toutes les pages ou seulement les premières ?
Comment sélectionnons-nous les meilleures réponses pour chaque question ? Considérons-nous uniquement les solutions acceptées, ou incluons-nous également celles qui ont reçu de nombreux votes positifs ?
Comment gérer les fautes de grammaire et d’orthographe dans le texte ? Devons-nous les corriger ou les laisser tels quels ?
Comment gérons-nous les extraits de code, les liens, les e-mails, les balises HTML, les emojis et les caractères spéciaux dans le texte ? Faut-il les supprimer ou les conserver ? Et si nous les conservons, comment les formater correctement ?

Comme vous pouvez le constater, il y a beaucoup de choses à prendre en compte avant de pouvoir commencer à récupérer les données.

Réécrire les questions et les réponses

Une fois que nous avons récupéré et nettoyé les données, nous devons les préparer pour la formation. Cela signifie que nous devons transformer les données dans un format que GenAI peut comprendre. En d’autres termes, nous devons reformuler les questions et les réponses de manière à préserver leur sens et leur ton.

Par exemple, une question telle que : « J'ai essayé de configurer un nouveau point d'accès sans fil et j'ai besoin de savoir comment configurer le SSID et le mot de passe. Quelqu'un peut-il m'aider ? » doit être reformulée comme suit : « Comment configurer le SSID et le mot de passe. mot de passe sur un nouveau point d'accès sans fil ? »

Il en va de même pour les réponses. Nous devons les reformuler de manière claire et concise.

L'approche que j'ai utilisée dans ce référentiel consiste à exploiter chatGPT lui-même pour nettoyer et reformuler les questions et réponses.

Au début, j'ai essayé de coder une expression regex complexe pour nettoyer les données, mais après de nombreux tests, j'ai réalisé que chatGPT pouvait faire un meilleur travail.

J’ai aussi découvert qu’il était préférable de le faire en deux étapes. Tout d’abord, j’ai demandé à chatGPT de nettoyer les données, puis je lui ai demandé de les reformuler. Oui, cela prend plus de temps, mais les résultats en valent la peine.

D'accord, voici une possible version réécrite de cette partie :

Comment l'exécuter

Pour faire fonctionner ce référentiel, vous avez besoin de Python 3.9 ou supérieur sur votre ordinateur. Vous devez également obtenir les bibliothèques Python dans Requirements.txt en utilisant pip :

Vous avez besoin d'un fichier .env avec votre clé API OpenAI comme dans

OPENAI_API_KEY= < your api key >

Pour l'exécuter avec les paramètres par défaut, tapez simplement :

python3 main.py

Exemples

Exemples de fichiers JSON Lines enregistrés

{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What could be causing the issue if the green LED is showing on all the newly added MR44 devices but they are not being displayed as online on the dashboard?"}, {"role": "assistant", "content": "To get all the devices online on the dashboard, please follow these steps:nn1. Remove the device from the current network.n2. Create a new network.n3. Add the device to the new network.n4. Factory reset the device.n5. Move the device back to the original network.nnFor more information, you can refer to the original post here: [Wireless-LAN/Meraki-is-showing-green-led-but-it-doesn-t-show-that-online-on](/t5/Wireless-LAN/Meraki-is-showing-green-led-but-it-doesn-t-show-that-online-on/m-p/212259#M29291)"}]}
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What could be the reason for the presence of different application categories in my networks, where one network has a more extensive drop-down list of applications compared to the other? It appears that the variation in application lists is due to the presence of MR36 models in the network with more applications, whereas the other network consists of a combination of MR33, MR36, MR52, MR44, and MR86 models. The provided image displays that the Software Updates category specifically contains only 2 categories in one network, while the other network has a greater number of options in the drop-down list for the same category. This pattern is also observed in other Application Categories."}, {"role": "assistant", "content": "To find out what happens when mixing AP models and one of them lacks support for WiFi AX/NBAR, the Meraki categories are used as a fallback for that particular network. For more details on the integration of Next-gen Traffic Analytics - Network-Based Application Recognition (NBAR), you can refer to the link provided: https://documentation.meraki.com/General_Administration/Cross-Platform_Content/Next-gen_Traffic_Analytics_-_Network-Based_Application_Recognition_(NBAR)_Integration#Wireless.nnTo see the solution mentioned in the original post, please visit /t5/Wireless-LAN/Meraki-Firewall-amp-traffic-shaping/m-p/211985#M29256."}]}
{ "messages" : [{ "role" : " system " , "content" : " You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible. " }, { "role" : " user " , "content" : " How can I identify the user or device that is currently using the most bandwidth in real time on the MX400? " }, { "role" : " assistant " , "content" : " No, I don't think so on the MX series. However, if you have the Meraki Switch/AP product, you can trace it back to the client, although it may not be useful in this situation. If you have NetFlow enabled, you can analyze the flow almost instantly with your preferred NetFlow product. " }]}
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What should be considered when determining the appropriate size of the MX at the central site for deploying SSID tunneling?"}, {"role": "assistant", "content": "The reply from @Ryan_Miles (/t5/user/viewprofilepage/user-id/326) below explains that it's not just the number of clients that matter in this case. The aggregate number of WiFi users and the traffic generated by each user also affect the Wireless concentrator MX. Ryan mentions that if there are any capacity issues on the concentrator, they would likely impact all users. Therefore, it's advisable to avoid reaching its maximum capacity. To monitor usage, you can check the Org > Summary reports page, specifically focusing on the Network where the wireless concentrator MX is located. Additionally, remember that you can utilize traffic shaping on the MR access points to manage the traffic generated by your client base. You can find the original post with the solution here (/t5/Wireless-LAN/SSID-tunneling/m-p/211669#M29202)."}]}

Retour

Si vous pensez que cela est intéressant et que vous souhaitez contribuer ou suggérer de meilleures façons de nettoyer et de préparer les données, je suis tout ouïe !

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-10
taille 11.1KB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Chien_Renard_Lapin

2022-08-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout