chatGPT 모델을 미세 조정하는 데 사용할 수 있는 놀라운 데이터를 커뮤니티 포럼에서 스크랩하는 방법을 배울 수 있는 이 저장소에 오신 것을 환영합니다. 이는 데이터 수집부터 모델 배포까지 처음부터 AI 솔루션을 구축하는 방법을 보여주는 멋진 프로젝트입니다.
이것은 처음부터 완전한 미세 조정 예제 시리즈의 첫 번째 부분입니다. 두 번째 부분은 여기에 있습니다: https://github.com/BenderScript/techGPT
GenAI의 재미있는 부분을 살펴보기 전에 먼저 몇 가지 데이터를 가져와야 합니다. 그리고 단순한 데이터가 아니라 우리 작업에 관련성이 있고 유용한 고품질 데이터입니다.
포럼을 스크랩하는 것은 말처럼 쉽지 않습니다. 우리가 직면해야 할 과제와 결정은 다음과 같습니다.
보시다시피, 데이터 스크랩을 시작하기 전에 고려해야 할 사항이 많습니다.
데이터를 스크랩하고 정리한 후에는 훈련을 위해 준비해야 합니다. 이는 데이터를 GenAI가 이해할 수 있는 형식으로 변환해야 함을 의미합니다. 즉, 질문과 답변의 의미와 어조를 유지하는 방식으로 다시 표현해야 합니다.
예를 들어, "새 무선 AP를 구성하려고 했는데 SSID와 비밀번호를 구성하는 방법을 알아야 합니다. 누군가 도와줄 수 있나요?"와 같은 질문은 "SSID와 비밀번호를 어떻게 설정합니까?"로 바꾸어 표현해야 합니다. 새 무선 AP의 비밀번호는 무엇입니까?"
답변도 마찬가지입니다. 우리는 그것들을 명확하고 간결하게 바꿔야 합니다.
이 저장소에서 제가 사용한 접근 방식은 chatGPT 자체를 활용하여 질문과 답변을 정리하고 다시 표현하는 것입니다.
처음에는 데이터를 정리하기 위해 복잡한 정규 표현식을 코딩해 보았지만 여러 테스트를 거친 후 chatGPT가 더 나은 작업을 수행할 수 있다는 것을 깨달았습니다.
나는 또한 두 단계로 수행하는 것이 더 낫다는 것을 알았습니다. 먼저 chatGPT에 데이터 정리를 요청한 뒤, 다시 작성해 달라고 요청했습니다. 예, 시간이 더 걸리지만 결과는 그만한 가치가 있습니다.
좋습니다. 해당 부분을 재작성할 수 있는 버전은 다음과 같습니다.
이 저장소가 작동하려면 컴퓨터에 Python 3.9 이상이 필요합니다. 또한 pip를 사용하여 요구사항.txt 에서 Python 라이브러리를 가져와야 합니다.
다음과 같이 OpenAI API 키가 포함된 .env
파일이 필요합니다.
OPENAI_API_KEY= < your api key >
기본 설정으로 실행하려면 다음을 입력하십시오.
python3 main.py
저장된 JSON Lines 파일의 예
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What could be causing the issue if the green LED is showing on all the newly added MR44 devices but they are not being displayed as online on the dashboard?"}, {"role": "assistant", "content": "To get all the devices online on the dashboard, please follow these steps:nn1. Remove the device from the current network.n2. Create a new network.n3. Add the device to the new network.n4. Factory reset the device.n5. Move the device back to the original network.nnFor more information, you can refer to the original post here: [Wireless-LAN/Meraki-is-showing-green-led-but-it-doesn-t-show-that-online-on](/t5/Wireless-LAN/Meraki-is-showing-green-led-but-it-doesn-t-show-that-online-on/m-p/212259#M29291)"}]}
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What could be the reason for the presence of different application categories in my networks, where one network has a more extensive drop-down list of applications compared to the other? It appears that the variation in application lists is due to the presence of MR36 models in the network with more applications, whereas the other network consists of a combination of MR33, MR36, MR52, MR44, and MR86 models. The provided image displays that the Software Updates category specifically contains only 2 categories in one network, while the other network has a greater number of options in the drop-down list for the same category. This pattern is also observed in other Application Categories."}, {"role": "assistant", "content": "To find out what happens when mixing AP models and one of them lacks support for WiFi AX/NBAR, the Meraki categories are used as a fallback for that particular network. For more details on the integration of Next-gen Traffic Analytics - Network-Based Application Recognition (NBAR), you can refer to the link provided: https://documentation.meraki.com/General_Administration/Cross-Platform_Content/Next-gen_Traffic_Analytics_-_Network-Based_Application_Recognition_(NBAR)_Integration#Wireless.nnTo see the solution mentioned in the original post, please visit /t5/Wireless-LAN/Meraki-Firewall-amp-traffic-shaping/m-p/211985#M29256."}]}
{ "messages" : [{ "role" : " system " , "content" : " You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible. " }, { "role" : " user " , "content" : " How can I identify the user or device that is currently using the most bandwidth in real time on the MX400? " }, { "role" : " assistant " , "content" : " No, I don't think so on the MX series. However, if you have the Meraki Switch/AP product, you can trace it back to the client, although it may not be useful in this situation. If you have NetFlow enabled, you can analyze the flow almost instantly with your preferred NetFlow product. " }]}
{"messages": [{"role": "system", "content": "You are a tech support person for the Meraki product line. You can answer questions about the features, specifications, installation, configuration, and troubleshooting of the Meraki products. You are polite,professional, and helpful. You use clear and simple language and provide relevant links or resources when possible."}, {"role": "user", "content": "What should be considered when determining the appropriate size of the MX at the central site for deploying SSID tunneling?"}, {"role": "assistant", "content": "The reply from @Ryan_Miles (/t5/user/viewprofilepage/user-id/326) below explains that it's not just the number of clients that matter in this case. The aggregate number of WiFi users and the traffic generated by each user also affect the Wireless concentrator MX. Ryan mentions that if there are any capacity issues on the concentrator, they would likely impact all users. Therefore, it's advisable to avoid reaching its maximum capacity. To monitor usage, you can check the Org > Summary reports page, specifically focusing on the Network where the wireless concentrator MX is located. Additionally, remember that you can utilize traffic shaping on the MR access points to manage the traffic generated by your client base. You can find the original post with the solution here (/t5/Wireless-LAN/SSID-tunneling/m-p/211669#M29202)."}]}
이것이 흥미롭다고 생각하고 데이터 정리 및 준비에 대한 더 나은 방법을 제안하거나 기여하고 싶다면 나는 귀를 기울이고 있습니다!