ai vinyl specialist 다운로드 - ai vinyl specialist 소스 코드 다운로드

ai vinyl specialist

AI 소스 코드

1.0.0

다운로드

데이비드의 비닐 전문가

David는 레코드판 전문가입니다. 추천을 요청하거나 Discogs 컬렉션에 있는 기록에 대한 추가 정보를 요청할 수 있습니다. David가 기꺼이 도와드릴 것입니다.

기술적인 세부사항

이 LLM 애플리케이션은 Discogs API를 사용하여 레코드판에 대한 정보를 제공하는 대화형 에이전트의 간단한 예입니다. 이는 4개의 주요 빌딩 블록으로 구성됩니다.

Discogs API 클라이언트 : 사용자 이름이 주어지면 Discogs API에서 비닐 레코드 컬렉션을 검색합니다.
AI 보조 엔진(David) : 기록 수집을 통해 기록에 대한 대화형 인터페이스를 제공합니다.
웹소켓 서버 : AI 도우미와 상호작용하기 위한 웹소켓 서버를 제공합니다.
사용자 인터페이스 : 웹소켓을 통해 AI 도우미와 상호작용할 수 있는 간단한 사용자 인터페이스를 제공합니다.

현재 AI 보조 엔진으로 GPT-4o와 함께 LangChain4j를 프레임워크로 사용하지만 다른 엔진을 사용하도록 쉽게 조정할 수 있습니다.

아래 다이어그램의 애플리케이션 아키텍처는 ArchitectureTest 클래스의 테스트를 통해 ArchUnit 프레임워크에 의해 시행됩니다.

아키텍처 다이어그램

배운 교훈

이 프로젝트의 UI는 다음 프롬프트를 사용하여 개발되었습니다.

 I need the code for an HTML 5 page that contains an input field for a Discogs username 
and a text area for inserting prompts for the application to send to AI agents. 
Above the text area there should be the space in which the AI responses are displayed, in the ChatGPT style

GitHub Copilot에서 생성된 HTML5 코드는 UI에 대한 초기 시각적 요소를 제공한 다음 웹소켓 연결과 AI 도우미로부터 메시지를 보내고 받는 논리를 추가하도록 수정했습니다. 나는 이것이 프로토타이핑에 대한 매우 빠른 접근 방식이라는 것을 알았습니다. 그런 다음 pro-chat을 포함하여 ant-design에서 더욱 강력한 구성 요소로 옮겼습니다.

처음에는 llama3을 사용하고 싶었습니다. llama3 모델은 현재 도구를 지원하지 않습니다(2024년 6월). 이는 AI 도우미가 Discogs 사용자 이름을 수집하고 자체적으로 레코드 컬렉션을 검색할 수 없음을 의미합니다. David가 Discogs 정보를 요청하고 양식이 필요하지 않도록 GPT-4o로 전환했습니다.

일부 LLM은 다른 LLM만큼 똑똑하지 않습니다. Mistral 7b 모델이 툴을 지원하는데도 불구하고 좋은 답변을 얻지 못했습니다. 통합 테스트도 통과하지 못했습니다. 그렇기 때문에 도구를 사용하여 LLM을 무료로 실행할 수 없었습니다.

환각은 고통입니다. 나는 그것을 최소화하는 방법으로 RAG로의 여정을 시작하고 있습니다. David가 음악 분야에서 활동하고 있기 때문에 Wikipedia는 RAG에게 가장 먼저 떠오르는 지식 기반입니다. 아마도 대화와 관련된 음악 페이지를 검색하기 위해 MediaWiki API를 활용할 수 있을 것입니다. 지금은 Google 검색만 사용하고 있으며 때로는 도움이 되지만 확실히 토큰으로 추가되는 비용에 비해 충분하지 않습니다.

LLM 지원서를 테스트하는 것은 어려운 일이었습니다. 평소보다 통합 테스트를 더 많이 했습니다. 이로 인해 개발 주기가 느려졌습니다. 또한 AI 도우미의 확률적 특성으로 인해 결정론적인 방식으로 애플리케이션을 테스트하기가 어렵습니다.

LLM 세계의 단위 테스트에서는 단순히 코드 단위를 호출하는 대신 AI 모델을 프롬프트하는 것이 포함됩니다. 클라우드 기반 모델을 사용하는 경우 단위 테스트를 실행하는 데 비용이 듭니다. 또한 기본 AI의 결과를 확인하는 데 도움이 되는 두 번째 AI 에이전트를 사용하는 방법도 실험했습니다. 문자열 처리뿐만 아니라 의미론적 주장도 수행할 수 있으므로 이는 유망한 접근 방식입니다. 여기서의 절충점은 비용도 발생하고 LLM으로 인해 발생하는 확률 오류의 위험이 쌓인다는 것입니다.

오른쪽으로 가다/틀리다

오른쪽으로 이동: 몇 번의 메시지가 표시됩니다. 이 기술을 내 시스템 프롬프트에 적용했을 때 추천자의 결과가 크게 향상되었습니다. 페르소나, 어조, 대화 뒤의 맥락, 그리고 AI가 무엇을 기대하는지에 대한 몇 가지 예를 추가했습니다.
오른쪽으로 이동: AI 테스트 검토자. AI 통합 테스트의 어설션에는 종종 문자열 처리가 포함되었습니다. 테스트 결과 검토에 특화된 또 다른 AI를 사용하면 프로세스가 더 쉬워질 것이라고 생각했습니다. 나는 그것에 설명과 메인 AI의 응답을 제공할 것이고, 테스트 검토자는 그것이 통과인지 실패인지를 반환할 것입니다. 함께 작동하는 두 AI의 확률적 오류가 누적되어 llama3을 사용하면 불안정한 테스트가 발생했습니다. GPT-4o로 전환했을 때 매우 훌륭한 도구임이 입증되었습니다. 이는 의미론적 주장을 가능하게 했습니다. 테스트 어설션에 가장 강력한 LLM을 사용하세요.
오른쪽으로 이동: 도구. 처음에는 애플리케이션 코드를 사용하여 Discogs에서 비닐 레코드 컬렉션을 가져와 LLM의 시스템 프롬프트에 추가했습니다. 이 접근 방식을 사용하려면 이 데이터를 수집하기 위해 UI에 입력 필드가 필요했습니다. 도구로 변경할 때 AI는 자체적으로 사용자로부터 Discogs 사용자 이름을 수집하여 더욱 대화적으로 만들 수 있습니다. UI 양식이 필요하지 않습니다.
잘못됨: 비용. AI 에이전트에 기능을 추가하려면 각 채팅에 들어가는 토큰 수를 늘리는 것이 필요합니다. 미세 조정된 모델을 사용하면 더욱 증가합니다. 퓨샷 프롬프트의 예제 수를 늘릴수록 시스템 프롬프트 메시지에 더 많은 비용을 지불하게 됩니다. GPT-4o를 사용하는 것은 현재로서는 비용이 많이 들기 때문에 사용할 LLM의 선택을 신중하게 고려해야 합니다. LangChain은 기본 LLM을 쉽게 변경할 수 있는 추상화 계층을 지원합니다.
잘못됨: Ollama와 llama3 사용. 처음에는 Gen AI 애플리케이션을 무료로 프로토타입하는 방법으로 Ollama 내에서 실행되는 llama3을 사용했습니다. 처음에는 작동했지만 곧 개발 주기가 매우 느려졌습니다. 내 테스트 모음은 재사용 가능한 테스트 컨테이너를 실행하는 동안 20개의 테스트를 실행하는 데 5분이 걸립니다. 애플리케이션을 실행하면 대화를 시작하기 위해 최대 1분의 콜드 스타트 지연이 발생했습니다. ChatGPT 3.5와 같은 클라우드 기반 LLM으로 대체해야 했습니다.