Unduhan Interactive RAG - Unduhan kode Sumber Interactive RAG

PERKENALAN

Agen merevolusi cara kita memanfaatkan model bahasa untuk pengambilan keputusan dan kinerja tugas. Agen adalah sistem yang menggunakan model bahasa untuk membuat keputusan dan melakukan tugas. Pendekatan ini dirancang untuk menangani skenario yang kompleks dan memberikan lebih banyak fleksibilitas dibandingkan pendekatan tradisional. Agen dapat dianggap sebagai mesin penalaran yang memanfaatkan model bahasa untuk memproses informasi, mengambil data yang relevan, menyerap (memotong/menyematkan) dan menghasilkan respons.

Di masa depan, agen akan memainkan peran penting dalam pemrosesan teks, mengotomatisasi tugas, dan meningkatkan interaksi manusia-komputer seiring kemajuan model bahasa.

Dalam contoh ini, kami secara khusus akan berfokus pada pemanfaatan agen dalam Dynamic Retrieval Augmented Generation (RAG). Dengan menggunakan ActionWeaver dan MongoDB Atlas, Anda akan memiliki kemampuan untuk mengubah strategi RAG Anda secara real-time melalui interaksi percakapan. Baik itu memilih lebih banyak bongkahan, menambah ukuran bongkahan, atau mengubah parameter lainnya, Anda dapat menyempurnakan pendekatan RAG untuk mencapai kualitas dan akurasi respons yang diinginkan. Anda bahkan dapat menambah/menghapus sumber ke database vektor Anda menggunakan bahasa alami!

Pembaruan

18-02-2024

Ditambahkan

Ringkas Ekstraksi Metadata Potongan + Potongan (Opsional)

        # LLM Config
        self.rag_config = {
            "num_sources": 2,
            "source_chunk_size": 1000,
            "min_rel_score": 0.00,
            "unique": True,
            "summarize_chunks": True, # adds latency at ingest, everything comes at a cost
        }

Memotong teks: Meringkas atau menyimpan data mentah?

Memotong teks memang bagus, tetapi bagaimana cara menyimpannya?
Meringkas menghemat ruang dan mempercepat, namun dapat menghilangkan detail.
Menyimpan data mentah memang akurat, namun berukuran besar, lebih lambat, dan "berisik".

Kelebihan meringkas:

Efisiensi: ukuran teks lebih kecil, pemrosesan lebih cepat
Fokus: menyoroti poin-poin penting untuk pengambilan informasi dengan cepat
Generalisasi: menangkap makna inti, mengurangi redundansi

Kontra meringkas:

Kehilangan informasi: beberapa detail tertinggal
Subjektivitas: ringkasan dapat menjadi bias tergantung pada metodenya
Ketergantungan konteks: mungkin tidak bermakna tanpa teks di sekitarnya
Biaya komputasi: menghasilkan ringkasan yang baik bisa jadi mahal (dan menambah latensi untuk diserap!)

Apa yang tepat untuk Anda? Itu tergantung pada kebutuhan Anda! Mempertimbangkan:

Pentingnya detail
Persyaratan kecepatan & efisiensi
Kebutuhan akan konteks
Sumber daya yang tersedia

VIDEO

DEMO 1

MENGALIR

Ajukan Pertanyaan
Periksa VectorStore -> Jika hasil VectorStore tidak cukup untuk menjawab, lakukan pencarian web secara percakapan
Tambahkan/Hapus sumber ke VectorStore
Sempurnakan strategi RAG untuk kualitas respons yang diinginkan

Memulai

Buat lingkungan Python baru

python3 -m venv env

Aktifkan lingkungan Python baru

 source env/bin/activate

Instal persyaratannya

pip3 install -r requirements.txt

Tetapkan parameter di params.py:

 # MongoDB 
MONGODB_URI = " "
DATABASE_NAME = " genai "
COLLECTION_NAME = " rag "

# If using OpenAI
OPENAI_API_KEY = " "

# If using Azure OpenAI
OPENAI_TYPE = " azure "
OPENAI_API_VERSION = " 2023-10-01-preview "
OPENAI_AZURE_ENDPOINT = " https://.openai.azure.com/ "
OPENAI_AZURE_DEPLOYMENT = " "

Buat indeks Pencarian dengan definisi berikut

{
  "mappings" : {
    "dynamic" : true ,
    "fields" : {
      "embedding" : {
        "dimensions" : 384 ,
        "similarity" : " cosine " ,
        "type" : " knnVector "
      }
    }
  }
}

Atur lingkungan

 export OPENAI_API_KEY=

Untuk menjalankan aplikasi RAG

env/bin/streamlit run rag/app.py

Informasi log yang dihasilkan oleh aplikasi akan ditambahkan ke app.log.

Penggunaan

Bot ini mendukung tindakan berikut: menjawab pertanyaan, menelusuri web, membaca URL, menghapus sumber, mencantumkan semua sumber, dan menyetel ulang pesan. Ini juga mendukung tindakan yang disebut iRAG yang memungkinkan Anda mengontrol strategi RAG agen Anda secara dinamis.

Contoh: "atur konfigurasi RAG ke 3 sumber dan ukuran potongan 1250" => Konfigurasi RAG baru:{'num_sources': 3, 'source_chunk_size': 1250, 'min_rel_score': 0, 'unique': True}.

 def __call__(self, text):
        text = self.preprocess_query(text)
        self.messages += [{"role": "user", "content":text}]
        response = self.llm.create(messages=self.messages, actions = [
            self.read_url,self.answer_question,self.remove_source,self.reset_messages,
            self.iRAG, self.get_sources_list,self.search_web
        ], stream=True)
        return response

Jika bot tidak dapat memberikan jawaban atas pertanyaan dari data yang disimpan di toko Atlas Vector, dan strategi RAG Anda (jumlah sumber, ukuran potongan, min_rel_score, dll), bot akan memulai pencarian web untuk menemukan informasi yang relevan. Anda kemudian dapat menginstruksikan bot untuk membaca dan belajar dari hasil tersebut.

Generasi Augmented Pengambilan Interaktif

RAG memang keren dan sebagainya, tetapi menemukan "strategi RAG" yang tepat itu rumit. Ukuran potongan, dan jumlah sumber unik akan berdampak langsung pada respon yang dihasilkan oleh LLM.

Dalam mengembangkan strategi RAG yang efektif, proses penyerapan sumber web, pemotongan, penyematan, ukuran potongan, dan jumlah sumber yang digunakan memainkan peran penting. Pemotongan memecah teks masukan untuk pemahaman yang lebih baik, penyematan menangkap maknanya, dan jumlah sumber memengaruhi keragaman respons. Menemukan keseimbangan yang tepat antara ukuran bagian dan jumlah sumber sangat penting untuk respons yang akurat dan relevan. Eksperimen dan penyesuaian diperlukan untuk menentukan pengaturan optimal.

Sebelum kita mendalami 'Pengambilan', mari kita bahas dulu tentang "Proses Penyerapan"

"Proses Pencernaan"

Mengapa harus ada proses terpisah untuk "menyerap" konten Anda ke dalam basis data vektor Anda? Dengan menggunakan keajaiban agen, kita dapat dengan mudah menambahkan konten baru ke database vektor.

Ada banyak jenis database yang dapat menyimpan embeddings ini, masing-masing memiliki kegunaan khusus. Namun untuk tugas yang melibatkan aplikasi GenAI, saya merekomendasikan MongoDB.

Bayangkan MongoDB sebagai kue yang bisa Anda miliki dan makan. Ini memberi Anda kekuatan bahasanya untuk membuat kueri, Mongo Query Language. Ini juga mencakup semua fitur hebat MongoDB. Selain itu, ini memungkinkan Anda menyimpan blok penyusun ini (penyematan vektor) dan melakukan operasi matematika pada blok tersebut, semuanya di satu tempat. Hal ini menjadikan MongoDB Atlas toko serba ada untuk semua kebutuhan penyematan vektor Anda!

Rincian Terperinci:

Penyematan Vektor : MongoDB Atlas menyediakan fungsionalitas untuk menyimpan penyematan vektor di inti dokumen Anda. Penyematan ini dihasilkan dengan mengonversi teks, video, atau audio menjadi vektor menggunakan model seperti GPT4All, OpenAI, atau Hugging Face.

    @action("read_url", stop=True)
    def read_url(self, urls: List[str]):
        """
        Invoke this ONLY when the user asks you to 'read', 'add' or 'learn' some URL(s). 
        This function reads the content from specified sources, and ingests it into the Knowledgebase.
        URLs may be provided as a single string or as a list of strings.
        IMPORTANT! Use conversation history to make sure you are reading/learning/adding the right URLs.

        Parameters
        ----------
        urls : List[str]
            List of URLs to scrape.

        Returns
        -------
        str
            A message indicating successful reading of content from the provided URLs.
        """
        with self.st.spinner(f"```Analyzing the content in {urls}```"):
            loader = PlaywrightURLLoader(urls=urls, remove_selectors=["header", "footer"])  
            documents = loader.load_and_split(self.text_splitter)
            self.index.add_documents(
                    documents
            )       
            return f"```Contents in URLs {urls} have been successfully ingested (vector embeddings + content).```"

Pengindeksan : Saat menggunakan pencarian vektor, penting untuk membuat indeks pencarian. Proses ini memerlukan pengaturan jalur vektor, menyelaraskan dimensi dengan model pilihan Anda, dan memilih fungsi vektor untuk mencari K tetangga terdekat.

 {
  "mappings": {
    "dynamic": true,
    "fields": {
      "embedding": {
        "dimensions": 384, #dimensions depends on the model
        "similarity": "cosine",
        "type": "knnVector"
      }
    }
  }
}

Eksekusi Kueri : Setelah penyematan vektor diindeks, saluran agregasi dapat dibuat pada data vektor tersemat untuk menjalankan kueri dan mengambil hasilnya. Hal ini dilakukan dengan menggunakan operator $vectorSearch, tahap agregasi baru di Atlas.

 def recall(self, text, n_docs=2, min_rel_score=0.25, chunk_max_length=800,unique=True):
        #$vectorSearch
        print("recall=>"+str(text))
        response = self.collection.aggregate([
        {
            "$vectorSearch": {
                "index": "default",
                "queryVector": self.gpt4all_embd.embed_query(text), #GPT4AllEmbeddings()
                "path": "embedding",
                #"filter": {},
                "limit": 15, #Number (of type int only) of documents to return in the results. Value can't exceed the value of numCandidates.
                "numCandidates": 50 #Number of nearest neighbors to use during the search. You can't specify a number less than the number of documents to return (limit).
            }
        },
        {
            "$addFields": 
            {
                "score": {
                "$meta": "vectorSearchScore"
            }
        }
        },
        {
            "$match": {
                "score": {
                "$gte": min_rel_score
            }
        }
        },{"$project":{"score":1,"_id":0, "source":1, "text":1}}])
        tmp_docs = []
        str_response = []
        for d in response:
            if len(tmp_docs) == n_docs:
                break
            if unique and d["source"] in tmp_docs:
                continue
            tmp_docs.append(d["source"])
            str_response.append({"URL":d["source"],"content":d["text"][:chunk_max_length],"score":d["score"]})
        kb_output = f"Knowledgebase Results[{len(tmp_docs)}]:n```{str(str_response)}```n## n```SOURCES: "+str(tmp_docs)+"```nn"
        self.st.write(kb_output)
        return str(kb_output)

MEMBANGUN AGEN RAG

Dengan menggunakan ActionWeaver, pembungkus ringan untuk API pemanggilan fungsi, kita dapat membangun agen proksi pengguna yang secara efisien mengambil dan menyerap informasi relevan menggunakan MongoDB Atlas.

Agen proxy adalah perantara yang mengirimkan permintaan klien ke server atau sumber daya lain dan kemudian mengembalikan tanggapan.

Agen ini menyajikan data kepada pengguna secara interaktif dan dapat disesuaikan, sehingga meningkatkan pengalaman pengguna secara keseluruhan.

UserProxyAgent memiliki beberapa parameter RAG yang dapat dikustomisasi, seperti chunk_size (misalnya 1000), num_sources (misalnya 2), unique (misalnya True) dan min_rel_score (misalnya 0,00).

 class UserProxyAgent:
    def __init__(self, logger, st):
        self.rag_config = {
            "num_sources": 2,
            "source_chunk_size": 1000,
            "min_rel_score": 0.00,
            "unique": True,
        }

Mengapa Memilih ActionWeaver?

Berikut beberapa manfaat utama yang memengaruhi keputusan kami memilih ActionWeaver:

Ringan dan Bertujuan Tunggal: ActionWeaver sangat ringan dan dirancang dengan fokus tunggal pada membangun aplikasi LLM dengan pemanggilan fungsi. Spesialisasi ini memastikan bahwa ia unggul dalam fungsi intinya tanpa kerumitan yang tidak perlu.
Kemudahan Penggunaan: ActionWeaver menyederhanakan proses mengintegrasikan alat eksternal ke dalam perangkat agen. Dengan menggunakan dekorator sederhana, pengembang dapat dengan mudah menambahkan fungsi Python apa pun, dan juga memberikan fleksibilitas untuk menyertakan alat dari ekosistem lain seperti LangChain atau Llama Index.
Keserbagunaan: Meskipun sederhana, ActionWeaver menawarkan berbagai kemampuan, termasuk dukungan untuk eksekusi fungsi paksa, pemanggilan fungsi paralel, dan ekstraksi data terstruktur. Fleksibilitas tersebut menjadikannya pisau Swiss Army, yang dilengkapi untuk menangani berbagai tugas terkait AI dan beradaptasi secara mulus terhadap perubahan tuntutan proyek.
Ketergantungan Minimal: ActionWeaver memiliki ketergantungan minimal, hanya mengandalkan perpustakaan openai dan pydantic. Hal ini mengurangi overhead pengelolaan dependensi.
Orkestrasi Fungsi Kompleks: Kerangka kerja ini memberdayakan kita untuk membuat rangkaian pemanggilan fungsi yang rumit, memungkinkan kita membangun hierarki atau rantai fungsi yang kompleks. Kemampuan ini memungkinkan kami menjalankan alur kerja canggih dengan mudah.

Dasar-Dasar ActionWeaver: Apa itu Agen?

Agen pada dasarnya hanyalah sebuah program atau sistem komputer yang dirancang untuk memahami lingkungannya, membuat keputusan, dan mencapai tujuan tertentu.

Bayangkan agen sebagai entitas perangkat lunak yang menunjukkan tingkat otonomi tertentu dan melakukan tindakan di lingkungannya atas nama pengguna atau pemiliknya, namun dengan cara yang relatif independen. Dibutuhkan inisiatif untuk melakukan tindakan sendiri dengan mempertimbangkan pilihan-pilihan untuk mencapai tujuannya. Ide inti agen adalah menggunakan model bahasa untuk memilih rangkaian tindakan yang akan diambil. Berbeda dengan rantai, di mana serangkaian tindakan dikodekan dalam kode, agen menggunakan model bahasa sebagai mesin penalaran untuk menentukan tindakan mana yang harus diambil dan dalam urutan apa.

Tindakan

Tindakan adalah fungsi yang dapat dijalankan oleh agen. Ada dua pertimbangan desain penting seputar tindakan:

 Giving the agent access to the right actions
Describing the actions in a way that is most helpful to the agent

Tanpa memikirkan keduanya, Anda tidak akan bisa membangun agen yang berfungsi. Jika Anda tidak memberi agen akses ke serangkaian tindakan yang benar, agen tidak akan pernah bisa mencapai tujuan yang Anda berikan. Jika Anda tidak menjelaskan tindakannya dengan baik, agen tidak akan tahu cara menggunakannya dengan benar.

LLM kemudian dipanggil, menghasilkan respons terhadap pengguna ATAU tindakan yang harus diambil. Jika ditentukan bahwa respons diperlukan, maka respons tersebut diteruskan ke pengguna, dan siklus tersebut selesai. Apabila ditentukan bahwa suatu tindakan perlu dilakukan, maka dilakukan tindakan itu, dan dilakukan pengamatan (hasil tindakan). Tindakan & observasi terkait tersebut ditambahkan kembali ke prompt (kami menyebutnya "agen scratchpad"), dan loop direset, yaitu. LLM dipanggil lagi (dengan scratchpad agen yang diperbarui).

Di ActionWeaver, kita dapat mempengaruhi loop dengan menambahkan stop=True|False ke suatu tindakan. Jika stop=True , LLM akan segera mengembalikan output fungsi. Ini juga akan membatasi LLM melakukan beberapa panggilan fungsi. Dalam demo ini kita hanya akan menggunakan stop=True

ActionWeaver juga mendukung kontrol loop yang lebih kompleks menggunakan orch_expr(SelectOne[actions]) dan orch_expr(RequireNext[actions]) , tapi saya akan membiarkannya untuk BAGIAN II.

Kerangka kerja agen ActionWeaver adalah kerangka aplikasi AI yang menjadikan pemanggilan fungsi sebagai intinya. Hal ini dirancang untuk memungkinkan penggabungan sistem komputasi tradisional dengan kemampuan penalaran yang kuat dari Model Model Bahasa. ActionWeaver dibangun berdasarkan konsep pemanggilan fungsi LLM, sedangkan kerangka kerja populer seperti Langchain dan Haystack dibangun berdasarkan konsep pipeline.

Fitur utama ActionWeaver meliputi:

Kemudahan Penggunaan: ActionWeaver memungkinkan pengembang untuk menambahkan fungsi Python apa pun sebagai alat dengan dekorator sederhana. Tanda tangan dan docstring metode yang dihias digunakan sebagai deskripsi dan diteruskan ke API fungsi OpenAI.
Pemanggilan Fungsi sebagai Warga Negara Kelas Satu: Pemanggilan fungsi adalah inti dari kerangka kerja ini.
Ekstensibilitas: Integrasi kode Python apa pun ke dalam kotak alat agen dengan satu baris kode, termasuk alat dari ekosistem lain seperti LangChain atau Llama Index.
Orkestrasi Fungsi: Membangun orkestrasi pemanggilan fungsi yang kompleks, termasuk hierarki atau rantai yang rumit.
Kemampuan debug: Pencatatan log terstruktur meningkatkan pengalaman pengembang.

Fitur utama fungsi OpenAI meliputi:

Pemanggilan fungsi memungkinkan Anda menghubungkan model bahasa besar ke alat eksternal.
API Penyelesaian Obrolan menghasilkan JSON yang dapat digunakan untuk memanggil fungsi dalam kode Anda.
Model terbaru telah dilatih untuk mendeteksi kapan suatu fungsi harus dipanggil dan merespons dengan JSON yang mematuhi tanda tangan fungsi.
Disarankan untuk membangun alur konfirmasi pengguna sebelum mengambil tindakan yang berdampak pada dunia atas nama pengguna.
Pemanggilan fungsi dapat digunakan untuk membuat asisten yang menjawab pertanyaan dengan memanggil API eksternal, mengubah bahasa alami menjadi panggilan API, dan mengekstrak data terstruktur dari teks.
Urutan dasar langkah pemanggilan fungsi melibatkan pemanggilan model, penguraian respons JSON, pemanggilan fungsi dengan argumen yang disediakan, dan merangkum hasilnya kembali ke pengguna.
Pemanggilan fungsi didukung oleh versi model tertentu, termasuk gpt-4 dan gpt-3.5-turbo.
Pemanggilan fungsi paralel memungkinkan beberapa pemanggilan fungsi dilakukan bersamaan, sehingga mengurangi bolak-balik dengan API.
Token digunakan untuk memasukkan fungsi ke dalam pesan sistem dan diperhitungkan terhadap batas konteks dan penagihan model.

Baca lebih lanjut di: https://thinhdanggroup.github.io/function-calling-openai/

Dasar-dasar ActionWeaver: tindakan

Pengembang dapat melampirkan fungsi Python APAPUN sebagai alat dengan dekorator sederhana. Dalam contoh berikut, kami memperkenalkan tindakan get_sources_list, yang akan dipanggil oleh OpenAI API.

ActionWeaver menggunakan tanda tangan dan docstring metode yang dihias sebagai deskripsi, meneruskannya ke API fungsi OpenAI.

ActionWeaver menyediakan pembungkus ringan yang menangani konversi informasi docstring/dekorator ke dalam format yang benar untuk OpenAI API.

 @action(name="get_sources_list", stop=True)
    def get_sources_list(self):
        """
        Invoke this to respond to list all the available sources in your knowledge base.
        Parameters
        ----------
        None
        """
        sources = self.collection.distinct("source")  
        
        if sources:  
            result = f"Available Sources [{len(sources)}]:n"  
            result += "n".join(sources[:5000])  
            return result  
        else:  
            return "N/A"

Dasar-dasar ActionWeaver: stop=Benar

stop=True ketika ditambahkan ke suatu tindakan berarti LLM akan segera mengembalikan output fungsi, namun ini juga membatasi LLM membuat beberapa pemanggilan fungsi. Misalnya, jika ditanya tentang cuaca di NYC dan San Francisco, model tersebut akan menjalankan dua fungsi terpisah secara berurutan untuk setiap kota. Namun, dengan stop=True , proses ini terhenti setelah fungsi pertama mengembalikan informasi cuaca untuk NYC atau San Francisco, bergantung pada kota mana yang pertama kali ditanyakan.

Untuk pemahaman yang lebih mendalam tentang cara kerja bot ini, silakan merujuk ke file bot.py. Selain itu, Anda dapat menjelajahi repositori ActionWeaver untuk rincian lebih lanjut.

Teknik ReAct Prompt + Rantai Pemikiran

Menghasilkan jejak penalaran memungkinkan model untuk mendorong, melacak, dan memperbarui rencana tindakan, dan bahkan menangani pengecualian. Contoh ini menggunakan ReAct yang dikombinasikan dengan chain-of-thinking (CoT).

Rantai Pemikiran

Penalaran + Tindakan

 [EXAMPLES]
- User Input: What is MongoDB?
- Thought: I have to think step by step. I should not answer directly, let me check my available actions before responding.
- Observation: I have an action available "answer_question".
- Action: "answer_question"('What is MongoDB?')

- User Input: Reset chat history
- Thought: I have to think step by step. I should not answer directly, let me check my available actions before responding.
- Observation: I have an action available "reset_messages".
- Action: "reset_messages"()

- User Input: remove source https://www.google.com, https://www.example.com
- Thought: I have to think step by step. I should not answer directly, let me check my available actions before responding.
- Observation: I have an action available "remove_source".
- Action: "remove_source"(['https://www.google.com', 'https://www.example.com'])

- User Input: read https://www.google.com, https://www.example.com
- Thought: I have to think step by step. I should not answer directly, let me check my available actions before responding.
- Observation: I have an action available "read_url".
- Action: "read_url"(['https://www.google.com','https://www.example.com'])
[END EXAMPLES]

Teknik pemicuan Chain of Thought (CoT) dan ReAct ikut berperan dalam contoh ini. Begini caranya:

Anjuran Rantai Pemikiran (CoT):

Penalaran : Dalam setiap contoh, model menggunakan alasan internal sebelum merespons. Itu tidak secara langsung menjawab masukan pengguna tetapi memikirkan langkah-langkah yang terlibat:
- Mengidentifikasi tindakan yang tersedia ("answer_question", "reset_messages", "remove_source", "read_url")
- Memilih tindakan yang tepat berdasarkan masukan pengguna
- Menjalankan tindakan yang dipilih
Observasi : Model mengamati tindakan yang tersedia sebelum mengambil tindakan apa pun. Hal ini memungkinkannya untuk lebih berhati-hati dan menghindari kesalahan.
Tindakan : Model kemudian mengeksekusi tindakan yang dipilih, sehingga menghasilkan hasil yang diinginkan.

Perintah Bereaksi:

Sinergi antara penalaran dan tindakan : ReAct dibangun berdasarkan CoT dengan menambahkan tingkat interaksi lebih lanjut dengan lingkungan. Hal ini memungkinkan model untuk:
- Kumpulkan informasi tambahan : Dalam beberapa kasus, model mungkin memerlukan lebih banyak informasi dari lingkungan sebelum mengambil tindakan. Misalnya, dalam contoh "read_url", model perlu membaca konten URL yang ditentukan sebelum dapat menjawab pertanyaan apa pun tentang URL tersebut.
- Perbarui rencana tindakan : Berdasarkan informasi yang dikumpulkan, model dapat merevisi rencana awalnya dan menyesuaikan tindakannya.
- Membuat keputusan secara real-time : ReAct memungkinkan model berinteraksi dengan lingkungannya dan bereaksi terhadap perubahan secara real-time. Hal ini membuatnya lebih mudah beradaptasi dan serbaguna dalam situasi kompleks.

Singkatnya, CoT dan ReAct memainkan peran penting dalam contoh-contoh ini. CoT memungkinkan model untuk berpikir selangkah demi selangkah dan memilih tindakan yang tepat, sementara ReAct memperluas fungsionalitas ini dengan memungkinkan model berinteraksi dengan lingkungannya dan memperbarui rencananya sesuai dengan itu. Kombinasi penalaran dan tindakan ini menjadikan model bahasa besar lebih fleksibel dan serbaguna, memungkinkan model tersebut menangani tugas dan situasi yang lebih luas.

DEMO

Mari kita mulai dengan mengajukan pertanyaan kepada agen kami. Dalam hal ini, “Apa itu mangga?” . Hal pertama yang akan terjadi adalah, ia akan mencoba "mengingat" informasi relevan apa pun menggunakan kesamaan penyematan vektor. Ia kemudian akan merumuskan respons dengan konten yang "diingatnya", atau akan melakukan pencarian web. Karena basis pengetahuan kami saat ini kosong, kami perlu menambahkan beberapa sumber sebelum dapat merumuskan respons.

DEMO - Ajukan Pertanyaan

Karena bot tidak dapat memberikan jawaban menggunakan konten dalam database vektor, bot memulai pencarian Google untuk menemukan informasi yang relevan. Kini kami dapat menentukan sumber mana yang harus "dipelajari". Dalam hal ini, kami akan memerintahkannya untuk mempelajari dua sumber pertama dari hasil pencarian.

Beri tahu bot hasil mana yang dapat dipelajari:

DEMO - Tambahkan sumber

Ubah strategi RAG

Selanjutnya, mari kita ubah strategi RAG! Mari kita buat hanya menggunakan satu sumber, dan gunakan potongan kecil berukuran 500 karakter.

DEMO - Ubah strategi RAG bagian 1

Perhatikan bahwa meskipun dapat mengambil potongan, dengan skor relevansi yang cukup tinggi, namun tidak dapat menghasilkan respons karena ukuran potongan terlalu kecil dan konten potongan tidak cukup relevan untuk merumuskan respons. Karena tidak dapat menghasilkan respons dengan potongan kecil tersebut, ia melakukan penelusuran web atas nama pengguna.

Mari kita lihat apa yang terjadi jika kita menambah ukuran potongan menjadi 3000 karakter, bukan 500.

DEMO - Ubah strategi RAG bagian 2

Sekarang, dengan ukuran potongan yang lebih besar, ia dapat merumuskan respons secara akurat menggunakan pengetahuan dari database vektor!

Daftar Semua Sumber

Mari kita lihat apa yang tersedia di basis pengetahuan Agen dengan menanyakannya: Sumber apa yang Anda miliki di basis pengetahuan Anda?

DEMO - Daftar semua sumber

Hapus sumber informasi

Jika Anda ingin menghapus sumber daya tertentu, Anda dapat melakukan sesuatu seperti:

 USER: remove source 'https://www.oracle.com' from the knowledge base

Untuk menghapus semua sumber dalam koleksi - Kita dapat melakukan sesuatu seperti:

 USER: what sources do you have in your knowledge base?
AGENT: {response}
USER: remove all those sources please

DEMO - Hapus sumber

Demo ini memberikan gambaran sekilas tentang cara kerja agen AI kami, menunjukkan kemampuannya untuk mempelajari dan merespons pertanyaan pengguna secara interaktif. Kami telah menyaksikan bagaimana perusahaan ini menggabungkan basis pengetahuan internalnya dengan pencarian web real-time secara mulus untuk memberikan informasi yang komprehensif dan akurat. Potensi teknologi ini sangat besar, lebih dari sekadar menjawab pertanyaan sederhana. Semua ini tidak akan mungkin terjadi tanpa keajaiban API Pemanggilan Fungsi .

Kredit

Ini terinspirasi oleh https://github.com/TengHu/Interactive-RAG

Sumber Daya MongoDB Tambahan

https://www.mongodb.com/developer/products/atlas/taking-rag-to-production-documentation-ai-chatbot/
https://www.mongodb.com/basics/what-is-artificial-intelligence
https://www.mongodb.com/basics/vector-databases
https://www.mongodb.com/basics/semantic-search
https://www.mongodb.com/basics/machine-learning-healthcare
https://www.mongodb.com/basics/generative-ai
https://www.mongodb.com/basics/large-bahasa-models
https://www.mongodb.com/basics/retrieval-augmented-generasi

Bacaan Tambahan

https://blog.langchain.dev/openais-bet-on-a-cognitive-architecture/

Berkontribusi

Kami menyambut kontribusi dari komunitas sumber terbuka.

Lisensi

Lisensi Apache 2.0

Memperluas