ดาวน์โหลด VisEval - ดาวน์โหลดซอร์สโค้ด VisEval

VisEval

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

VisEval: เกณฑ์มาตรฐาน NL2VIS

VisEval เป็นเกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินวิธีสร้างการแสดงภาพ ในพื้นที่เก็บข้อมูลนี้ เรามีทั้งชุดเครื่องมือเพื่อรองรับการวัดประสิทธิภาพ รวมถึงข้อมูลที่ใช้สำหรับการวัดประสิทธิภาพ

VisEval สามารถประเมินอะไรได้บ้าง

VisEval ประเมินการสร้างภาพข้อมูลที่สร้างขึ้นจากสามมิติ:

ไม่ว่าโค้ดที่สร้างขึ้นจะสามารถสร้างการแสดงภาพได้หรือไม่
การแสดงภาพที่สร้างขึ้นตรงกับแบบสอบถามหรือไม่
การแสดงภาพที่สร้างขึ้นนั้นอ่านง่ายหรือไม่

เริ่มต้นเลย

ติดตั้งชุดเครื่องมือมาตรฐาน

pip install --upgrade vis-evaluator
# or `git clone https://github.com/microsoft/VisEval.git && cd VisEval && pip install --upgrade -e .`

ดาวน์โหลดชุดข้อมูลเกณฑ์มาตรฐาน

หากต้องการเข้าถึงชุดข้อมูล โปรดทำตามขั้นตอนเหล่านี้:

ดาวน์โหลดชุดข้อมูลจากลิงค์นี้
เมื่อการดาวน์โหลดเสร็จสิ้น ให้แตกไฟล์เพื่อแยกเนื้อหาชุดข้อมูล

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูล โปรดดูเอกสารชุดข้อมูล

การใช้งานและตัวอย่าง

หลังจากการติดตั้ง คุณสามารถใช้ VisEval ได้โดยอ้างอิงถึง examples/evaluate.py หรือข้อมูลต่อไปนี้:

สร้างวิธีการสร้างของคุณ โดยสืบทอดจากคลาส Agent คุณสามารถค้นหาสามตัวอย่างได้ในไดเร็กทอรี examples/agent

 from viseval . agent import Agent , ChartExecutionResult

class YourAgent ( Agent ):
    def __init__ ( self , llm ):
        self . llm = llm
    
    def generate (
        self , nl_query : str , tables : list [ str ], config : dict
    ) -> Tuple [ str , dict ]:
        """Generate code for the given natural language query."""
        pass

    def execute (
        self , code : str , context : dict , log_name : str = None
    ) -> ChartExecutionResult :
        """Execute the given code with context and return the result"""
        pass

กำหนดค่าตัวประเมิน

    evaluator = Evaluator ( webdriver_path , vision_model )

(คุณสามารถกำหนดค่า Evaluator โดยไม่ต้องใช้ไดรเวอร์เว็บและโมเดลการมองเห็น ซึ่งในกรณีนี้การประเมินความสามารถในการอ่านของการแสดงภาพที่สร้างขึ้นจะถูกข้ามไป)

ติดตั้งเว็บไดรเวอร์

 # download
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
# install
apt install google-chrome-stable_current_amd64.deb
# verify
google-chrome --version

โหลดโมเดลการมองเห็น (เช่น GPT4-v)

 from langchain_openai import AzureChatOpenAI

import dotenv
# Copy .env.example to .env and put your API keys in the file.
dotenv . load_dotenv ()

vision_model = AzureChatOpenAI (
    model_name = "gpt-4-turbo-v" ,
    max_retries = 999 ,
    temperature = 0.0 ,
    request_timeout = 20 ,
    max_tokens = 4096 ,
)

ประเมิน

 from viseval import Dataset

# Configure dataset with the benchmark dataset folder path ( folder), 
# specify the number of tables required to generate visualizations (table_type`: all, single, or multiple),
# and indicate whether to include irrelevant tables (`with_irrelevant_tables`).
dataset = Dataset ( folder , table_type , with_irrelevant_tables )

config = { "library" : args . library }
result = evaluator . evaluate ( agent , dataset , config )
score = result . score ()
print ( f"Score: { score } " )

มีส่วนร่วม

โครงการนี้ยินดีรับการสนับสนุนและข้อเสนอแนะ การบริจาคส่วนใหญ่กำหนดให้คุณยอมรับข้อตกลงใบอนุญาตผู้ร่วมให้ข้อมูล (CLA) โดยประกาศว่าคุณมีสิทธิ์ที่จะให้สิทธิ์แก่เราในการใช้การบริจาคของคุณจริงๆ สำหรับรายละเอียด โปรดไปที่ https://cla.opensource.microsoft.com

เมื่อคุณส่งคำขอดึง บอท CLA จะกำหนดโดยอัตโนมัติว่าคุณจำเป็นต้องจัดเตรียม CLA และตกแต่ง PR อย่างเหมาะสมหรือไม่ (เช่น การตรวจสอบสถานะ ความคิดเห็น) เพียงทำตามคำแนะนำที่ได้รับจากบอท คุณจะต้องทำสิ่งนี้เพียงครั้งเดียวกับ repos ทั้งหมดโดยใช้ CLA ของเรา

โครงการนี้ได้นำหลักจรรยาบรรณของ Microsoft Open Source มาใช้ สำหรับข้อมูลเพิ่มเติม โปรดดูคำถามที่พบบ่อยเกี่ยวกับหลักจรรยาบรรณ หรือติดต่อ [email protected] หากมีคำถามหรือความคิดเห็นเพิ่มเติม

เครื่องหมายการค้า

โครงการนี้อาจมีเครื่องหมายการค้าหรือโลโก้สำหรับโครงการ ผลิตภัณฑ์ หรือบริการ การใช้เครื่องหมายการค้าหรือโลโก้ของ Microsoft โดยได้รับอนุญาตจะอยู่ภายใต้และต้องปฏิบัติตามแนวทางเครื่องหมายการค้าและแบรนด์ของ Microsoft การใช้เครื่องหมายการค้าหรือโลโก้ของ Microsoft ในเวอร์ชันแก้ไขของโครงการนี้จะต้องไม่ทำให้เกิดความสับสนหรือบ่งบอกถึงการสนับสนุนของ Microsoft การใช้เครื่องหมายการค้าหรือโลโก้ของบุคคลที่สามจะต้องเป็นไปตามนโยบายของบุคคลที่สามเหล่านั้น

คำชี้แจงความเป็นส่วนตัว

โครงการนี้ได้นำคำชี้แจงสิทธิส่วนบุคคลของ Microsoft มาใช้

การอ้างอิง

หากคุณพบว่า VisEval ช่วยคุณในการค้นคว้า โปรดพิจารณาอ้างอิง:

 @misc{chen2024viseval,
      title={VisEval: A Benchmark for Data Visualization in the Era of Large Language Models}, 
      author={Nan Chen and Yuge Zhang and Jiahang Xu and Kan Ren and Yuqing Yang},
      year={2024},
      eprint={2407.00981},
      archivePrefix={arXiv},
      primaryClass={cs.HC},
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-11-21
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด