VisEval下载 - VisEval源码下载

VisEval

其他源码

下载

VisEval：NL2VIS 基准

VisEval 是一个旨在评估可视化生成方法的基准。在此存储库中，我们提供支持基准测试的工具包以及用于基准测试的数据。

VisEval 可以评估什么

VisEval 从三个维度评估生成的可视化：

生成的代码是否可以产生可视化效果。
生成的可视化是否满足查询。
生成的可视化是否易于阅读。

开始使用

安装基准工具包

pip install --upgrade vis-evaluator
# or `git clone https://github.com/microsoft/VisEval.git && cd VisEval && pip install --upgrade -e .`

下载基准数据集

要访问数据集，请按照下列步骤操作：

从此链接下载数据集。
下载完成后，解压缩文件以提取数据集内容。

有关数据集的更多信息，请参阅数据集文档。

用法与示例

安装完成后，您可以参考examples/evaluate.py或如下使用VisEval：

通过继承Agent类来创建您的生成方法。您可以在examples/agent目录中找到三个示例。

 from viseval . agent import Agent , ChartExecutionResult

class YourAgent ( Agent ):
    def __init__ ( self , llm ):
        self . llm = llm
    
    def generate (
        self , nl_query : str , tables : list [ str ], config : dict
    ) -> Tuple [ str , dict ]:
        """Generate code for the given natural language query."""
        pass

    def execute (
        self , code : str , context : dict , log_name : str = None
    ) -> ChartExecutionResult :
        """Execute the given code with context and return the result"""
        pass

配置评估器。

    evaluator = Evaluator ( webdriver_path , vision_model )

（您可以在没有网络驱动程序和视觉模型的情况下配置评估器，在这种情况下，将跳过对生成的可视化的可读性的评估。）

安装网络驱动程序。

 # download
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
# install
apt install google-chrome-stable_current_amd64.deb
# verify
google-chrome --version

加载视觉模型（例如，GPT4-v）。

 from langchain_openai import AzureChatOpenAI

import dotenv
# Copy .env.example to .env and put your API keys in the file.
dotenv . load_dotenv ()

vision_model = AzureChatOpenAI (
    model_name = "gpt-4-turbo-v" ,
    max_retries = 999 ,
    temperature = 0.0 ,
    request_timeout = 20 ,
    max_tokens = 4096 ,
)

评价

 from viseval import Dataset

# Configure dataset with the benchmark dataset folder path ( folder), 
# specify the number of tables required to generate visualizations (table_type`: all, single, or multiple),
# and indicate whether to include irrelevant tables (`with_irrelevant_tables`).
dataset = Dataset ( folder , table_type , with_irrelevant_tables )

config = { "library" : args . library }
result = evaluator . evaluate ( agent , dataset , config )
score = result . score ()
print ( f"Score: { score } " )

贡献

该项目欢迎贡献和建议。大多数贡献都要求您同意贡献者许可协议 (CLA)，声明您有权并且实际上授予我们使用您的贡献的权利。有关详细信息，请访问 https://cla.opensource.microsoft.com。

当您提交拉取请求时，CLA 机器人将自动确定您是否需要提供 CLA 并适当地修饰 PR（例如，状态检查、评论）。只需按照机器人提供的说明进行操作即可。您只需使用我们的 CLA 在所有存储库中执行一次此操作。

该项目已采用 Microsoft 开源行为准则。有关详细信息，请参阅行为准则常见问题解答或联系 [email protected] 提出任何其他问题或意见。

商标

该项目可能包含项目、产品或服务的商标或徽标。 Microsoft 商标或徽标的授权使用须遵守且必须遵循 Microsoft 的商标和品牌指南。在此项目的修改版本中使用 Microsoft 商标或徽标不得引起混淆或暗示 Microsoft 赞助。对第三方商标或徽标的任何使用均须遵守这些第三方的政策。

隐私声明

本项目已采用微软隐私声明。

引文

如果您发现 VisEval 对您的研究有帮助，请考虑引用它：

 @misc{chen2024viseval,
      title={VisEval: A Benchmark for Data Visualization in the Era of Large Language Models}, 
      author={Nan Chen and Yuge Zhang and Jiahang Xu and Kan Ren and Yuqing Yang},
      year={2024},
      eprint={2407.00981},
      archivePrefix={arXiv},
      primaryClass={cs.HC},
}

展开

附加信息