pixeltable下载 - pixeltable源代码下载

Pixeltable 是一个 Python 库，为多模式数据（文本、图像、音频、视频）提供声明式接口。它具有内置版本控制、沿袭跟踪和增量更新功能，使用户能够为其 ML 工作流程存储、转换、索引和迭代数据。

数据转换、模型推理和自定义逻辑作为计算列嵌入。

加载/查询所有数据类型：与帧级别的视频数据和块级别的文档交互
数据转换的增量更新：维护与数据共置的嵌入索引
惰性评估和缓存管理：无需手动提取帧
与任何 Python 库集成：使用内置和自定义函数 (UDF)，无需复杂的管道
数据格式不可知和可扩展性：以 Parquet 文件、PyTorch 数据集或 COCO 注释的形式访问表

？安装

 pip install pixeltable

Pixeltable 是持久的。与 Pandas 等内存中 Python 库不同，Pixeltable 是一个数据库。

入门

了解如何创建表、向其中填充数据以及通过内置或用户定义的转换来增强它们。

话题	笔记本	话题	笔记本
Pixeltable 10 分钟导览		表和数据操作
用户定义函数 (UDF)		物体检测模型
增量即时工程		使用外部文件
与 Label Studio 集成		音频/视频转录索引
多式联运申请		文档索引和 RAG
上下文感知的 Discord 机器人		图片/文本相似度搜索

？代码示例

将媒体数据导入 Pixeltable（视频、图像、音频...）

 import pixeltable as pxt

v = pxt . create_table ( 'external_data.videos' , { 'video' : pxt . Video })

prefix = 's3://multimedia-commons/'
paths = [
    'data/videos/mp4/ffe/ffb/ffeffbef41bbc269810b2a1a888de.mp4' ,
    'data/videos/mp4/ffe/feb/ffefebb41485539f964760e6115fbc44.mp4' ,
    'data/videos/mp4/ffe/f73/ffef7384d698b5f70d411c696247169.mp4'
]
v . insert ({ 'video' : prefix + p } for p in paths )

了解如何使用 Pixeltable 中的数据。

使用 DETR 模型进行图像中的目标检测

 import pixeltable as pxt
from pixeltable . functions import huggingface

# Create a table to store data persistently
t = pxt . create_table ( 'image' , { 'image' : pxt . Image })

# Insert some images
prefix = 'https://upload.wikimedia.org/wikipedia/commons'
paths = [
    '/1/15/Cat_August_2010-4.jpg' ,
    '/e/e1/Example_of_a_Dog.jpg' ,
    '/thumb/b/bf/Bird_Diversity_2013.png/300px-Bird_Diversity_2013.png'
]
t . insert ({ 'image' : prefix + p } for p in paths )

# Add a computed column for image classification
t . add_computed_column ( classification = huggingface . detr_for_object_detection (
    t . image ,
    model_id = 'facebook/detr-resnet-50'
))

# Retrieve the rows where cats have been identified
t . select ( animal = t . image ,
         classification = t . classification . label_text [ 0 ]) 
. where ( t . classification . label_text [ 0 ] == 'cat' ). head ()

了解计算列和对象检测：比较对象检测模型。

使用用户定义的函数扩展 Pixeltable 的功能

 @ pxt . udf
def draw_boxes ( img : PIL . Image . Image , boxes : list [ list [ float ]]) -> PIL . Image . Image :
    result = img . copy ()  # Create a copy of `img`
    d = PIL . ImageDraw . Draw ( result )
    for box in boxes :
        d . rectangle ( box , width = 3 )  # Draw bounding box rectangles on the copied image
    return result

了解有关用户定义函数的更多信息：Pixeltable 中的 UDF。

使用视图自动化数据操作，例如将文档拆分为块

 # In this example, the view is defined by iteration over the chunks of a DocumentSplitter
chunks_table = pxt . create_view (
    'rag_demo.chunks' ,
    documents_table ,
    iterator = DocumentSplitter . create (
        document = documents_table . document ,
        separators = 'token_limit' , limit = 300 )
)

了解如何利用视图构建 RAG 工作流程。

评估模型性能

 # The computation of the mAP metric can become a query over the evaluation output
frames_view . select ( mean_ap ( frames_view . eval_yolox_tiny ), mean_ap ( frames_view . eval_yolox_m )). show ()

了解如何利用 Pixeltable 进行模型分析。

使用推理服务

 chat_table = pxt . create_table ( 'together_demo.chat' , { 'input' : pxt . String })

# The chat-completions API expects JSON-formatted input:
messages = [{ 'role' : 'user' , 'content' : chat_table . input }]

# This example shows how additional parameters from the Together API can be used in Pixeltable
chat_table . add_computed_column (
    output = chat_completions (
        messages = messages ,
        model = 'mistralai/Mixtral-8x7B-Instruct-v0.1' ,
        max_tokens = 300 ,
        stop = [ ' n ' ],
        temperature = 0.7 ,
        top_p = 0.9 ,
        top_k = 40 ,
        repetition_penalty = 1.1 ,
        logprobs = 1 ,
        echo = True
    )
)
chat_table . add_computed_column (
    response = chat_table . output . choices [ 0 ]. message . content
)

# Start a conversation
chat_table . insert ([
    { 'input' : 'How many species of felids have been classified?' },
    { 'input' : 'Can you make me a coffee?' }
])
chat_table . select ( chat_table . input , chat_table . response ). head ()

了解如何与 Pixeltable 中的 Together AI 等推理服务交互。

使用嵌入索引对视频帧进行文本和图像相似性搜索

 import pixeltable as pxt
from pixeltable . functions . huggingface import clip_image , clip_text
from pixeltable . iterators import FrameIterator
import PIL . Image

video_table = pxt . create_table ( 'videos' , { 'video' : pxt . Video })

video_table . insert ([{ 'video' : '/video.mp4' }])

frames_view = pxt . create_view (
    'frames' , video_table , iterator = FrameIterator . create ( video = video_table . video ))

@ pxt . expr_udf
def embed_image ( img : PIL . Image . Image ):
    return clip_image ( img , model_id = 'openai/clip-vit-base-patch32' )

@ pxt . expr_udf
def str_embed ( s : str ):
    return clip_text ( s , model_id = 'openai/clip-vit-base-patch32' )

# Create an index on the 'frame' column that allows text and image search
frames_view . add_embedding_index ( 'frame' , string_embed = str_embed , image_embed = embed_image )

# Now we will retrieve images based on a sample image
sample_image = '/image.jpeg'
sim = frames_view . frame . similarity ( sample_image )
frames_view . order_by ( sim , asc = False ). limit ( 5 ). select ( frames_view . frame , sim = sim ). collect ()

# Now we will retrieve images based on a string
sample_text = 'red truck'
sim = frames_view . frame . similarity ( sample_text )
frames_view . order_by ( sim , asc = False ). limit ( 5 ). select ( frames_view . frame , sim = sim ). collect ()

了解如何使用嵌入和向量索引。

人工智能堆栈比较

计算机视觉工作流程

要求	传统的	像素表
帧提取	ffmpeg + 自定义代码	通过 FrameIterator 自动
物体检测	多个脚本+缓存	单个计算列
视频索引	自定义管道+矢量数据库	原生相似性搜索
注释管理	单独的工具+自定义代码	标签工作室集成
模型评估	自定义指标管道	内置 mAP 计算

？法学硕士工作流程

要求	传统的	像素表
文档分块	工具+自定义代码	本机文档分割器
嵌入生成	独立管道+缓存	计算列
矢量搜索	外部矢量数据库	内置向量索引
及时管理	定制跟踪解决方案	版本控制列
连锁经营	工具+自定义代码	计算列 DAG

？多模式工作流程

要求	传统的	像素表
数据类型	多个存储系统	统一表格接口
跨模式搜索	复杂的集成	原生相似性支持
管道编排	多种工具（气流等）	单一声明式接口
资产管理	定制跟踪系统	自动血统
质量控制	多种验证工具	计算验证列

❓ 常见问题解答

什么是像素表？

Pixeltable 将数据存储、版本控制和索引与声明性表接口下的编排和模型版本控制相结合，并将转换、模型推理和自定义逻辑表示为计算列。

Pixeltable解决了什么问题？

当今的人工智能应用程序开发解决方案需要大量的自定义编码和基础设施管道。跟踪数据转换、模型和部署之间的沿袭和版本非常麻烦。 Pixeltable 让机器学习工程师和数据科学家能够专注于探索、建模和应用程序开发，而无需处理常规的数据管道。

Pixeltable 为我提供了什么？ Pixeltable 提供：

数据存储和版本控制
组合数据和模型谱系
索引（例如嵌入向量）和数据检索
多模式工作负载的编排
增量更新
代码自动投入生产

为什么要使用 Pixeltable？

它为您提供透明度和可重复性
- 所有生成的数据都会自动记录并版本化
- 您永远不需要因为丢失输入数据而重新运行工作负载
它可以帮你省钱
- 所有数据变更都会自动增量
- 您永远不需要从头开始重新运行管道，因为您正在添加数据
它与任何现有的 Python 代码或库集成
- 带来不断变化的代码和工作负载
- 您选择模型、工具和人工智能实践（例如，矢量索引的嵌入模型）； Pixeltable 编排数据