文档 |不和谐 |推特 |领英
albumentations 是一个用于图像增强的 Python 库。图像增强用于深度学习和计算机视觉任务,以提高训练模型的质量。图像增强的目的是从现有数据创建新的训练样本。
下面是一个示例,说明如何应用 Albumentations 中的一些像素级增强来从原始图像创建新图像:
完整的计算机视觉支持:适用于所有主要的 CV 任务,包括分类、分割(语义和实例)、对象检测和姿势估计。
简单、统一的 API :适用于所有数据类型的一致接口 - RGB/灰度/多光谱图像、蒙版、边界框和关键点。
丰富的增强库:70 多个高质量增强,可增强您的训练数据。
快速:始终被评为最快的增强库,并针对生产使用进行了优化。
深度学习集成:可与 PyTorch、TensorFlow 和其他框架配合使用。 PyTorch 生态系统的一部分。
由专家创建:由在计算机视觉和机器学习竞赛方面拥有丰富经验的开发人员构建。
专辑的蓬勃发展依赖于开发者的贡献。我们感谢帮助维持该项目基础设施的赞助商。
?金牌赞助商 |
---|
您的公司可能在这里 |
?银牌赞助商 |
---|
?铜牌赞助商 |
---|
您的赞助是向那些花费空闲时间构建和维护专辑的维护者和贡献者说“谢谢”的一种方式。赞助商在我们的网站和自述文件中都有介绍。在 GitHub Sponsors 上查看赞助级别
蛋白表达
系统信息
基准参数
库版本
Inria 数据集上的语义分割
医学影像
Mapillary Vistas 数据集上的对象检测和语义分割
关键点增强
像素级变换
空间级变换
参见
我是图像增强新手
我想使用 Albumentations 来执行特定任务,例如分类或分割
我想知道如何将Albumentations与深度学习框架结合使用
我想探索增强功能并了解专辑的实际应用
当前维护者
名誉核心团队成员
?成为赞助商
为什么选择专辑
社区驱动的项目,支持者
目录
作者
安装
文档
一个简单的例子
入门
谁在使用专辑
增强列表
再举几个增强的例子
基准测试结果
性能比较
贡献
社区
引用
弗拉基米尔·伊格洛维科夫| Kaggle大师
米哈伊尔·德鲁日宁| Kaggle 专家
亚历克斯·帕里诺夫|卡格大师
亚历山大·布斯拉耶夫|卡格大师
尤金·赫维琴亚| Kaggle大师
专辑需要 Python 3.9 或更高版本。要从 PyPI 安装最新版本:
pip install -U 专辑
其他安装选项在文档中进行了描述。
完整文档可在https://albumentations.ai/docs/获取。
import albumentations as Aimport cv2# 声明一个增强管道transform = A.Compose([A.RandomCrop(width=256, height=256),A.HorizontalFlip(p=0.5),A.RandomBrightnessContrast(p=0.2), ])# 使用 OpenCV 读取图像并将其转换为 RGB 色彩空间image = cv2.imread("image.jpg")image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)# 增强图像transformed = transform(image=image)transformed_image = 变换后的[“图像”]
请从介绍文章开始,了解为什么图像增强很重要以及它如何帮助构建更好的模型。
如果您想将 Albumentations 用于特定任务(例如分类、分割或对象检测),请参阅对此任务进行深入描述的文章集。我们还有一个针对不同用例应用专辑的示例列表。
我们有使用 Albumentations 以及 PyTorch 和 TensorFlow 的示例。
查看该库的在线演示。有了它,您可以将增强应用到不同的图像并查看结果。此外,我们还有所有可用增强功能及其目标的列表。
引用Albumentations 的论文列表。
使用Albumentations 的开源项目。
像素级变换将仅更改输入图像,并将保留任何其他目标(例如蒙版、边界框和关键点)不变。像素级变换列表:
加性噪声
高级模糊
自动对比
模糊
克拉赫
通道丢失
频道随机播放
色差
色彩抖动
散焦
缩小规模
浮雕
均衡
美国FDA
花式PCA
来自浮动
高斯噪声
高斯模糊
玻璃模糊
直方图匹配
色相饱和度值
ISO噪声
照明
图像压缩
反转图像
中值模糊
运动模糊
乘性噪声
标准化
像素分布自适应
普朗克抖动
等离子亮度对比度
等离子阴影
色调分离
RGB偏移
随机亮度对比
随机雾
随机伽玛
随机砾石
随机雨
随机阴影
随机雪
随机太阳耀斑
随机色调曲线
振铃过冲
盐和胡椒
锐化
散粒噪声
晒太阳
溅
超像素
模板转换
文本图像
浮动
至格雷
转RGB
至棕褐色
锐化蒙版
变焦模糊
空间级变换将同时更改输入图像以及其他目标,例如蒙版、边界框和关键点。下表显示了每个转换支持哪些附加目标。
转换 | 图像 | 面具 | B盒 | 要点 |
---|---|---|---|---|
仿射 | ✓ | ✓ | ✓ | ✓ |
BBoxSafeRandomCrop | ✓ | ✓ | ✓ | ✓ |
中心作物 | ✓ | ✓ | ✓ | ✓ |
粗略辍学 | ✓ | ✓ | ✓ | ✓ |
庄稼 | ✓ | ✓ | ✓ | ✓ |
作物和垫 | ✓ | ✓ | ✓ | ✓ |
CropNonEmptyMaskIfExists | ✓ | ✓ | ✓ | ✓ |
D4 | ✓ | ✓ | ✓ | ✓ |
弹性变换 | ✓ | ✓ | ✓ | ✓ |
擦除 | ✓ | ✓ | ✓ | ✓ |
频率掩蔽 | ✓ | ✓ | ✓ | ✓ |
网格畸变 | ✓ | ✓ | ✓ | ✓ |
网格丢失 | ✓ | ✓ | ✓ | ✓ |
网格弹性变形 | ✓ | ✓ | ✓ | ✓ |
水平翻转 | ✓ | ✓ | ✓ | ✓ |
拉姆达 | ✓ | ✓ | ✓ | ✓ |
最长最大尺寸 | ✓ | ✓ | ✓ | ✓ |
掩码丢失 | ✓ | ✓ | ✓ | ✓ |
形态学 | ✓ | ✓ | ✓ | ✓ |
无操作 | ✓ | ✓ | ✓ | ✓ |
光学畸变 | ✓ | ✓ | ✓ | ✓ |
覆盖元素 | ✓ | ✓ | ||
软垫 | ✓ | ✓ | ✓ | ✓ |
如果需要则填充 | ✓ | ✓ | ✓ | ✓ |
看法 | ✓ | ✓ | ✓ | ✓ |
分段仿射 | ✓ | ✓ | ✓ | ✓ |
像素丢失 | ✓ | ✓ | ✓ | ✓ |
随机裁剪 | ✓ | ✓ | ✓ | ✓ |
从边界随机裁剪 | ✓ | ✓ | ✓ | ✓ |
近框随机裁剪 | ✓ | ✓ | ✓ | ✓ |
随机网格洗牌 | ✓ | ✓ | ✓ | ✓ |
随机调整大小裁剪 | ✓ | ✓ | ✓ | ✓ |
随机旋转90 | ✓ | ✓ | ✓ | ✓ |
随机尺度 | ✓ | ✓ | ✓ | ✓ |
RandomSizedBBoxSafeCrop | ✓ | ✓ | ✓ | ✓ |
随机大小裁剪 | ✓ | ✓ | ✓ | ✓ |
调整大小 | ✓ | ✓ | ✓ | ✓ |
旋转 | ✓ | ✓ | ✓ | ✓ |
安全旋转 | ✓ | ✓ | ✓ | ✓ |
平移缩放旋转 | ✓ | ✓ | ✓ | ✓ |
最小最大尺寸 | ✓ | ✓ | ✓ | ✓ |
薄板样条 | ✓ | ✓ | ✓ | ✓ |
时间掩蔽 | ✓ | ✓ | ✓ | ✓ |
时间倒转 | ✓ | ✓ | ✓ | ✓ |
转置 | ✓ | ✓ | ✓ | ✓ |
垂直翻转 | ✓ | ✓ | ✓ | ✓ |
XY遮蔽 | ✓ | ✓ | ✓ | ✓ |
平台:macOS-15.0.1-arm64-arm-64bit
处理器:ARM
CPU 数量:10
Python版本:3.12.7
图片数量:1000
每次转换运行:10
最大预热迭代:1000
蛋白:1.4.20
八月:1.0.0
图片:0.4.0
科尼亚:0.7.3
火炬视觉:0.20.0
Number - 是单个 CPU 内核每秒处理的 uint8 RGB 图像的数量。越高越好。
转换 | 蛋白表达 1.4.20 | 丑陋的 1.0.0 | 伊姆高格 0.4.0 | 科尔尼亚 0.7.3 | 火炬视觉 0.20.0 |
---|---|---|---|---|---|
水平翻转 | 8618±1233 | 4807±818 | 6042±788 | 390±106 | 914±67 |
垂直翻转 | 22847 ± 2031 | 9153±1291 | 10931±1844 | 1212±402 | 3198±200 |
旋转 | 1146±79 | 1119±41 | 1136±218 | 143±11 | 181±11 |
仿射 | 682±192 | - | 774±97 | 147±9 | 130±12 |
均衡 | 892±61 | - | 581±54 | 152±19 | 479±12 |
随机裁剪80 | 47341±20523 | 25272±1822 | 11503±441 | 1510±230 | 32109±1241 |
改变RGB | 2349±76 | - | 1582±65 | - | - |
调整大小 | 2316±166 | 611±78 | 1806±63 | 232±24 | 195±4 |
随机伽玛 | 8675±274 | - | 2318±269 | 108±13 | - |
灰度 | 3056±47 | 2720±932 | 1681±156 | 289±75 | 1838±130 |
随机视角 | 412±38 | - | 554±22 | 86±11 | 96±5 |
高斯模糊 | 1728 ± 89 | 242±4 | 1090±65 | 176±18 | 79±3 |
中值模糊 | 868±60 | - | 813±30 | 5±0 | - |
运动模糊 | 4047±67 | - | 612±18 | 73±2 | - |
色调分离 | 9094±301 | - | 2097 ± 68 | 430±49 | 3196±185 |
Jpeg压缩 | 918±23 | 778±5 | 459±35 | 71±3 | 625±17 |
高斯噪声 | 166±12 | 67±2 | 206±11 | 75±1 | - |
松紧带 | 201±5 | - | 235±20 | 1±0 | 2±0 |
克拉赫 | 454±22 | - | 335±43 | 94±9 | - |
粗略辍学 | 13368±744 | - | 671±38 | 536±87 | - |
模糊 | 5267±543 | 246±3 | 3807±325 | - | - |
色彩抖动 | 628±55 | 255±13 | - | 55±18 | 46±2 |
亮度 | 8956±300 | 1163±86 | - | 472±101 | 429±20 |
对比 | 8879±1426 | 736±79 | - | 425±52 | 335±35 |
随机调整大小裁剪 | 2828±186 | - | - | 287±58 | 511±10 |
标准化 | 1196±56 | - | - | 626±40 | 519±12 |
普朗克抖动 | 2204±385 | - | - | 813±211 | - |
要创建对存储库的拉取请求,请按照 CONTRIBUTING.md 中的文档进行操作
领英
叽叽喳喳
不和谐
如果您发现该库对您的研究有用,请考虑引用Albumentations:快速灵活的图像增强:
@Article{info11020125,作者 = {Buslaev、Alexander 和 Iglovikov、Vladimir I. 和 Khvedchenya、Eugene 和 Parinov、Alex 和 Druzhinin、Mikhail 和 Kalinin、Alexandr A.},TITLE = {Albumentations:快速灵活的图像增强},期刊= {信息},体积 = {11},年份 = {2020},编号 = {2},文章编号 = {125},网址 = {https://www.mdpi.com/2078-2489/11/2/125},ISSN = {2078-2489}, DOI = {10.3390/info11020125}}