Machine Learning Guide下载 - Machine Learning Guide源码下载

Machine Learning Guide

其他源码

1.0.0

下载

机器学习指南

涵盖机器学习的指南，包括应用程序、库和工具，可帮助您更好、更高效地进行机器学习开发。

注意：您可以使用这个方便的扩展 Markdown PDF 在 VSCode 中轻松地将此 Markdown 文件转换为 PDF。

机器学习/深度学习框架。

机器学习学习资源
- 开发者资源
- 课程和认证
- 图书
- YouTube 教程
机器学习框架、库和工具
- 法学硕士培训框架
- 部署法学硕士的工具
- 在本地运行大型语言模型 (LLM)
算法
PyTorch 开发
TensorFlow 开发
核心机器学习开发
深度学习开发
强化学习开发
计算机视觉开发
自然语言处理 (NLP) 开发
生物信息学
CUDA开发
MATLAB开发
C/C++开发
Java开发
Python开发
斯卡拉开发
R开发
朱莉娅发展

机器学习学习资源

回到顶部

机器学习是人工智能 (AI) 的一个分支，专注于使用从数据模型中学习的算法构建应用程序，并随着时间的推移提高其准确性，而无需进行编程。

开发者资源

回到顶部

Microsoft 自然语言处理 (NLP) 最佳实践
微软自动驾驶手册
Azure 机器学习 - ML 即服务 |微软Azure
如何在 Azure 机器学习工作区中运行 Jupyter Notebook
机器学习和人工智能|亚马逊网络服务
在 Amazon SageMaker 临时实例上安排 Jupyter 笔记本
人工智能与机器学习 |谷歌云
在 Google Cloud 上将 Jupyter Notebook 与 Apache Spark 结合使用
机器学习 |苹果开发者
人工智能与自动驾驶 |特斯拉
元人工智能工具 | Facebook
PyTorch 教程
TensorFlow 教程
Jupyter实验室
Apple Silicon 上的 Core ML 稳定扩散

课程和认证

回到顶部

斯坦福大学的机器学习作者：Andrew Ng | Coursera
AWS 机器学习 (ML) 课程培训和认证
Microsoft Azure 机器学习奖学金计划 |优达学城
Microsoft 认证：Azure 数据科学家助理
微软认证：Azure AI 工程师助理
Azure 机器学习培训和部署
通过 Google Cloud Training 学习机器学习和人工智能
Google Cloud 机器学习速成课程
在线机器学习课程 |乌德米
在线机器学习课程 | Coursera
通过在线课程学习机器学习 | edX

图书

回到顶部

机器学习简介 (PDF)
人工智能：一种现代方法作者：Stuart J. Russel 和 Peter Norvig
深度学习作者：Ian Goodfellow、Yoshoua Bengio 和 Aaron Courville
Andriy Burkov 的百页机器学习书
- GitHub 上的百页机器学习书籍
机器学习，作者：Tom M. Mitchell
编程集体智慧：构建智能 Web 2.0 应用程序，作者：Toby Segaran
机器学习：算法视角，第二版
模式识别和机器学习作者：Christopher M. Bishop
使用 Python 进行自然语言处理作者：Steven Bird、Ewan Klein 和 Edward Loper
Python 机器学习：面向初学者的机器学习技术方法作者：Leonard Eddison
贝叶斯推理和机器学习作者：David Barber
面向绝对初学者的机器学习：奥利弗·西奥博尔德 (Oliver Theobald) 的简单英语介绍
机器学习的实际应用作者：Ben Wilson
使用 Scikit-Learn、Keras 和 TensorFlow 进行机器学习实践：构建智能系统的概念、工具和技术作者：Aurélien Géron
Python 机器学习简介：数据科学家指南作者：Andreas C. Müller 和 Sarah Guido
黑客机器学习：帮助您入门的案例研究和算法作者：Drew Conway 和 John Myles White
《统计学习的要素：数据挖掘、推理和预测》作者：Trevor Hastie、Robert Tibshirani 和 Jerome Friedman
分布式机器学习模式 - 书籍（免费在线阅读）+代码
现实世界的机器学习 [免费章节]
统计学习简介 - 书 + R 代码
统计学习的要素 - 书
Think Bayes - 书籍 + Python 代码
挖掘海量数据集
第一次接触机器学习
机器学习简介 - Alex Smola 和 SVN Vishwanathan
模式识别的概率理论
信息检索简介
预测：原理与实践
机器学习简介 - Amnon Shashua
强化学习
机器学习
对人工智能的探索
数据科学 R 编程
数据挖掘 - 实用的机器学习工具和技术
使用 TensorFlow 进行机器学习
机器学习系统
机器学习基础 - Mehryar Mohri、Afshin Rostamizadeh 和 Ameet Talwalkar
人工智能驱动的搜索 - Trey Grainger、Doug Turnbull、Max Irwin -
机器学习的集成方法 - Gautam Kunapuli
机器学习工程实践 - Ben Wilson
隐私保护机器学习 - J. Morris Chang、Di Zhuang、G. Dumindu Samaraweera
自动化机器学习的实际应用 - Qingquan Song、Haifeng Jin 和 Xia Hu
分布式机器学习模式 - Yuan Tang
管理机器学习项目：从设计到部署 - Simon Thompson
因果机器学习 - Robert Ness
贝叶斯优化实践 - Quan Nguyen
深度机器学习算法）- Vadim Smolyakov
优化算法 - Alaa Khamis
Guillaume Saupin 的实用梯度提升

YouTube 教程

回到顶部

机器学习框架、库和工具

回到顶部

TensorFlow 是一个用于机器学习的端到端开源平台。它拥有一个由工具、库和社区资源组成的全面、灵活的生态系统，使研究人员能够推动机器学习领域的最先进技术，并使开发人员能够轻松构建和部署机器学习驱动的应用程序。

Keras 是一种高级神经网络 API，用 Python 编写，能够在 TensorFlow、CNTK 或 Theano 之上运行。它的开发重点是实现快速实验。它能够在 TensorFlow、Microsoft Cognitive Toolkit、R、Theano 或 PlaidML 上运行。

PyTorch 是一个用于对不规则输入数据（例如图形、点云和流形）进行深度学习的库。主要由 Facebook 的人工智能研究实验室开发。

Amazon SageMaker 是一项完全托管的服务，让每位开发人员和数据科学家能够快速构建、训练和部署机器学习 (ML) 模型。 SageMaker 消除了机器学习过程每个步骤的繁重工作，使开发高质量模型变得更加容易。

Azure Databricks 是一项基于 Apache Spark 的快速协作大数据分析服务，专为数据科学和数据工程而设计。 Azure Databricks 可在几分钟内设置 Apache Spark 环境、自动缩放并在交互式工作区中协作处理共享项目。 Azure Databricks 支持 Python、Scala、R、Java 和 SQL，以及数据科学框架和库，包括 TensorFlow、PyTorch 和 scikit-learn。

Microsoft Cognitive Toolkit (CNTK) 是一个用于商业级分布式深度学习的开源工具包。它将神经网络描述为通过有向图的一系列计算步骤。 CNTK 允许用户轻松实现和组合流行的模型类型，例如前馈 DNN、卷积神经网络 (CNN) 和循环神经网络 (RNN/LSTM)。 CNTK 通过跨多个 GPU 和服务器的自动微分和并行化实现随机梯度下降（SGD，误差反向传播）学习。

Apple CoreML 是一个有助于将机器学习模型集成到您的应用程序中的框架。 Core ML 为所有模型提供统一的表示。您的应用程序使用 Core ML API 和用户数据来进行预测以及训练或微调模型，所有这些都在用户的设备上进行。模型是将机器学习算法应用于一组训练数据的结果。您使用模型根据新的输入数据进行预测。

Apache OpenNLP 是一个开源库，用于基于机器学习的工具包，用于处理自然语言文本。它具有适用于命名实体识别、句子检测、POS（词性）标记、标记化特征提取、分块、解析和共指解析等用例的 API。

Apache Airflow 是一个由社区创建的开源工作流管理平台，用于以编程方式编写、安排和监控工作流。安装。原则。可扩展。 Airflow 具有模块化架构，并使用消息队列来编排任意数量的工作人员。气流已准备好扩展到无穷大。

开放神经网络交换 (ONNX) 是一个开放的生态系统，使人工智能开发人员能够随着项目的发展选择正确的工具。 ONNX 为人工智能模型（深度学习和传统机器学习）提供开源格式。它定义了可扩展的计算图模型，以及内置运算符和标准数据类型的定义。

Apache MXNet 是一个专为提高效率和灵活性而设计的深度学习框架。它允许您混合符号和命令式编程，以最大限度地提高效率和生产力。 MXNet 的核心包含一个动态依赖调度程序，可以动态自动并行化符号操作和命令操作。其之上的图形优化层使符号执行快速且内存高效。 MXNet 便携且轻量级，可有效扩展到多个 GPU 和多台机器。支持 Python、R、Julia、Scala、Go、Javascript 等。

AutoGluon 是深度学习工具包，可自动执行机器学习任务，使您能够在应用程序中轻松实现强大的预测性能。只需几行代码，您就可以在表格、图像和文本数据上训练和部署高精度深度学习模型。

Anaconda 是一个非常流行的机器学习和深度学习数据科学平台，使用户能够开发模型、训练和部署模型。

PlaidML 是一种先进的便携式张量编译器，可在笔记本电脑、嵌入式设备或其他可用计算硬件未得到很好支持或可用软件堆栈包含令人不快的许可限制的设备上实现深度学习。

OpenCV 是一个高度优化的库，专注于实时计算机视觉应用。 C++、Python 和 Java 接口支持 Linux、MacOS、Windows、iOS 和 Android。

Scikit-Learn 是一个基于 SciPy、NumPy 和 matplotlib 构建的用于机器学习的 Python 模块，可以更轻松地应用许多流行机器学习算法的强大而简单的实现。

Weka 是一款开源机器学习软件，可以通过图形用户界面、标准终端应用程序或 Java API 进行访问。它广泛用于教学、研究和工业应用，包含大量用于标准机器学习任务的内置工具，并且还提供对 scikit-learn、R 和 Deeplearning4j 等知名工具箱的透明访问。

Caffe 是一个深度学习框架，考虑到了表达、速度和模块化。它由伯克利人工智能研究中心 (BAIR)/伯克利视觉与学习中心 (BVLC) 和社区贡献者开发。

Theano 是一个 Python 库，可让您有效地定义、优化和评估涉及多维数组的数学表达式，包括与 NumPy 的紧密集成。

nGraph 是一个用于深度学习的开源 C++ 库、编译器和运行时。 nGraph 编译器旨在使用任何深度学习框架加速开发 AI 工作负载并部署到各种硬件目标。它为 AI 开发人员提供自由、性能和易用性。

NVIDIA cuDNN 是一个 GPU 加速的深度神经网络基元库。 cuDNN 为标准例程（例如前向和后向卷积、池化、归一化和激活层）提供高度调整的实现。 cuDNN 可加速广泛使用的深度学习框架，包括 Caffe2、Chainer、Keras、MATLAB、MxNet、PyTorch 和 TensorFlow。

Huginn 是一个自托管系统，用于构建代理，为您在线执行自动化任务。它可以读取网络、监视事件并代表您采取操作。 Huginn 的代理创建并使用事件，并沿着有向图传播它们。将其视为您自己的服务器上的 IFTTT 或 Zapier 的可破解版本。

Netron 是神经网络、深度学习和机器学习模型的查看器。它支持 ONNX、TensorFlow Lite、Caffe、Keras、Darknet、PaddlePaddle、ncnn、MNN、Core ML、RKNN、MXNet、MindSpore Lite、TNN、Barracuda、Tengine、CNTK、TensorFlow.js、Caffe2 和 UFF。

多巴胺是一个用于强化学习算法快速原型设计的研究框架。

DALI 是一个 GPU 加速库，包含高度优化的构建块和用于数据处理的执行引擎，以加速深度学习训练和推理应用程序。

MindSpore Lite 是一个新的开源深度学习训练/推理框架，可用于移动、边缘和云场景。

Darknet 是一个用 C 和 CUDA 编写的开源神经网络框架。它速度快、易于安装，并支持 CPU 和 GPU 计算。

PaddlePaddle是一个易用、高效、灵活、可扩展的深度学习平台，最初由百度科学家和工程师开发，旨在将深度学习应用到百度的众多产品中。

GoogleNotebookLM 是一种实验性 AI 工具，利用语言模型的强大功能与您现有的内容相结合，更快地获得关键见解。类似于虚拟研究助理，可以总结事实，解释复杂的想法，并根据您选择的来源集思广益新的联系。

Unilm 是一种跨任务、语言和模式的大规模自我监督预训练。

语义内核 (SK) 是一种轻量级 SDK，可将 AI 大语言模型 (LLM) 与传统编程语言集成。 SK 可扩展编程模型结合了自然语言语义功能、传统代码本机功能和基于嵌入的内存，释放了新的潜力，并为人工智能应用程序增加了价值。

Pandas AI 是一个 Python 库，它将生成人工智能功能集成到 Pandas 中，使数据帧具有对话性。

NCNN 是针对移动平台优化的高性能神经网络推理框架。

MNN 是一个极快的轻量级深度学习框架，经过阿里巴巴关键业务用例的实际测试。

MediaPipe 针对多种平台上的端到端性能进行了优化。查看演示了解更多复杂的设备上 ML，已简化我们已经抽象化了使设备上 ML 可定制、可用于生产且可跨平台访问的复杂性。

MegEngine 是一个快速、可扩展且用户友好的深度学习框架，具有 3 个关键功能：用于训练和推理的统一框架。

ML.NET 是一个机器学习库，被设计为可扩展平台，以便您可以使用其他流行的 ML 框架（TensorFlow、ONNX、Infer.NET 等）并访问更多机器学习场景，例如图像分类、物体检测等等。

Ludwig 是一个声明性机器学习框架，可以使用简单而灵活的数据驱动配置系统轻松定义机器学习管道。

MMdnn 是一款全面的跨框架工具，用于转换、可视化和诊断深度学习 (DL) 模型。 “MM”代表模型管理，“dnn”是深度神经网络的缩写。在 Caffe、Keras、MXNet、Tensorflow、CNTK、PyTorch Onnx 和 CoreML 之间转换模型。

Horovod 是一个适用于 TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式深度学习训练框架。

Vaex 是一个高性能 Python 库，用于惰性外核数据帧（类似于 Pandas），用于可视化和探索大型表格数据集。

GluonTS 是一个用于概率时间序列建模的 Python 包，专注于基于深度学习的模型，基于 PyTorch 和 MXNet。

MindsDB 是一个 ML-SQL Server，支持使用 SQL 为最强大的数据库和数据仓库提供机器学习工作流程。

Jupyter Notebook 是一款开源 Web 应用程序，可让您创建和共享包含实时代码、方程、可视化和叙述文本的文档。 Jupyter 广泛应用于数据清理和转换、数值模拟、统计建模、数据可视化、数据科学和机器学习等行业。

Apache Spark 是用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API，以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具，包括用于 SQL 和 DataFrames 的 Spark SQL、用于机器学习的 MLlib、用于图形处理的 GraphX 以及用于流处理的 Structured Streaming。

适用于 SQL Server 和 Azure SQL 的 Apache Spark 连接器是一种高性能连接器，使您能够在大数据分析中使用事务数据，并保留临时查询或报告的结果。该连接器允许您使用本地或云中的任何 SQL 数据库作为 Spark 作业的输入数据源或输出数据接收器。

Apache PredictionIO 是一个面向开发人员、数据科学家和最终用户的开源机器学习框架。它支持事件收集、算法部署、评估、通过 REST API 查询预测结果。它基于 Hadoop、HBase（和其他数据库）、Elasticsearch、Spark 等可扩展的开源服务，并实现了所谓的 Lambda 架构。

Cluster Manager for Apache Kafka（CMAK）是一个用于管理 Apache Kafka 集群的工具。

BigDL 是 Apache Spark 的分布式深度学习库。借助 BigDL，用户可以将深度学习应用程序编写为标准 Spark 程序，这些程序可以直接在现有 Spark 或 Hadoop 集群之上运行。

Eclipse Deeplearning4J (DL4J) 是一组项目，旨在支持基于 JVM（Scala、Kotlin、Clojure 和 Groovy）深度学习应用程序的所有需求。这意味着从原始数据开始，从任何地方、任何格式加载和预处理它，以构建和调整各种简单和复杂的深度学习网络。

Tensorman 是由 System76 开发的一个用于轻松管理 Tensorflow 容器的实用程序。Tensorman 允许 Tensorflow 在与系统其余部分隔离的隔离环境中运行。该虚拟环境可以独立于基本系统运行，允许您在支持 Docker 运行时的任何版本的 Linux 发行版上使用任何版本的 Tensorflow。

Numba 是一个开源的、支持 NumPy 的 Python 优化编译器，由 Anaconda, Inc. 赞助。它使用 LLVM 编译器项目从 Python 语法生成机器代码。 Numba 可以编译大量以数字为中心的 Python 子集，包括许多 NumPy 函数。此外，Numba 支持循环的自动并行化、GPU 加速代码的生成以及 ufunc 和 C 回调的创建。

Chainer 是一个基于 Python 的深度学习框架，旨在实现灵活性。它提供基于运行定义方法（动态计算图）的自动微分 API 以及面向对象的高级 API 来构建和训练神经网络。它还支持使用 CuPy 的 CUDA/cuDNN 进行高性能训练和推理。

XGBoost 是一个优化的分布式梯度提升库，旨在高效、灵活和便携。它在 Gradient Boosting 框架下实现机器学习算法。 XGBoost 提供了并行树提升（也称为 GBDT、GBM），可以快速准确地解决许多数据科学问题。它支持多台机器上的分布式训练，包括AWS、GCE、Azure和Yarn集群。它还可以与Flink、Spark等云数据流系统集成。

cuML 是一套库，用于实现机器学习算法和数学原语函数，与其他 RAPIDS 项目共享兼容的 API。 cuML 使数据科学家、研究人员和软件工程师能够在 GPU 上运行传统的表格 ML 任务，而无需深入了解 CUDA 编程的细节。在大多数情况下，cuML 的 Python API 与 scikit-learn 的 API 匹配。

Emu 是 Rust 的 GPGPU 库，重点关注可移植性、模块化和性能。它是基于 WebGPU 的 CUDA 式计算特定抽象，提供特定功能以使 WebGPU 感觉更像 CUDA。

Scalene 是一个适用于 Python 的高性能 CPU、GPU 和内存分析器，它可以完成许多其他 Python 分析器没有也不能做的事情。它的运行速度比许多其他分析器快几个数量级，同时提供更详细的信息。

MLpack 是一个用 C++ 编写的快速、灵活的 C++ 机器学习库，构建在 Armadillo 线性代数库、ensmallen 数值优化库和 Boost 的部分基础上。

Netron 是神经网络、深度学习和机器学习模型的查看器。它支持 ONNX、TensorFlow Lite、Caffe、Keras、Darknet、PaddlePaddle、ncnn、MNN、Core ML、RKNN、MXNet、MindSpore Lite、TNN、Barracuda、Tengine、CNTK、TensorFlow.js、Caffe2 和 UFF。

Lightning 是一种构建和训练 PyTorch 模型并使用 Lightning 应用程序模板将它们连接到 ML 生命周期的工具，无需处理 DIY 基础设施、成本管理、扩展等。

OpenNN 是一个用于机器学习的开源神经网络库。它包含复杂的算法和实用程序来处理许多人工智能解决方案。

H20 是一个人工智能云平台，可解决复杂的业务问题并加速新想法的发现，并提供您可以理解和信任的结果。

Gensim 是一个用于主题建模、文档索引和大型语料库相似性检索的 Python 库。目标受众是自然语言处理 (NLP) 和信息检索 (IR) 社区。

llama.cpp 是 Facebook 的 LLaMA 模型的 C/C++ 端口。

hmmlearn 是一组用于隐马尔可夫模型的无监督学习和推理的算法。

Nextjournal 是一个用于可重复研究的笔记本。它运行您可以放入 Docker 容器中的任何内容。通过多语言笔记本、自动版本控制和实时协作改进您的工作流程。通过按需配置（包括 GPU 支持）节省时间和金钱。

IPython 为交互式计算提供了丰富的架构：

一个强大的交互式 shell。
Jupyter 的内核。
支持交互式数据可视化和 GUI 工具包的使用。
灵活的、可嵌入的解释器可以加载到您自己的项目中。
易于使用的高性能并行计算工具。

Veles 是三星目前开发的一个用于快速深度学习应用程序开发的分布式平台。

DyNet 是由卡内基梅隆大学和其他许多大学开发的神经网络库。它是用 C++ 编写的（在 Python 中绑定），旨在在 CPU 或 GPU 上运行时高效，并且能够与具有针对每个训练实例而变化的动态结构的网络良好地配合。这类网络在自然语言处理任务中尤其重要，DyNet 已被用来构建用于句法解析、机器翻译、形态变化和许多其他应用领域的最先进的系统。

Ray 是用于扩展 AI 和 Python 应用程序的统一框架。它由核心分布式运行时和用于加速 ML 工作负载的库工具包 (Ray AIR) 组成。

Whisper.cpp 是 OpenAI 的 Whisper 自动语音识别 (ASR) 模型的高性能推理。

ChatGPT Plus 是 ChatGPT 的试点订阅计划（ 20 美元/月），ChatGPT 是一种对话式 AI，可以与您聊天、回答后续问题并挑战不正确的假设。

Auto-GPT 是一种“人工智能代理”，它以自然语言给出目标，可以尝试通过将其分解为子任务并在自动循环中使用互联网和其他工具来实现它。它使用 OpenAI 的 GPT-4 或 GPT-3.5 API，是使用 GPT-4 执行自主任务的应用程序的首批示例之一。

mckaywrigley 开发的 Chatbot UI 是一款适用于 OpenAI 聊天模型的高级聊天机器人套件，使用 Next.js、TypeScript 和 Tailwind CSS 在 Chatbot UI Lite 之上构建。此版本的 ChatBot UI 支持 GPT-3.5 和 GPT-4 模型。对话存储在您的浏览器本地。您可以导出和导入对话以防止数据丢失。查看演示。

mckaywrigley 开发的 Chatbot UI Lite 是一个简单的聊天机器人入门套件，适用于使用 Next.js、TypeScript 和 Tailwind CSS 的 OpenAI 聊天模型。查看演示。

MiniGPT-4 是一种通过高级大语言模型增强视觉语言理解的方法。

GPT4All 是一个开源聊天机器人生态系统，经过大量干净助理数据的训练，包括基于 LLaMa 的代码、故事和对话。

GPT4All UI 是一个 Flask Web 应用程序，提供用于与 GPT4All 聊天机器人交互的聊天 UI。

Alpaca.cpp 是您设备上本地的一个类似 ChatGPT 的快速模型。它将 LLaMA 基础模型与斯坦福羊驼的开放复制相结合，对基础模型进行微调以服从指令（类似于用于训练 ChatGPT 的 RLHF），并对 llama.cpp 进行了一系列修改以添加聊天界面。

llama.cpp 是 Facebook 的 LLaMA 模型的 C/C++ 端口。

OpenPlayground 是一个在您的设备上本地运行类似 ChatGPT 模型的游乐场。

Vicuna 是一个经过微调 LLaMA 训练的开源聊天机器人。它显然达到了 chatgpt 90% 以上的质量，并且训练成本为 300 美元。

Yeagar ai 是一款 Langchain 代理创建器，旨在帮助您轻松构建、原型设计和部署人工智能驱动的代理。

Vicuna 是通过使用从 ShareGPT.com 和公共 API 收集的大约 7 万个用户共享对话对 LLaMA 基本模型进行微调而创建的。为了确保数据质量，它将 HTML 转换回 Markdown，并过滤掉一些不合适或低质量的样本。

ShareGPT 是一个一键分享您最疯狂的 ChatGPT 对话的地方。截至目前，共有 198,404 条对话被分享。

FastChat 是一个开放平台，用于训练、服务和评估基于大型语言模型的聊天机器人。

Haystack 是一个开源 NLP 框架，可使用 Transformer 模型和 LLM（GPT-4、ChatGPT 等）与数据进行交互。它提供生产就绪的工具来快速构建复杂的决策、问答、语义搜索、文本生成应用程序等。

StableLM（Stability AI Language Models）是StableLM系列语言模型，并将不断更新新的检查点。

Databricks 的 Dolly 是一种遵循指令的大型语言模型，在 Databricks 机器学习平台上进行训练，并获得商业用途许可。

GPTCach 是一个用于为 LLM 查询创建语义缓存的库。

AlaC 是一个人工智能基础设施即代码生成器。

Adrenaline 是一个可让您与代码库对话的工具。它由静态分析、向量搜索和大型语言模型提供支持。

OpenAssistant 是一个基于聊天的助手，它可以理解任务，可以与第三方系统交互，并动态检索信息来执行此操作。

DoctorGPT 是一个轻量级的独立二进制文件，可以监视应用程序日志中的问题并进行诊断。

HttpGPT 是一个虚幻引擎 5 插件，可通过异步 REST 请求促进与 OpenAI 基于 GPT 的服务（ChatGPT 和 DALL-E）的集成，使开发人员可以轻松地与这些服务进行通信。它还包括编辑器工具，可将 Chat GPT 和 DALL-E 图像生成直接集成到引擎中。

PaLM 2 是下一代大型语言模型，建立在 Google 在机器学习和负责任的 AI 领域突破性研究的基础上。它包括高级推理任务，包括代码和数学、分类和问答、翻译和多语言能力以及自然语言生成，比我们以前最先进的法学硕士更好。

Med-PaLM 是一个大型语言模型 (LLM)，旨在为医学问题提供高质量的答案。它利用了 Google 大型语言模型的强大功能，我们通过一系列精心策划的医学专家演示将其与医学领域结合起来。

Sec-PaLM 是一种大型语言模型 (LLM)，可加快帮助负责维护组织安全的人员的能力。这些新模型不仅为人们提供了一种更自然、更有创意的方式来理解和管理安全。

法学硕士培训框架

回到顶部

Alpa 是一个用于训练和服务大规模神经网络的系统。
BayLing - 具有高级语言对齐能力的英汉法学硕士，在英汉生成、指令跟踪和多轮交互方面表现出卓越的能力。
BLOOM - BigScience 大型开放科学开放获取多语言语言模型 BLOOM-LoRA
Cerebras-GPT - 一系列开放、计算效率高的大型语言模型。
DeepSpeed 是一个深度学习优化库，使分布式训练和推理变得简单、高效、有效。
FairScale 是一个用于高性能和大规模训练的 PyTorch 扩展库。该库扩展了基本的 PyTorch 功能，同时添加了新的 SOTA 扩展技术。
GLM-GLM 是一种使用自回归填空目标进行预训练的通用语言模型，可以针对各种自然语言理解和生成任务进行微调。
OpenFlamingo 是 DeepMind Flamingo 的开源框架实现，用于训练大型多模态模型。
OPT - 开放预训练的 Transformer 语言模型。
StarCoder - 拥抱代码法学硕士
UltraLM - 大规模、信息丰富、多样化的多轮聊天模型。
UL2 - 预训练模型的统一框架，在数据集和设置中普遍有效。

部署LLM的工具

回到顶部

Agenta - 轻松构建、版本化、评估和部署 LLM 支持的应用程序。
BentoML 适用于基于法学硕士的应用程序。
CometLLM - 一个开源 LLMOps 平台，用于记录、管理和可视化您的 LLM 提示和链。跟踪提示模板、提示变量、提示持续时间、令牌使用情况和其他元数据。对提示输出进行评分并可视化聊天历史记录，所有这些都在单个 UI 中完成。
FastChat - 分布式多模型 LLM 服务系统，具有 Web UI 和 OpenAI 兼容的 RESTful API。
Embedchain - 在数据集上创建类似 ChatGPT 的机器人的框架。
IntelliServer - 通过提供统一的微服务来访问和测试多个 AI 模型，简化了 LLM 的评估。
Haystack - 一个开源 NLP 框架，允许您使用 Hugging Face、OpenAI 和 Cohere 的 LLM 和基于转换器的模型与您自己的数据进行交互。
Langroid - 利用多代理编程的法学硕士。
LangChain - 通过可组合性与法学硕士构建应用程序。
LiteChain - 用于编写 LLM 的 LangChain 的轻量级替代品。
Magentic - 将 LLM 无缝集成为 Python 函数。
Promptfoo - 测试你的提示。评估和比较 LLM 输出、捕获回归并提高提示质量。
OpenLLM 是一个用于在生产中操作大型语言模型 (LLM) 的开放平台。轻松微调、服务、部署和监控任何法学硕士。
Serge - 使用 llama.cpp 制作的聊天界面，用于运行 Alpaca 模型。没有 API 密钥，完全自托管！
SkyPilot - 在任何云上运行法学硕士和批处理作业。获得最大程度的成本节约、最高的 GPU 可用性和托管执行——所有这些都通过一个简单的界面实现。
文本生成推理 - 用于文本生成推理的 Rust、Python 和 gRPC 服务器。在 HuggingFace 的生产中用于为法学硕士 api 推理小部件提供支持。
vLLM - 用于 LLM 的高吞吐量和内存高效的推理和服务引擎。

在本地运行法学硕士

回到顶部

本地运行 Llama 2 的综合指南
lmsys.org 排行榜
LLM-排行榜
通过 Hugging Face 打开 LLM 排行榜
语言模型的整体评估 (HELM)
TextSynth 服务器基准测试

LocalAI 是一个自托管、社区驱动、本地 OpenAI 兼容的 API。在消费级硬件上运行 LLM 的 OpenAI 的直接替代品，无需 GPU。它是一个运行 ggml 兼容模型的 API：llama、gpt4all、rwkv、whisper、vicuna、koala、gpt4all-j、cerebras、falcon、dolly、starcoder 等。

llama.cpp 是 Facebook 的 LLaMA 模型的 C/C++ 端口。

ollama 是一个在本地启动并运行 Llama 2 和其他大型语言模型的工具。

LocalAI 是一个自托管、社区驱动、本地 OpenAI 兼容的 API。在消费级硬件上运行 LLM 的 OpenAI 的直接替代品，无需 GPU。它是一个运行 ggml 兼容模型的 API：llama、gpt4all、rwkv、whisper、vicuna、koala、gpt4all-j、cerebras、falcon、dolly、starcoder 等。

Serge 是一个通过 llama.cpp 与 Alpaca 聊天的 Web 界面。完全自托管和 Docker 化，具有易于使用的 API。

OpenLLM 是一个用于在生产中操作大型语言模型 (LLM) 的开放平台。轻松微调、服务、部署和监控任何法学硕士。

Llama-gpt 是一个自托管、离线、类似 ChatGPT 的聊天机器人。由 Llama 2 提供支持。100% 私密，不会有任何数据离开您的设备。

Llama2 webui 是一个工具，可以从任何地方（Linux/Windows/Mac）在 GPU 或 CPU 上使用 gradio UI 本地运行任何 Llama 2。使用llama2-wrapper作为生成代理/应用程序的本地 llama2 后端。

Llama2.c 是一种在 PyTorch 中训练 Llama 2 LLM 架构的工具，然后使用一个简单的 700 行 C 文件 (run.c) 对其进行推理。

Alpaca.cpp 是您设备上本地的类似 ChatGPT 的快速模型。它将 LLaMA 基础模型与斯坦福羊驼的开放复制相结合，对基础模型进行微调以服从指令（类似于用于训练 ChatGPT 的 RLHF），并对 llama.cpp 进行了一系列修改以添加聊天界面。

GPT4All 是一个开源聊天机器人生态系统，经过大量干净助理数据的训练，包括基于 LLaMa 的代码、故事和对话。

MiniGPT-4 是一种通过高级大语言模型增强视觉语言理解的工具

LoLLMS WebUI 是 LLM（大型语言模型）模型的中心。它旨在提供一个用户友好的界面来访问和利用各种 LLM 模型来完成广泛的任务。无论您在写作、编码、组织数据、生成图像还是寻求问题答案方面需要帮助。

LM Studio 是一个用于发现、下载和运行本地 LLM 的工具。

Gradio Web UI 是大型语言模型的工具。支持 Transformer、GPTQ、llama.cpp (ggml/gguf)、Llama 模型。

OpenPlayground 是一个在您的设备上本地运行类似 ChatGPT 模型的游乐场。

Vicuna 是一个开源聊天机器人，经过微调 LLaMA 训练。它显然达到了 chatgpt 90% 以上的质量，并且训练成本为 300 美元。

Yeagar ai 是一款 Langchain Agent 创建者，旨在帮助您轻松构建、原型化和部署 AI 支持的代理。

KoboldCpp 是一款易于使用的 GGML 模型 AI 文本生成软件。它是来自 Concedo 的一个独立的可发行版本，基于 llama.cpp 构建，并添加了多功能 Kobold API 端点、附加格式支持、向后兼容性，以及带有持久故事、编辑工具、保存格式、内存、世界的精美 UI信息、作者注释、人物和场景。

算法

回到顶部

模糊逻辑是一种启发式方法，允许更高级的决策树处理以及与基于规则的编程更好的集成。

模糊逻辑系统的体系结构。资料来源：ResearchGate

支持向量机（SVM）是一种监督机器学习模型，它使用分类算法来解决两组分类问题。

支持向量机（SVM）。来源：OpenClipArt

神经网络是机器学习的一个子集，是深度学习算法的核心。这一名称/结构的灵感来自于人类大脑复制生物神经元/节点相互发送信号的过程。

深度神经网络。资料来源：IBM

卷积神经网络 (R-CNN) 是一种对象检测算法，它首先对图像进行分割以查找潜在的相关边界框，然后运行检测算法以查找这些边界框中最可能的对象。

卷积神经网络。来源：CS231n

循环神经网络（RNN）是一种使用顺序数据或时间序列数据的人工神经网络。

循环神经网络。资料来源：幻灯片团队

多层感知器（MLP）是由具有阈值激活的多层感知器组成的多层神经网络。

多层感知器。来源：深人工智能

随机森林是一种常用的机器学习算法，它将多个决策树的输出组合起来以获得单个结果。森林中的决策树无法进行修剪以进行采样，因此无法进行预测选择。它的易用性和灵活性推动了它的采用，因为它可以处理分类和回归问题。

随机森林。来源：维基媒体

决策树是用于分类和回归的树结构模型。

**决策树。资料来源：卡耐基梅隆大学

朴素贝叶斯是一种机器学习算法，用于解决分类问题。它基于应用贝叶斯定理以及特征之间的强独立性假设。

贝叶斯定理。来源：mathisfun

PyTorch 开发

回到顶部

PyTorch 学习资源

PyTorch 是一个开源深度学习框架，可加速从研究到生产的过程，用于计算机视觉和自然语言处理等应用。 PyTorch 由 Facebook 的人工智能研究实验室开发。

PyTorch 入门

PyTorch 文档

PyTorch 论坛

PyTorch 工具、库和框架

PyTorch Mobile 是适用于 iOS 和 Android 移动设备的从训练到部署的端到端 ML 工作流程。

TorchScript 是一种从 PyTorch 代码创建可序列化和可优化模型的方法。这使得任何 TorchScript 程序都可以从 Python 进程中保存并加载到不存在 Python 依赖项的进程中。

Torchserve是一种灵活且易于使用的工具，用于提供Pytorch型号。

Keras是一种高级神经网络API，用Python编写，能够在Tensorflow，CNTK或Theano的顶部运行。它是开发出来的，重点是实现快速实验。它能够在Tensorflow，Microsoft认知工具包，R，Theano或Plaidml上运行。

ONX运行时是跨平台，高性能ML推断和训练加速器。它支持来自Pytorch和Tensorflow/keras等深度学习框架的模型，以及Scikit-Leartn，LightGBM，XGBoost等古典机器学习库，等等。

Kornia是一个可区分的计算机视觉库，由一组例程和可区分模块组成，以解决通用简历（计算机视觉）问题。

Pytorch-NLP是Python中自然语言处理（NLP）的库。它是考虑到最新研究的基础，从第一天开始设计以支持快速原型制作。 Pytorch-NLP带有预训练的嵌入式，采样器，数据集加载程序，指标，神经网络模块和文本编码器。

Ignite 是一个高级库，可帮助灵活、透明地训练和评估 PyTorch 中的神经网络。

Hummingbird是一个库，用于将经过训练的传统ML模型汇编成张量计算。它允许用户无缝利用神经网络框架（例如Pytorch）加速传统的ML模型。

Deep Graph Library（DGL）是一个python软件包，可在Pytorch和其他框架之上易于实现图形神经网络模型家族。

Tensorly是Python中张量方法和深度张力神经网络的高级API，旨在使张量学习变得简单。

GpyTorch是一个使用Pytorch实施的高斯过程库，旨在创建可扩展的灵活高斯流程模型。

Poutyne是一个类似于皮塔尔（Keras）的框架，可用于训练神经网络所需的许多清单代码。

Forte是用于构建具有可组合组件，方便的数据接口和交叉任务交互的NLP管道的工具包。

Torchmetrics是用于分布式可扩展Pytorch应用程序的机器学习指标。

Captum 是一个开源、可扩展的库，用于构建在 PyTorch 上的模型可解释性。

变压器是用于Pytorch，Tensorflow和Jax的最先进的自然语言处理。

Hydra是优雅配置复杂应用程序的框架。

加速是一种使用多GPU，TPU，混合精液训练和使用Pytorch型号的简单方法。

Ray是一个快速而简单的框架，用于构建和运行分布式应用程序。

Parlai是一个统一的平台，用于共享，培训和评估许多任务的对话模型。

Pytorchvideo是一个深入学习库，用于视频理解研究。托管各种以视频为重点的模型，数据集，培训管道等。

Opacus是一个图书馆，可培训具有不同隐私的Pytorch模型。

Pytorch Lightning是Pytorch的类似Keras的ML库。它为您留下了核心培训和验证逻辑，并自动化其余的。

pytorch几何颞时间是Pytorch几何的时间（动态）扩展库。

PyTorch Geometric 是一个用于对图形、点云和流形等不规则输入数据进行深度学习的库。

栅格视觉是卫星和空中图像深度学习的开源框架。

Crypten是保留ML隐私的框架。它的目标是使ML从业者可以使用安全的计算技术。

Optuna是一种开源的超参数优化框架，可自动化超参数搜索。

Pyro是用Python编写的通用概率编程语言（PPL），并由Pytorch在后端支持。

标记是一个快速且可扩展的图像增强库，用于不同的CV任务，例如分类，分割，对象检测和姿势估计。

Skorch是一个用于Pytorch的高级库，可提供完整的Scikit-Learn兼容性。

MMF是Facebook AI研究（FAIR）的视觉和语言多模式研究的模块化框架。

ADAPTDL是一种资源自适应的深度学习培训和调度框架。

Polyaxon是建造，培训和监视大规模深度学习应用程序的平台。

Textbrewer是一种基于Pytorch的知识蒸馏工具包，用于自然语言处理

Advertorch是用于对抗性鲁棒性研究的工具箱。它包含用于生成对抗性示例和防御攻击的模块。

Nemo是对话型AI的AA工具包。

ClinicAdl是对阿尔茨海默氏病再现分类的框架

Stable Baselines3 (SB3) 是 PyTorch 中强化学习算法的一组可靠实现。

Torchio是一组工具，可以在Pytorch编写的深度学习应用程序中有效阅读，预处理，样本，增强和编写3D医学图像。

Pysyft是一个Python图书馆，用于保存深度学习的隐私。

Flair是最先进的自然语言处理（NLP）的非常简单的框架。

Glow是ML编译器，可在不同的硬件平台上加速深度学习框架的性能。

FairScale是一个用于高性能的Pytorch扩展库和一台或多台机器/节点上的大规模培训。

MONAI是一个深度学习框架，可为开发医疗成像培训工作流程提供域优化的基础能力。

PFRL是一个深厚的增强学习库，它使用Pytorch实现了Python中各种最新的深化算法。

EINOPS是一种灵活而强大的张量操作，用于可读和可靠的代码。

Pytorch3d是一个深度学习库，可为Pytorch提供有效的，可重复使用的组件，用于3D计算机视觉研究。

Ensemble Pytorch是Pytorch提高深度学习模型的性能和鲁棒性的统一合奏框架。

Lightly是用于自学学习的计算机视觉框架。

更高的是一个库，它促进了使用近vanilla pytorch的任意复杂基于梯度的元学习算法和嵌套优化环的实现。

Horovod是一个用于深度学习框架的分布式培训库。 Horovod旨在使分布式DL快速易于使用。

Pennylane是用于量子ML，自动分化和优化杂种量子古典计算的库。

检测2是Fair的下一代平台，用于对象检测和分割。

Fastai是一个图书馆，可以使用现代最佳实践简化训练快速准确的神经网。

TensorFlow开发

回到顶部

TensorFlow学习资源

TensorFlow是机器学习的端到端开源平台。它拥有一个全面，灵活的工具，图书馆和社区资源的生态系统，使研究人员可以推动ML的最新技术，开发人员可以轻松构建和部署ML供电的应用程序。

开始使用TensorFlow

TensorFlow教程

Tensorflow开发人员证书| TensorFlow

Tensorflow社区

TensorFlow模型和数据集

TensorFlow云

机器学习教育| TensorFlow

在线顶级张量流课程| Coursera

在线顶级张量流课程|乌德米

用TensorFlow进行深度学习|乌德米

用TensorFlow进行深度学习| edX

深度学习的TensorFlow介绍|优达学城

TensorFlow的介绍：机器学习速效课程|谷歌开发者

训练和部署张量流型号 - Azure机器学习

用Python和TensorFlow将机器学习模型应用于Azure功能|微软Azure

用TensorFlow进行深度学习|亚马逊网络服务 (AWS)

TensorFlow -Amazon EMR | AWS 文档

Tensorflow Enterprise |谷歌云

TensorFlow工具，库和框架

Tensorflow Lite是用于在移动设备和IoT设备上部署机器学习模型的开源深度学习框架。

tensorflow.js是一个JavaScript库，可让您在JavaScript中开发或执行ML模型，并直接在浏览器客户端，通过Node.js在服务器端，通过react react Native，通过Electron甚至IOT上的Mobile Native使用服务器端，通过raspberry pi上的node.js设备。

Tensorflow_macos是使用Apple的ML Compute Framework加速的MACOS 11.0+的TensorFlow和TensorFlow插件的MAC优化版本。

Google Colagoratory是一个免费的Jupyter笔记本电脑环境，不需要设置并完全在云中运行，从而使您可以单击一键在浏览器中执行TensorFlow代码。

假设工具是用于机器学习模型的无代码探测工具，可用于模型理解，调试和公平性。可在张板和jupyter或Colab笔记本电脑中找到。

Tensorboard是一套可视化工具的套件，可以理解，调试和优化TensorFlow程序。

Keras是一种高级神经网络API，用Python编写，能够在Tensorflow，CNTK或Theano的顶部运行。它是开发出来的，重点是实现快速实验。它能够在Tensorflow，Microsoft认知工具包，R，Theano或Plaidml上运行。

XLA（加速线性代数）是线性代数的域特异性编译器，可优化张量计算。结果是服务器和移动平台上的速度，内存使用情况以及可移植性的改进。

ML Perf是一个广泛的ML基准套件，用于测量ML软件框架，ML硬件加速器和ML云平台的性能。

Tensorflow游乐场是一个开发环境，可以在浏览器中使用神经网络修补。

TPU Research Cloud（TRC）是一个程序，使研究人员无需申请访问1000多个云TPU的群集，以帮助他们加速下一波研究突破。

MLIR是一种新的中间表示和编译器框架。

晶格是一个具有常识性形状约束的灵活，控制和可解释的ML解决方案的库。

TensorFlow Hub是可重复使用的机器学习的库。以最少的代码下载并重复使用最新训练的型号。

Tensorflow Cloud是一个将您的本地环境连接到Google Cloud的库。

Tensorflow模型优化工具包是一套用于优化部署和执行的ML模型的工具。

TensorFlow推荐器是用于构建建议系统模型的库。

TensorFlow文本是与TensorFlow 2一起使用的文本和NLP相关类和OPS的集合。

TensorFlow Graphics是计算机图形功能的库，范围从相机，灯光和材料到渲染器。

Tensorflow联合是用于机器学习和其他分散数据计算的开源框架。

TensorFlow概率是用于概率推理和统计分析的库。

Tensor2Tensor是一个深度学习模型和数据集的库，旨在使深度学习更加易于访问和加速ML研究。

TensorFlow隐私是一个Python库，其中包括用于具有不同隐私的训练机器学习模型的张量优化器的实现。

TensorFlow排名是在TensorFlow平台上进行学习级（LTR）技术的库。

TensorFlow代理是用于张力流中加固学习的库。

TensorFlow addons是一个符合公认的API模式的贡献存储库，但是实现由SIG插件维护的核心Tensorflow中不可用的新功能。 TensorFlow本地支持大量的运营商，层，指标，损耗和优化器。

TensorFlow I/O是由SIG IO维护的数据集，流和文件系统扩展。

Tensorflow量子是一个量子机学习库，用于快速原型化杂交量子古典ML模型。

多巴胺是一个用于强化学习算法快速原型设计的研究框架。

TRFL是一个由DeepMind创建的增强学习构建块的库。

网格张量集是一种用于分布深度学习的语言，能够指定一类广泛的分布式张量计算。

破烂的tensors是一种API，可以易于存储和操纵具有不均匀形状的数据，包括文本（单词，句子，字符）和可变长度的批次。

Unicode OPS是一种API，它支持直接在Tensorflow中使用Unicode文本。

Magenta 是一个研究项目，探索机器学习在艺术和音乐创作过程中的作用。

Nucleus是Python和C ++代码的库，旨在使易于读取，写入和分析的通用基因组文件格式的数据（如SAM和VCF）。

SONNET是来自DeepMind的图书馆，用于构建神经网络。

神经结构化学习是一个学习框架，除了功能投入外，还通过利用结构化信号来训练神经网络。

模型补救是一个库，可帮助创建和训练模型，以减少或消除由于基本绩效偏见而造成的用户伤害。

公平指标是一个库，可以轻松计算二进制和多类分类器的普遍识别公平度量标准。

决策森林是一种用于培训，服务和解释模型的最先进算法，这些模型使用决策森林进行分类，回归和排名。

核心机器学习开发

回到顶部

核心ML学习资源

Core ML是一个Apple框架，用于将机器学习模型集成到Apple设备（包括iOS，WatchOS，MacOS和TVOS）上的应用程序中。 Core ML引入了公共文件格式（.MLMODEL），以用于一组广泛的ML方法，包括深神经网络（卷积和经常性），具有增强的树合奏和广义线性模型。该格式的模型可以通过XCode直接集成到应用中。

核心ML简介

将核心ML模型集成到您的应用中

核心机器学习模型

核心ML API参考

核心ML规范

Apple开发人员论坛的核心ML

顶级核心ML课程在线|乌德米

顶级核心ML课程在线| Coursera

核心ML的IBM Watson服务|国际商业机器公司

使用IBM Maximo视觉检查生成核心ML资产|国际商业机器公司

核心ML工具，库和框架

核心ML工具是一个项目，其中包含用于核心ML模型转换，编辑和验证的支持工具。

Create ML是一种在Mac上培训机器学习模型的新方法。它使模型训练的复杂性在产生强大的核心ML模型的同时，使其变得复杂。

Tensorflow_macos是Tensorfl的Mac优化版本

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2024-12-02
大小 66.21KB
来自于 Github

Machine Learning Guide

机器学习指南

涵盖机器学习的指南，包括应用程序、库和工具，可帮助您更好、更高效地进行机器学习开发。

目录

机器学习学习资源

开发者资源

课程和认证

图书

YouTube 教程

机器学习框架、库和工具

法学硕士培训框架

部署LLM的工具

在本地运行法学硕士

算法

PyTorch 开发

PyTorch 学习资源

PyTorch 工具、库和框架

TensorFlow开发

TensorFlow学习资源

TensorFlow工具，库和框架

核心机器学习开发

核心ML学习资源

核心ML工具，库和框架

Parameter Efficient Transfer Learning Benchmark

awesome generative ai guide

Ultimate Windows Optimization Guide

人力资源机

战争机器

谋杀悬疑机器

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind