CUDA-X 数据科学

安装并使用 NVIDIA cuML 和 NVIDIA cuDF 来加速 UMAP、HDBSCAN、pandas 等，无需修改代码

概述

本指南包括两个示例笔记本，演示如何使用 CUDA-X Data Science 库加速关键机器学习算法和核心 pandas 操作：

NVIDIA cuDF： 加速数据准备和核心数据处理操作（处理 8GB 字符串数据），无需代码更改。
NVIDIA cuML： 加速 scikit-learn 中流行的、计算密集型机器学习算法（LinearSVC）、UMAP 和 HDBSCAN，无需代码更改。

CUDA-X Data Science（原名 RAPIDS）是一个开源库集合，用于加速数据科学和数据处理生态系统。这些库可以在零代码更改的情况下加速流行的 Python 工具，如 scikit-learn 和 pandas。在 DGX Spark 上，这些库可在您的桌面上使用现有代码实现最佳性能。

您将加速流行的机器学习算法和数据分析操作。您将了解如何加速流行的 Python 工具，以及在 DGX Spark 上运行数据科学工作流的价值。

使用以下命令安装 CUDA-X 库（这将创建一个新的 conda 环境）

  conda create -n rapids-test -c rapidsai -c conda-forge -c nvidia  \
  rapids=25.10 python=3.12 'cuda-version=13.0' \
  jupyter hdbscan umap-learn

  conda activate rapids-test

克隆 github 存储库并进入 cuda-x-data-science 文件夹中的 assets 文件夹
```
  git clone https://github.com/NVIDIA/dgx-spark-playbooks
```
将步骤 1 中创建的 kaggle.json 放在 assets 文件夹中

GitHub 存储库中有两个笔记本。一个运行在 GPU 上使用 pandas 代码处理大型字符串数据的工作流示例。 - 运行 cudf_pandas_demo.ipynb 笔记本，并在浏览器中使用 localhost:8888 访问笔记本

  jupyter notebook cudf_pandas_demo.ipynb

另一个演示包括 UMAP 和 HDBSCAN 在内的机器学习算法示例。 - 运行 cuml_sklearn_demo.ipynb 笔记本，并在浏览器中使用 localhost:8888 访问笔记本

  jupyter notebook cuml_sklearn_demo.ipynb

如果您远程访问 DGX-Spark，请确保转发必要的端口以在本地浏览器中访问笔记本。使用以下说明进行端口转发：

  ssh -N -L YYYY:localhost:XXXX username@remote_host

- YYYY：您想要使用的本地端口（例如 8888） - XXXX：您在远程机器上启动 Jupyter Notebook 时指定的端口（例如 8888） - -N：防止 SSH 执行远程命令 - -L：指定本地端口转发