返回 MCP 目录
public公开dns本地运行

sail

Sail是一个旨在统一流处理、批处理和计算密集型(AI)工作负载的项目,提供了Spark SQL和Spark DataFrame API的替代方案,支持单机和分布式环境。

article

README

🚀 帆船(Sail)

Sail 的使命是统一流处理、批处理和计算密集型(AI)工作负载。目前,Sail 提供了 Spark SQL 和 Spark DataFrame API 的掉入式替代品,在单节点和分布式环境中均可使用。

🚀 快速开始

启动 Sail 服务器

  • 选项 1:命令行界面 您可以使用 sail 命令启动本地 Sail 服务器。
sail spark server --port 50051
  • 选项 2:Python API 您可以通过 Python API 启动本地 Sail 服务器。
from pysail.spark import SparkConnectServer

server = SparkConnectServer(port=50051)
server.start(background=False)
  • 选项 3:Kubernetes 您可以将 Sail 部署到 Kubernetes 并以集群模式运行 Sail,实现分布式处理。 请参考 Kubernetes 部署指南 了解如何构建 Docker 映像和编写 Kubernetes 扩展文件 YAML 文件。
kubectl apply -f sail.yaml
kubectl -n sail port-forward service/sail-spark-server 50051:50051

连接到 Sail 服务器

一旦有了运行中的 Sail 服务器,您就可以通过 PySpark 连接。无需更改您的 PySpark 代码!

from pyspark.sql import SparkSession

spark = SparkSession.builder.remote("sc://localhost:50051").getOrCreate()
spark.sql("SELECT 1 + 1").show()

请参考 快速入门指南 了解更多详细信息。

✨ 主要特性

  • 统一流处理、批处理和计算密集型(AI)工作负载。
  • 提供 Spark SQL 和 Spark DataFrame API 的掉入式替代品,支持单节点和分布式环境。
  • ✨新闻✨:推出 MCP 服务器,将 Spark 数据分析带给 LLM 代理和人类!

📦 安装指南

Sail 作为 Python 包在 PyPI 上可用。您可以使用 pip 进行安装。

pip install "pysail[spark]"

或者,您可以从源代码安装以获得针对硬件架构的更好性能。您可以按照 安装指南 了解更多详细信息。

📚 详细文档

文档链接

📚 进一步阅读

🤝 贡献

我们欢迎社区的贡献!您可以通过以下方式参与:

🛠️ 支持

如需商业支持,请联系 LakeSail


© 2024 LakeSail. 保留所有权利。

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端