[Docs] Refactor docs. (#10223)

ZHUI · web-flow · commit 5b505e487bf0 · 2025-03-24T14:39:54.000+08:00
* refactor docs.

* Refine typos.
diff --git a/docs/get_started/generate.md b/docs/get_started/generate.md
@@ -0,0 +1,15 @@
+
+# 大模型生成快速上手
+
+PaddleNLP 提供了方便易用的 Auto API，能够快速的加载模型和 Tokenizer。这里以使用 Qwen/Qwen2-0.5B 模型做文本生成为例：
+
+```python
+from paddlenlp.transformers import AutoTokenizer, AutoModelForCausalLM
+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-0.5B")
+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-0.5B", dtype="float16")
+input_features = tokenizer("你好！请自我介绍一下。", return_tensors="pd")
+outputs = model.generate(**input_features, max_length=128)
+
+print(tokenizer.batch_decode(outputs[0], skip_special_tokens=True))
+# ['我是一个AI语言模型，我可以回答各种问题，包括但不限于：天气、新闻、历史、文化、科学、教育、娱乐等。请问您有什么需要了解的吗？']
+```
diff --git a/docs/get_started/inference.md b/docs/get_started/inference.md
@@ -0,0 +1,83 @@
+# 推理服务化快速上手
+
+我们提供了一套基于动态图推理的简单易用 UI 服务化部署方法，用户可以快速部署服务化推理。
+
+请确保，在部署前请确保已正确安装 PaddeNLP，clone 本 repo 下位置代码。以及自定义算子库。本部署的服务是兼容 OpenAI API 接口
+
+Clone PaddleNLP 到本地
+```bash
+git clone https://github.com/PaddlePaddle/PaddleNLP.git && cd PaddleNLP/llm # 如已clone或下载PaddleNLP可跳过
+```
+
+
+环境准备
+
+```
+python >= 3.9
+gradio
+flask
+paddlenlp_ops (可选，高性能自定义加速算子， 安装参考这里)
+```
+
+服务化部署,单卡脚本如下:
+```bash
+
+python  ./predict/flask_server.py \
+    --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
+    --port 8010 \
+    --flask_port 8011 \
+    --dtype "float16"
+```
+用户也可以使用 paddle.distributed.launch 启动多卡推理。
+
+其中参数如下：
+- port: Gradio UI 服务端口号，默认8010。
+- flask_port: Flask 服务端口号，默认8011。
+
+其他参数请参见推理文档中推理参数配置。
+
+图形化界面:
+- 打开 http://127.0.0.1:8010 即可使用 gradio 图形化界面，即可开启对话。 API 访问: 您也可用通过 flask 服务化 API 的形式
+
+访问服务:
+
+1. 您可以直接使用 curl, 调用开始对话
+```
+curl 127.0.0.1:8011/v1/chat/completions \
+-H 'Content-Type: application/json' \
+-d '{"message": [{"role": "user", "content": "你好"}]}'
+```
+
+2. 可以使用 OpenAI 客户端调用：
+```python
+from openai import OpenAI
+
+client = OpenAI(
+    api_key="EMPTY",
+    base_url="http://localhost:8011/v1/",
+)
+
+# Completion API
+stream = True
+completion = client.chat.completions.create(
+    model="default",
+    messages=[
+        {"role": "user", "content": "PaddleNLP好厉害！这句话的感情色彩是？"}
+    ],
+    max_tokens=1024,
+    stream=stream,
+)
+
+if stream:
+    for c in completion:
+        print(c.choices[0].delta.content, end="")
+else:
+    print(completion.choices[0].message.content)
+```
+
+
+3. 还可可参考：./predict/request_flask_server.py 文件使用脚本调用。
+```bash
+# 在 PaddleNLP/llm 目录下
+python predict/request_flask_server.py
+```
diff --git a/docs/get_started/installation.rst b/docs/get_started/installation.rst
@@ -5,14 +5,22 @@
 
 .. _飞桨官网: https://www.paddlepaddle.org.cn/
 
+cuda12.3 cuda11.8 可以参考一下安装链接:
+
+.. code-block:: bash
+
+  python -m pip install paddlepaddle-gpu==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
+  python -m pip install paddlepaddle-gpu==3.0.0rc1 -i https://www.paddlepaddle.org.cn/packages/stable/cu123/
+
+
 pip安装
 --------
 
 最简单快捷的安装方式是使用pip。只需在命令行（终端）中运行以下命令：
 
 .. code-block:: bash
 
-  pip install --upgrade --pre paddlenlp
+  pip install --upgrade --pre paddlenlp==3.0.0b4
 
 这将会自动安装最新版本的PaddleNLP。
 
diff --git a/docs/get_started/training.md b/docs/get_started/training.md
@@ -0,0 +1,41 @@
+# 大模型训练快速上手
+
+## 大模型 SFT 精调
+
+快速微调，您现在只需复制者几行代码，即可开启大模型全量微调流程。
+```python
+from paddlenlp.trl import SFTConfig, SFTTrainer
+from datasets import load_dataset
+
+dataset = load_dataset("ZHUI/alpaca_demo", split="train")
+
+training_args = SFTConfig(output_dir="Qwen/Qwen2.5-0.5B-SFT", device="gpu")
+trainer = SFTTrainer(
+    args=training_args,
+    model="Qwen/Qwen2.5-0.5B-Instruct",
+    train_dataset=dataset,
+)
+trainer.train()
+```
+
+同时，我们还提供了更加高性能微调脚本，clone paddlenlp 即可开启训练。
+
+```bash
+git clone https://github.com/PaddlePaddle/PaddleNLP.git && cd PaddleNLP # 如已clone或下载PaddleNLP可跳过
+mkdir -p llm/data && cd llm/data
+wget https://bj.bcebos.com/paddlenlp/datasets/examples/AdvertiseGen.tar.gz && tar -zxvf AdvertiseGen.tar.gz
+cd .. # change folder to PaddleNLP/llm
+python -u run_finetune.py ./config/qwen/sft_argument_0p5b.json
+```
+
+
+## 大模型预训练
+如果你想从随机初始化训练您的模型，或者在原来模型的基础上，加入额外语料继续训练。我们提供了高性能的预训练脚本。git clone 即可开始训练。
+```bash
+git clone https://github.com/PaddlePaddle/PaddleNLP.git && cd PaddleNLP # 如已clone或下载PaddleNLP可跳过
+mkdir -p llm/data && cd llm/data
+wget https://bj.bcebos.com/paddlenlp/models/transformers/llama/data/llama_openwebtext_100k.bin
+wget https://bj.bcebos.com/paddlenlp/models/transformers/llama/data/llama_openwebtext_100k.idx
+cd .. # change folder to PaddleNLP/llm
+python -u run_pretrain.py ./config/qwen/pretrain_argument_0p5b.json
+```
diff --git a/docs/hot_model.md b/docs/hot_model.md
@@ -0,0 +1,21 @@
+# 热门模型介绍
+
+## DeepSeek 系列及热门思考模型
+
+PaddleNLP 全面支持 DeepSeek V3/R1/R1-Distill, 及 QwQ-32B 等热门思考模型。
+
+推理方面： DeepSeek V3/R1完整版支持 FP8、INT8、4-bit 量化推理，MTP 投机解码。单机 FP8推理输出超1000 tokens/s; 4-bit 推理输出超2100 tokens/s! 发布新版推理部署镜像，热门模型一键部署。推理部署使用文档全面更新，体验全面提升！
+
+训练方面：凭借数据并行、数据分组切分并行、模型并行、流水线并行以及专家并行等一系列先进的分布式训练能力，结合 Paddle 框架独有的列稀疏注意力掩码表示技术——FlashMask 方法，DeepSeek-R1系列模型在训练过程中显著降低了显存消耗，同时取得了卓越的训练性能提升。
+
+| 模型系列       | 模型名称                                                                                   |
+|----------------|--------------------------------------------------------------------------------------------|
+| DeepSeek-R1    | deepseek-ai/DeepSeek-R1, deepseek-ai/DeepSeek-R1-Zero, deepseek-ai/DeepSeek-R1-Distill-Llama-70B, deepseek-ai/DeepSeek-R1-Distill-Llama-8B, deepseek-ai/DeepSeek-R1-Distill-Qwen-14B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-32B, deepseek-ai/DeepSeek-R1-Distill-Qwen-7B |
+| QwQ            | Qwen/QwQ-32B, Qwen/QwQ-32B-Preview                                                         |
+
+## PP-UIE 系列
+PP-UIE 自研下一代通用信息抽取模型全新发布。强化零样本学习能力，支持极少甚至零标注数据实现高效冷启动与迁移学习，显著降低数据标注成本；具备处理长文本能力，支持 8192 个 Token 长度文档信息抽取，实现跨段落识别关键信息，形成完整理解；提供完整可定制化的训练和推理全流程，训练效率相较于 LLama-Factory 实现了1.8倍的提升。
+
+| 模型系列       | 模型名称                                                                                   |
+|----------------|--------------------------------------------------------------------------------------------|
+| PP-UIE         | paddlenlp/PP-UIE-0.5B,paddlenlp/PP-UIE-1.5B, paddlenlp/PP-UIE-7B, paddlenlp/PP-UIE-14B     |
diff --git a/docs/index.rst b/docs/index.rst
@@ -31,60 +31,94 @@
 .. toctree::
    :maxdepth: 1
    :caption: 模型库列表
-
+   
+   热门模型介绍 <hot_model.md>
    模型库列表 <model_list.rst>
-
-
+   
 
 .. toctree::
    :maxdepth: 1
    :caption: 快速开始
 
    安装 <get_started/installation>
-   10分钟完成高精度中文情感分析 <get_started/quick_start>
-   对话模板 <get_started/chat_template>
-
-
-.. toctree::
-   :maxdepth: 1
-   :caption: 数据准备
-
-   整体介绍 <data_prepare/overview>
-   数据集列表 <data_prepare/dataset_list>
-   加载数据集 <data_prepare/dataset_load>
-   自定义数据集 <data_prepare/dataset_self_defined>
-   数据处理 <data_prepare/data_preprocess>
+   文本生成  <get_started/generate>
+   快速训练 <get_started/training>
+   快速推理 <get_started/inference>
 
 .. toctree::
    :maxdepth: 1
-   :caption: 飞桨大模型
+   :caption: 飞桨大模型训练
 
    飞桨大模型主文档 <llm/README.md>
    大模型-预训练文档 <llm/docs/pretrain.rst>
    大模型-精调文档 <llm/docs/finetune.md>
    大模型-DPO文档 <llm/docs/dpo.md>
    大模型-RLHF文档 <llm/docs/rlhf.md>
-   大模型-推理部署教程 <llm/docs/predict/index.rst>
+   模型融合文档 <llm/docs/mergekit.md>
+
+
+.. toctree::
+   :maxdepth: 1
+   :caption: 飞桨大模型推理
+
+   Docker部署-快速开始教程 <llm/server/docs/general_model_inference.md>
+   大模型推理教程 <llm/docs/predict/inference_index.rst>
+   实践调优 <llm/docs/predict/infer_optimize.rst>
+   静态图模型列表 <llm/server/docs/static_models.md>
+   各个模型推理量化教程 <llm/docs/predict/models.rst>
+   异构设备推理 <llm/docs/predict/devices.rst>
    大模型-量化教程 <llm/docs/quantization.md>
-   大模型-高级技术文档 <llm/docs/advanced.rst>
-   
+
+
 .. toctree::
    :maxdepth: 1
-   :caption: 模型库
+   :caption: 飞桨大模型特色技术
+
+   <llm/docs/unified_checkpoint.md>
+   <llm/docs/flashmask.md>
+   <llm/docs/llm_trainer.rst>
+
+
+
+.. toctree::
+   :maxdepth: 1
+   :caption: PaddleNLP工具库
 
-   Transformer预训练模型 <model_zoo/index>
-   使用Trainer API训练 <trainer.md>
-   使用Trainer API进行模型压缩 <compression.md>
    一键预测功能 <model_zoo/taskflow>
    预训练词向量 <model_zoo/embeddings>
 
+.. toctree::
+   :maxdepth: 1
+   :caption: PaddleNLP 教程
+
+   Transformer预训练模型 <model_zoo/index>
+   Trainer API训练教程 <trainer.md>
+   对话模板教程 <get_started/chat_template>
+   多轮对话精调教程 <llm/docs/chat_template.md>
+   中文情感分析教程 <get_started/quick_start>
+   模型压缩教程 <compression.md>
+   Torch2Paddle 权重转换教程 <llm/docs/torch2paddle.md>
+
+
 
 .. toctree::
    :maxdepth: 1
    :caption: 评价指标
 
    评价指标 <metrics/metrics.md>
 
+
+
+..    :maxdepth: 1
+..    :caption: 数据准备
+
+..    整体介绍 <data_prepare/overview>
+..    数据集列表 <data_prepare/dataset_list>
+..    加载数据集 <data_prepare/dataset_load>
+..    自定义数据集 <data_prepare/dataset_self_defined>
+..    数据处理 <data_prepare/data_preprocess>
+
+
 .. toctree::
    :maxdepth: 1
    :caption: 实践教程
diff --git a/docs/llm/docs/llm_trainer.rst b/docs/llm/docs/llm_trainer.rst
@@ -1,5 +1,5 @@
 =====================================================
-飞桨大模型统一训练器 PaddleNLP Trainer 训练教程
+飞桨大模型统一训练器 PaddleNLP Trainer
 =====================================================
 
 
@@ -304,4 +304,4 @@ Pipeline Parallel 使用
 * `数据并行 <https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/data_parallel/index_cn.html>`_
 * `sharding 并行 <https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/group_sharded_parallel_cn.html#fenzuqiefenbingxing>`_ 
 * `张量并行 <https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/model_parallel_cn.html#zhangliangmoxingbingxing>`_
-* `流水线并行 <https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/pipeline_parallel_cn.html>`_
+* `流水线并行 <https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/pipeline_parallel_cn.html>`_
diff --git a/llm/docs/flashmask.md b/llm/docs/flashmask.md
@@ -1,4 +1,4 @@
-# FlashMask
+# FlashMask  灵活注意力掩码
 
 在 Transformer 类大模型训练任务中，注意力掩码（Attention Mask）一方面带来了大量的冗余计算，另一方面因其 $O(N^2)$ 巨大的存储占用导致难以实现长序列场景的高效训练（其中 $N$ 为序列长度）。虽然业界已有 FlashAttention 等针对特定注意力掩码的计算加速方法，但其支持的注意力掩码模式有限，难以满足大模型训练任务对灵活注意力掩码的需求。为了解决上述问题，飞桨独创 FlashMask 技术，提出了列式稀疏的注意力掩码表示方法，支持灵活多样的注意力掩码模式，使得存储复杂度从 $O(N^2)$ 降低至 $O(N)$，并在此基础上实现了高效的算子 Kernel，极致加速大模型训练效率，尤其是长序列场景下的训练效率。
 
diff --git a/llm/docs/torch2paddle.md b/llm/docs/torch2paddle.md
@@ -1,4 +1,4 @@
-# torch2paddle
+# Torch2Paddle 权重转换教程
 
 ## 转化 Pytorch 权重
 PaddleNLP 提供了可自动将 PyTorch 相关的权重转化为 Paddle 权重的接口，代码如下：
@@ -15,7 +15,7 @@ AutoModelForCausalLM.from_pretrained("/path/to/pytorch/model", convert_from_torc
 
 ## 合并 Pytorch 分片权重
 
-当前 PaddleNLP 仅支持转化单个 Pytorch 权重：`pytorch_model.bin`文件。所以当Pytorch 权重为分片权重时，需要将其合并，合并脚本如下所示：
+当前 PaddleNLP 仅支持转化单个 Pytorch 权重：`pytorch_model.bin`文件。所以当 Pytorch 权重为分片权重时，需要将其合并，合并脚本如下所示：
 
 ```python
 import torch, os

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# FlashMask`
	`1`	`+# FlashMask 灵活注意力掩码`
`2`	`2`
`3`	`3`	在 Transformer 类大模型训练任务中，注意力掩码（Attention Mask）一方面带来了大量的冗余计算，另一方面因其 $O(N^2)$ 巨大的存储占用导致难以实现长序列场景的高效训练（其中 $N$ 为序列长度）。虽然业界已有 FlashAttention 等针对特定注意力掩码的计算加速方法，但其支持的注意力掩码模式有限，难以满足大模型训练任务对灵活注意力掩码的需求。为了解决上述问题，飞桨独创 FlashMask 技术，提出了列式稀疏的注意力掩码表示方法，支持灵活多样的注意力掩码模式，使得存储复杂度从 $O(N^2)$ 降低至 $O(N)$，并在此基础上实现了高效的算子 Kernel，极致加速大模型训练效率，尤其是长序列场景下的训练效率。
`4`	`4`