IPEX-LLM 在英特尔 GPU 上的应用¶

IPEX-LLM 是一个 PyTorch 库，可在英特尔 CPU 和 GPU（例如配备集成显卡的本地 PC，或 Arc、Flex 和 Max 等独立显卡）上以极低延迟运行大语言模型。

本示例将介绍如何使用 LlamaIndex 结合 ipex-llm 在英特尔 GPU 上进行文本生成和对话交互。

注意

完整示例可参考此处。请注意，若要在英特尔 GPU 上运行，请在执行示例时通过命令行参数指定 -d 'xpu' 或 -d 'xpu:<device_id>'。

安装前提条件¶

要在英特尔 GPU 上使用 IPEX-LLM，需完成以下工具安装和环境准备的先决步骤。

Windows 用户请访问在 Windows 系统安装支持英特尔 GPU 的 IPEX-LLM 指南，并按照 安装前提条件 更新 GPU 驱动（可选）及安装 Conda。

Linux 用户请访问在 Linux 系统安装支持英特尔 GPU 的 IPEX-LLM，并按照 安装前提条件 安装 GPU 驱动、Intel® oneAPI Base Toolkit 2024.0 和 Conda。

安装 `llama-index-llms-ipex-llm`¶

完成前提条件安装后，您应已创建包含所有必备组件的 Conda 环境，请激活该环境并按以下方式安装 llama-index-llms-ipex-llm：

conda activate <your-conda-env-name>

pip install llama-index-llms-ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/us/

此步骤将同时安装 ipex-llm 及其依赖项。

注意

也可使用 https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/ 作为 extra-indel-url。

运行时配置¶

为获得最佳性能，建议根据设备类型设置以下环境变量：

使用英特尔酷睿 Ultra 集成显卡的 Windows 用户¶

在 Anaconda Prompt 中执行：

set SYCL_CACHE_PERSISTENT=1
set BIGDL_LLM_XMX_DISABLED=1

使用英特尔锐炫 A 系列显卡的 Linux 用户¶

# 配置 oneAPI 环境变量。通过 APT 或离线安装 oneAPI 时必须执行此步骤。
# 若通过 PIP 安装 oneAPI 可跳过此步，因环境变量已配置在 LD_LIBRARY_PATH 中。
source /opt/intel/oneapi/setvars.sh

# 推荐性能优化环境变量
export USE_XETLA=OFF
export SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
export SYCL_CACHE_PERSISTENT=1

注意

首次在英特尔集成显卡/锐炫 A300 系列或 Pro A60 上运行模型时，可能需要数分钟进行编译。

其他 GPU 类型的配置请参考 Windows 用户此处，Linux 用户此处。

`IpexLLM`¶

初始化 IpexLLM 时设置 device_map="xpu" 可将大语言模型加载至英特尔 GPU，并受益于 IPEX-LLM 的优化。

注意

若有多块英特尔 GPU 可用，可设置 device="xpu:<device_id>"，其中 device_id 从 0 开始计数。默认情况下 device="xpu" 等同于 device="xpu:0"。

加载 Zephyr 模型前，需定义 completion_to_prompt 和 messages_to_prompt 函数来格式化提示词。请按照模型卡片的要求遵循 zephyr-7b-alpha 的提示词格式。这对准备模型能准确解析的输入至关重要。使用 IpexLLM.from_model_id 通过 IpexLLM 本地加载 Zephyr 模型，该操作会直接加载模型的 Huggingface 格式并自动转换为低比特格式进行推理。

# 将字符串转换为 zephyr 专用输入格式
def completion_to_prompt(completion):
    return f"<|system|>\n</s>\n<|user|>\n{completion}</s>\n<|assistant|>\n"


# 将聊天消息列表转换为 zephyr 专用输入格式
def messages_to_prompt(messages):
    prompt = ""
    for message in messages:
        if message.role == "system":
            prompt += f"<|system|>\n{message.content}</s>\n"
        elif message.role == "user":
            prompt += f"<|user|>\n{message.content}</s>\n"
        elif message.role == "assistant":
            prompt += f"<|assistant|>\n{message.content}</s>\n"

    # 确保以系统提示开头，必要时插入空提示
    if not prompt.startswith("<|system|>\n"):
        prompt = "<|system|>\n</s>\n" + prompt

    # 添加最终的助手提示
    prompt = prompt + "<|assistant|>\n"

    return prompt

from llama_index.llms.ipex_llm import IpexLLM

llm = IpexLLM.from_model_id(
    model_name="HuggingFaceH4/zephyr-7b-alpha",
    tokenizer_name="HuggingFaceH4/zephyr-7b-alpha",
    context_window=512,
    max_new_tokens=128,
    generate_kwargs={"do_sample": False},
    completion_to_prompt=completion_to_prompt,
    messages_to_prompt=messages_to_prompt,
    device_map="xpu",
)

请注意本例使用 HuggingFaceH4/zephyr-7b-alpha 模型进行演示，需更新 transformers 和 tokenizers 包。
pip install -U transformers==4.37.0 tokenizers==0.15.2

随后可正常执行文本补全或对话任务：

print("----------------- 文本补全 ------------------")
completion_response = llm.complete("从前，")
print(completion_response.text)
print("----------------- 流式补全 ------------------")
response_iter = llm.stream_complete("从前有个小女孩")
for response in response_iter:
    print(response.delta, end="", flush=True)
print("----------------- 对话 ------------------")
from llama_index.core.llms import ChatMessage

message = ChatMessage(role="user", content="简要解释大爆炸理论")
resp = llm.chat([message])
print(resp)
print("----------------- 流式对话 ------------------")
message = ChatMessage(role="user", content="什么是人工智能？")
resp = llm.stream_chat([message], max_tokens=256)
for r in resp:
    print(r.delta, end="")

您也可将低比特模型保存至磁盘，后续使用 from_model_id_low_bit 而非 from_model_id 重新加载——甚至可在不同机器间迁移使用。这种方式节省空间，因为低比特模型所需的磁盘空间远小于原始模型。且 from_model_id_low_bit 在速度和内存使用上也比 from_model_id 更高效，因为它跳过了模型转换步骤。

使用 save_low_bit 保存低比特模型如下所示，然后从保存路径加载模型。同样使用 device_map 将模型加载至 xpu。

注意保存的低比特模型路径仅包含模型本身，不包含分词器。如需集中管理，需手动从原始模型目录下载或复制分词器文件至低比特模型保存位置。

尝试使用加载的低比特模型进行流式补全：

saved_lowbit_model_path = (
    "./zephyr-7b-alpha-low-bit"  # 低比特模型保存路径
)

llm._model.save_low_bit(saved_lowbit_model_path)
del llm

llm_lowbit = IpexLLM.from_model_id_low_bit(
    model_name=saved_lowbit_model_path,
    tokenizer_name="HuggingFaceH4/zephyr-7b-alpha",
    # tokenizer_name=saved_lowbit_model_path,  # 若需此方式使用，请将分词器复制至保存路径
    context_window=512,
    max_new_tokens=64,
    completion_to_prompt=completion_to_prompt,
    generate_kwargs={"do_sample": False},
    device_map="xpu",
)

response_iter = llm_lowbit.stream_complete("什么是大语言模型？")
for response in response_iter:
    print(response.delta, end="", flush=True)