Skip to content

Latest commit

 

History

History
95 lines (55 loc) · 4.97 KB

UsingORTGenAIQuantifyingPhi.md

File metadata and controls

95 lines (55 loc) · 4.97 KB

Как использовать Model Builder для квантования Phi-3.5

Model Builder теперь поддерживает квантование ONNX-моделей Phi-3.5 Instruct и Phi-3.5-Vision.

Phi-3.5-Instruct

Квантование INT 4 с ускорением на CPU

python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct

Квантование INT 4 с ускорением на CUDA

python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct  -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct

Phi-3.5-Vision

Phi-3.5-vision-instruct-onnx-cpu-fp32

  1. Настройте окружение в терминале
mkdir models

cd models 
  1. Скачайте модель microsoft/Phi-3.5-vision-instruct в папку models
    https://huggingface.co/microsoft/Phi-3.5-vision-instruct

  2. Скачайте следующие файлы в папку Phi-3.5-vision-instruct:

  1. Скачайте этот файл в папку models:
    https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py

  2. Откройте терминал

    Конвертация в ONNX с поддержкой FP32

python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu

Примечания:

  1. Model Builder в настоящее время поддерживает конвертацию Phi-3.5-Instruct и Phi-3.5-Vision, но не Phi-3.5-MoE.

  2. Для использования квантованной модели ONNX вы можете воспользоваться Generative AI extensions for onnxruntime SDK.

  3. Необходимо учитывать аспекты ответственного ИИ, поэтому после квантования модели рекомендуется провести тщательное тестирование результатов.

  4. Квантовав модель CPU INT4, мы можем развернуть её на устройствах Edge, что открывает более широкие сценарии применения. Поэтому мы сосредоточились на реализации Phi-3.5-Instruct с INT4.

Ресурсы

  1. Узнайте больше о Generative AI extensions for onnxruntime:
    https://onnxruntime.ai/docs/genai/

  2. Репозиторий Generative AI extensions for onnxruntime на GitHub:
    https://github.com/microsoft/onnxruntime-genai

Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, обратите внимание, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникающие в результате использования этого перевода.