Model Builder теперь поддерживает квантование ONNX-моделей Phi-3.5 Instruct и Phi-3.5-Vision.
Квантование INT 4 с ускорением на CPU
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cpu -c ./Phi-3.5-mini-instruct
Квантование INT 4 с ускорением на CUDA
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
python3 -m onnxruntime_genai.models.builder -m microsoft/Phi-3.5-mini-instruct -o ./onnx-cpu -p int4 -e cuda -c ./Phi-3.5-mini-instruct
Phi-3.5-vision-instruct-onnx-cpu-fp32
- Настройте окружение в терминале
mkdir models
cd models
-
Скачайте модель microsoft/Phi-3.5-vision-instruct в папку models
https://huggingface.co/microsoft/Phi-3.5-vision-instruct -
Скачайте следующие файлы в папку Phi-3.5-vision-instruct:
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/resolve/main/onnx/config.json
-
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/modeling_phi3_v.py
-
Скачайте этот файл в папку models:
https://huggingface.co/lokinfey/Phi-3.5-vision-instruct-onnx-cpu/blob/main/onnx/build.py -
Откройте терминал
Конвертация в ONNX с поддержкой FP32
python build.py -i .\Your Phi-3.5-vision-instruct Path\ -o .\vision-cpu-fp32 -p f32 -e cpu
-
Model Builder в настоящее время поддерживает конвертацию Phi-3.5-Instruct и Phi-3.5-Vision, но не Phi-3.5-MoE.
-
Для использования квантованной модели ONNX вы можете воспользоваться Generative AI extensions for onnxruntime SDK.
-
Необходимо учитывать аспекты ответственного ИИ, поэтому после квантования модели рекомендуется провести тщательное тестирование результатов.
-
Квантовав модель CPU INT4, мы можем развернуть её на устройствах Edge, что открывает более широкие сценарии применения. Поэтому мы сосредоточились на реализации Phi-3.5-Instruct с INT4.
-
Узнайте больше о Generative AI extensions for onnxruntime:
https://onnxruntime.ai/docs/genai/ -
Репозиторий Generative AI extensions for onnxruntime на GitHub:
https://github.com/microsoft/onnxruntime-genai
Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Хотя мы стремимся к точности, обратите внимание, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его родном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникающие в результате использования этого перевода.