Microsoft Phi a été optimisé pour ONNX Runtime et prend en charge Windows DirectML. Il fonctionne efficacement sur divers types de matériel, y compris les GPU, les CPU, et même les appareils mobiles.
Plus précisément, le matériel pris en charge inclut :
- GPU SKU : RTX 4090 (DirectML)
- GPU SKU : 1 A100 80GB (CUDA)
- CPU SKU : Standard F64s v2 (64 vCPUs, 128 GiB de mémoire)
- Android - Samsung Galaxy S21
- Apple iPhone 14 ou supérieur avec processeur A16/A17
- Configuration minimale requise.
- Windows : GPU compatible DirectX 12 et au moins 4 Go de RAM combinée
CUDA : GPU NVIDIA avec une capacité de calcul >= 7.02
Les modèles ONNX Phi actuellement disponibles sont uniquement conçus pour un GPU. Il est possible de prendre en charge plusieurs GPU pour les modèles Phi, mais l’utilisation d’ORT avec 2 GPU ne garantit pas nécessairement un débit supérieur par rapport à 2 instances distinctes d’ORT. Veuillez consulter ONNX Runtime pour les dernières mises à jour.
Lors de Build 2024, l'équipe GenAI ONNX a annoncé qu'ils avaient activé l'exécution multi-instance au lieu de multi-GPU pour les modèles Phi.
Actuellement, cela vous permet d’exécuter une instance d’onnxruntime ou d’onnxruntime-genai avec la variable d’environnement CUDA_VISIBLE_DEVICES comme suit.
CUDA_VISIBLE_DEVICES=0 python infer.py
CUDA_VISIBLE_DEVICES=1 python infer.py
N’hésitez pas à explorer Phi davantage sur Azure AI Foundry
Avertissement :
Ce document a été traduit à l'aide du service de traduction IA Co-op Translator. Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des imprécisions. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour les informations critiques, une traduction humaine professionnelle est recommandée. Nous ne sommes pas responsables des malentendus ou des interprétations erronées résultant de l'utilisation de cette traduction.