ml-explore
diff --git a/‎.circleci/config.yml
+8 b/‎.circleci/config.yml
+8
diff --git a/‎Applications/VLMEval/ContentView.swift
+11-2 b/‎Applications/VLMEval/ContentView.swift
+11-2
diff --git a/‎Libraries/MLXLLM/LLMModelFactory.swift
+13-5 b/‎Libraries/MLXLLM/LLMModelFactory.swift
+13-5
diff --git a/‎Libraries/MLXLMCommon/Chat.swift
+114 b/‎Libraries/MLXLMCommon/Chat.swift
+114
@@ -28,6 +28,14 @@ jobs:
             brew install swift-format
             pre-commit run --all
             if ! git diff --quiet; then echo 'Style checks failed, please install pre-commit and run pre-commit run --all and push the change'; exit 1; fi
+      - run:
+          name: Run Tests (Xcode, macOS)
+          command: |
+            xcodebuild -version
+            xcrun --show-sdk-build-version
+            swift --version
+            find . -name Package.resolved -exec rm {} \;
+            xcodebuild test -scheme mlx-libraries-Package -destination 'platform=OS X'
       - run:
           name: Build Examples
           command: |
 
@@ -412,13 +412,22 @@ class VLMEvaluator {
                     if !images.isEmpty || !videos.isEmpty {
                         [
                             [
-                                "role": "user",
+                                "role": "system",
                                 "content": [
                                     [
                                         "type": "text",
                                         "text": videoURL != nil
                                             ? videoSystemPrompt : imageSystemPrompt,
                                     ]
+                                ],
+                            ],
+                            [
+                                "role": "user",
+                                "content": [
+                                    [
+                                        "type": "text",
+                                        "text": prompt,
+                                    ]
                                 ]
                                     // Messages format for Qwen 2 VL, Qwen 2.5 VL. May need to be adapted for other models.
                                     + images.map { _ in
@@ -427,7 +436,7 @@ class VLMEvaluator {
                                     + videos.map { _ in
                                         ["type": "video"]
                                     },
-                            ]
+                            ],
                         ]
                     } else {
                         [
 
@@ -199,23 +199,29 @@ private struct LLMUserInputProcessor: UserInputProcessor {
 
     let tokenizer: Tokenizer
     let configuration: ModelConfiguration
+    let messageGenerator: MessageGenerator
 
-    internal init(tokenizer: any Tokenizer, configuration: ModelConfiguration) {
+    internal init(
+        tokenizer: any Tokenizer, configuration: ModelConfiguration,
+        messageGenerator: MessageGenerator
+    ) {
         self.tokenizer = tokenizer
         self.configuration = configuration
+        self.messageGenerator = messageGenerator
     }
 
     func prepare(input: UserInput) throws -> LMInput {
+        let messages = messageGenerator.generate(from: input)
+
         do {
-            let messages = input.prompt.asMessages()
             let promptTokens = try tokenizer.applyChatTemplate(
                 messages: messages, tools: input.tools, additionalContext: input.additionalContext)
             return LMInput(tokens: MLXArray(promptTokens))
         } catch {
             // #150 -- it might be a TokenizerError.chatTemplate("No chat template was specified")
             // but that is not public so just fall back to text
-            let prompt = input.prompt
-                .asMessages()
+            let prompt =
+                messages
                 .compactMap { $0["content"] as? String }
                 .joined(separator: ". ")
             let promptTokens = tokenizer.encode(text: prompt)
@@ -273,7 +279,9 @@ public class LLMModelFactory: ModelFactory {
 
         return .init(
             configuration: configuration, model: model,
-            processor: LLMUserInputProcessor(tokenizer: tokenizer, configuration: configuration),
+            processor: LLMUserInputProcessor(
+                tokenizer: tokenizer, configuration: configuration,
+                messageGenerator: DefaultMessageGenerator()),
             tokenizer: tokenizer)
     }
 
 
@@ -0,0 +1,114 @@
+// Copyright © 2025 Apple Inc.
+
+public enum Chat {
+    public struct Message {
+        /// The role of the message sender.
+        public var role: Role
+
+        /// The content of the message.
+        public var content: String
+
+        /// Array of image data associated with the message.
+        public var images: [UserInput.Image]
+
+        /// Array of video data associated with the message.
+        public var videos: [UserInput.Video]
+
+        public init(
+            role: Role, content: String, images: [UserInput.Image] = [],
+            videos: [UserInput.Video] = []
+        ) {
+            self.role = role
+            self.content = content
+            self.images = images
+            self.videos = videos
+        }
+
+        public static func system(
+            _ content: String, images: [UserInput.Image] = [], videos: [UserInput.Video] = []
+        ) -> Self {
+            Self(role: .system, content: content, images: images, videos: videos)
+        }
+
+        public static func assistant(
+            _ content: String, images: [UserInput.Image] = [], videos: [UserInput.Video] = []
+        ) -> Self {
+            Self(role: .assistant, content: content, images: images, videos: videos)
+        }
+
+        public static func user(
+            _ content: String, images: [UserInput.Image] = [], videos: [UserInput.Video] = []
+        ) -> Self {
+            Self(role: .user, content: content, images: images, videos: videos)
+        }
+
+        public enum Role: String {
+            case user
+            case assistant
+            case system
+        }
+    }
+}
+
+/// Protocol for something that can convert structured
+/// ``Chat.Message`` into model specific ``Message``
+/// (raw dictionary) format.
+///
+/// Typically this is owned and used by a ``UserInputProcessor``:
+///
+/// ```swift
+/// public func prepare(input: UserInput) async throws -> LMInput {
+///     let messages = Qwen2VLMessageGenerator().generate(from: input)
+///     ...
+/// ```
+public protocol MessageGenerator {
+
+    /// Returns `[String: Any]` aka ``Message``.
+    func generate(message: Chat.Message) -> Message
+}
+
+extension MessageGenerator {
+    /// Returns array of `[String: Any]` aka ``Message``
+    public func generate(messages: [Chat.Message]) -> [Message] {
+        var rawMessages: [Message] = []
+
+        for message in messages {
+            let raw = generate(message: message)
+            rawMessages.append(raw)
+        }
+
+        return rawMessages
+    }
+
+    /// Generates messages from the input.
+    public func generate(from input: UserInput) -> [Message] {
+        switch input.prompt {
+        case .text(let text):
+            generate(messages: [.user(text)])
+        case .messages(let messages):
+            messages
+        case .chat(let messages):
+            generate(messages: messages)
+        }
+    }
+}
+
+/// Default implementation of ``MessageGenerator`` that produces a
+/// `role` and `content`.
+///
+/// ```swift
+/// [
+///     "role": message.role.rawValue,
+///     "content": message.content,
+/// ]
+/// ```
+public struct DefaultMessageGenerator: MessageGenerator {
+    public init() {}
+
+    public func generate(message: Chat.Message) -> Message {
+        [
+            "role": message.role.rawValue,
+            "content": message.content,
+        ]
+    }
+}
Original file line number	Diff line number	Diff line change
`@@ -412,13 +412,22 @@ class VLMEvaluator {`
`412`	`412`	`if !images.isEmpty \|\| !videos.isEmpty {`
`413`	`413`	`[`
`414`	`414`	`[`
`415`		`- "role": "user",`
	`415`	`+ "role": "system",`
`416`	`416`	`"content": [`
`417`	`417`	`[`
`418`	`418`	`"type": "text",`
`419`	`419`	`"text": videoURL != nil`
`420`	`420`	`? videoSystemPrompt : imageSystemPrompt,`
`421`	`421`	`]`
	`422`	`+ ],`
	`423`	`+ ],`
	`424`	`+ [`
	`425`	`+ "role": "user",`
	`426`	`+ "content": [`
	`427`	`+ [`
	`428`	`+ "type": "text",`
	`429`	`+ "text": prompt,`
	`430`	`+ ]`
`422`	`431`	`]`
`423`	`432`	`// Messages format for Qwen 2 VL, Qwen 2.5 VL. May need to be adapted for other models.`
`424`	`433`	`+ images.map { _ in`
`@@ -427,7 +436,7 @@ class VLMEvaluator {`
`427`	`436`	`+ videos.map { _ in`
`428`	`437`	`["type": "video"]`
`429`	`438`	`},`
`430`		`- ]`
	`439`	`+ ],`
`431`	`440`	`]`
`432`	`441`	`} else {`
`433`	`442`	`[`