これはOmniParserで画面を解析し、GUIを自動で操作させるためのMCP serverです。
Windowsで動作確認しております.
これはMIT licenseですが、サブモジュールとパッケージはそれらのライセンスに従います。
OmniParserのリポジトリ(サブモジュール)はCC-BY-4.0です。
OmniParserのモデルはそれぞれ異なるライセンスに従います(参照).
- 以下を実行してください。
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
uv run download_models.py
(langchain_example.py
を動作させたい場合は代わりにuv sync --extra langchain
を実行してください)
claude_desktop_config.json
に以下を追加してください。
{
"mcpServers": {
"omniparser_autogui_mcp": {
"command": "uv",
"args": [
"--directory",
"D:\\CLONED_PATH\\omniparser-autogui-mcp",
"run",
"omniparser-autogui-mcp"
],
"env": {
"PYTHONIOENCODING": "utf-8"
}
}
}
}
(D:\\CLONED_PATH\\omniparser-autogui-mcp
はクローンしたディレクトリに置き換えてください)
env
には追加で以下の設定が出来ます。
-
OMNI_PARSER_BACKEND_LOAD
他のクライアント(LibreChatなど)で動作しない場合、1
と指定してください -
TARGET_WINDOW_NAME
操作させるウィンドウを指定したい場合、ウィンドウ名を指定してください
指定しない場合、画面全体に対して動作します -
OMNI_PARSER_SERVER
他のデバイスでOmniParserの処理を行う場合、127.0.0.1:8000
のようにサーバーのアドレスとポートを指定してください
サーバーはuv run omniparserserver
で開始できます -
SSE_HOST
,SSE_PORT
指定するとstdioではなくSSEで通信を行うようになります -
SOM_MODEL_PATH
,CAPTION_MODEL_NAME
,CAPTION_MODEL_PATH
,OMNI_PARSER_DEVICE
,BOX_TRESHOLD
OmniParserの設定用です
通常は不要です
- 画面を確認し、ブラウザから「MCPサーバー」と入力して検索してください
など