Skip to content

Latest commit

 

History

History
72 lines (53 loc) · 2.56 KB

README_ja.md

File metadata and controls

72 lines (53 loc) · 2.56 KB

omniparser-autogui-mcp

これはOmniParserで画面を解析し、GUIを自動で操作させるためのMCP serverです。
Windowsで動作確認しております.

ライセンスについて

これはMIT licenseですが、サブモジュールとパッケージはそれらのライセンスに従います。
OmniParserのリポジトリ(サブモジュール)はCC-BY-4.0です。
OmniParserのモデルはそれぞれ異なるライセンスに従います(参照).

インストール方法

  1. 以下を実行してください。
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
uv run download_models.py

(langchain_example.pyを動作させたい場合は代わりにuv sync --extra langchainを実行してください)

  1. claude_desktop_config.jsonに以下を追加してください。
{
  "mcpServers": {
    "omniparser_autogui_mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "D:\\CLONED_PATH\\omniparser-autogui-mcp",
        "run",
        "omniparser-autogui-mcp"
      ],
      "env": {
        "PYTHONIOENCODING": "utf-8"
      }
    }
  }
}

(D:\\CLONED_PATH\\omniparser-autogui-mcpはクローンしたディレクトリに置き換えてください)

envには追加で以下の設定が出来ます。

  • OMNI_PARSER_BACKEND_LOAD
    他のクライアント(LibreChatなど)で動作しない場合、1と指定してください

  • TARGET_WINDOW_NAME
    操作させるウィンドウを指定したい場合、ウィンドウ名を指定してください
    指定しない場合、画面全体に対して動作します

  • OMNI_PARSER_SERVER
    他のデバイスでOmniParserの処理を行う場合、127.0.0.1:8000のようにサーバーのアドレスとポートを指定してください
    サーバーはuv run omniparserserverで開始できます

  • SSE_HOST, SSE_PORT
    指定するとstdioではなくSSEで通信を行うようになります

  • SOM_MODEL_PATH, CAPTION_MODEL_NAME, CAPTION_MODEL_PATH, OMNI_PARSER_DEVICE, BOX_TRESHOLD
    OmniParserの設定用です
    通常は不要です

プロンプト例

  • 画面を確認し、ブラウザから「MCPサーバー」と入力して検索してください

など