【Python】Browser-Use：让 AI 替你掌控浏览器，开启智能自动化新时代！-EW帮帮网

Browser-Use：让 AI 替你掌控浏览器，开启智能自动化新时代！

Github地址: https://github.com/browser-use/browser-use/tree/main

在这里插入图片描述

在 AI 浪潮席卷的今天，我们是否想过让 AI 不仅仅是聊天、生成内容，而是能像人一样实际操作我们的电脑，尤其是浏览器？手动执行重复的网页任务既耗时又乏味，而 browser-use 项目的出现，正是为了解决这个问题！

browser-use 是一个强大的 Python 库，它能让你轻松地将 AI 代理（Agent）与浏览器连接起来，实现用自然语言指令驱动浏览器完成各种复杂任务。 想象一下，你只需要告诉 AI “帮我比较 gpt-4o 和 DeepSeek-V3 的价格”，或者“把我最新的 LinkedIn 关注者添加到 Salesforce 的潜在客户列表”，AI 就能自动打开浏览器、浏览网页、提取信息、填写表单、点击按钮，最终完成你的指令。

🚀 `browser-use` 的核心优势

易于上手: 只需简单的 pip 安装和几行 Python 代码，就能快速启动你的第一个浏览器 AI 代理。
强大的 AI 支持: 集成了 langchain-openai，可以方便地接入 GPT-4o 等先进的 LLM 模型。同时支持配置多种 AI Provider（OpenAI, Anthropic, Azure, Gemini, DeepSeek 等），只需在 .env 文件中添加对应的 API Key。
云端托管版本 ☁️: 不想本地配置环境？browser-use 提供了云端托管版本，让你跳过所有设置步骤，即刻体验浏览器自动化。
可视化测试 UI: 提供了 Gradio 示例和独立的 Web UI 仓库，方便进行交互式测试和演示。
丰富的示例 Demos: 项目提供了多个引人入胜的用例，直观展示 browser-use 的强大能力（详见下文描述）。
活跃的社区: 拥有活跃的 Discord 社区，可以与其他开发者交流、分享项目、获取帮助。
清晰的文档 📕: 提供详细的官方文档，涵盖安装、配置、使用及开发细节。
明确的愿景和路线图: 项目致力于实现“告诉电脑做什么，它就能完成”的愿景，并有清晰的 Roadmap，包括改进 Agent 记忆、增强规划能力、优化 DOM 提取、降低 Token 消耗、支持工作流模板、构建数据集等。

🛠️ 快速开始

环境要求: Python >= 3.11

安装 browser-use:
```
pip install browser-use
```
安装 Playwright 浏览器驱动: (以 chromium 为例)
```
playwright install chromium
```

配置 API Keys:
在你的项目根目录下创建一个 .env 文件，并添加你所需使用的 LLM Provider 的 API Key：

OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx
ANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxxxxx
# AZURE_ENDPOINT=YOUR_AZURE_ENDPOINT
# AZURE_OPENAI_API_KEY=YOUR_AZURE_API_KEY
# GEMINI_API_KEY=YOUR_GEMINI_API_KEY
# DEEPSEEK_API_KEY=YOUR_DEEPSEEK_API_KEY

编写你的第一个 Agent:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv

# 加载 .env 文件中的环境变量
load_dotenv()

async def main():
    agent = Agent(
        task="Compare the price of gpt-4o and DeepSeek-V3", # 你的任务指令
        llm=ChatOpenAI(model="gpt-4o"), # 选择使用的 LLM
        # 更多配置项请参考文档
    )
    # 运行 Agent，它会自动控制浏览器完成任务
    await agent.run()

if __name__ == "__main__":
    asyncio.run(main())

就是这么简单！运行这段代码，browser-use 就会启动一个浏览器实例，并尝试根据你的指令 “Compare the price of gpt-4o and DeepSeek-V3” 进行网页浏览和信息提取。

✨ Demos 用例描述

browser-use 的能力远不止于此，看看这些它能完成的任务：

AI 帮你购物: 自动将指定的生鲜商品加入在线超市的购物车，并完成结账流程。
自动化 CRM: 访问 LinkedIn，找到你最新的关注者，然后登录 Salesforce，将该关注者的信息添加为新的潜在客户。
智能求职: 读取本地存储的简历文件，根据简历内容在招聘网站上搜索匹配的机器学习相关职位，将找到的职位信息保存到本地文件，然后自动在新的浏览器标签页中打开这些职位的申请页面，开始填写申请（如果遇到困难会请求用户帮助）。
文档操作: 打开 Google Docs，撰写一封给特定收件人（如“Papa”）的感谢信，表达感谢之情，然后将该文档保存为 PDF 文件。
数据提取与处理: 访问 Hugging Face 网站，筛选出使用 cc-by-sa-4.0 许可证的模型，按照点赞数量进行排序，并将排名最高的 5 个模型的信息（如名称、链接等）提取并保存到本地文件中。

更多精彩示例可以在 examples 文件夹中找到对应的 Python 脚本。

总结

browser-use 为我们打开了一扇通往 AI 驱动的浏览器自动化的新大门。它将强大的 LLM 能力与成熟的 Playwright 浏览器控制相结合，提供了简单易用且功能丰富的解决方案。无论你是想自动化处理日常的网页任务、构建复杂的工作流，还是探索 AI Agent 的前沿应用，browser-use 都值得一试！

【Python】Browser-Use：让 AI 替你掌控浏览器，开启智能自动化新时代！

Browser-Use：让 AI 替你掌控浏览器，开启智能自动化新时代！

🚀 `browser-use` 的核心优势

🛠️ 快速开始

✨ Demos 用例描述

总结

网站公告

今日签到

热门文章

最新发布

【Python】Browser-Use：让 AI 替你掌控浏览器，开启智能自动化新时代！

Browser-Use：让 AI 替你掌控浏览器，开启智能自动化新时代！

🚀 browser-use 的核心优势

🛠️ 快速开始

✨ Demos 用例描述

总结

网站公告

今日签到

热门文章

最新发布

🚀 `browser-use` 的核心优势