Browser-Use:让 AI 替你掌控浏览器,开启智能自动化新时代!
Github地址: https://github.com/browser-use/browser-use/tree/main
在 AI 浪潮席卷的今天,我们是否想过让 AI 不仅仅是聊天、生成内容,而是能像人一样实际操作我们的电脑,尤其是浏览器?手动执行重复的网页任务既耗时又乏味,而 browser-use
项目的出现,正是为了解决这个问题!
browser-use
是一个强大的 Python 库,它能让你轻松地将 AI 代理(Agent)与浏览器连接起来,实现用自然语言指令驱动浏览器完成各种复杂任务。 想象一下,你只需要告诉 AI “帮我比较 gpt-4o 和 DeepSeek-V3 的价格”,或者“把我最新的 LinkedIn 关注者添加到 Salesforce 的潜在客户列表”,AI 就能自动打开浏览器、浏览网页、提取信息、填写表单、点击按钮,最终完成你的指令。
🚀 browser-use
的核心优势
- 易于上手: 只需简单的
pip
安装和几行 Python 代码,就能快速启动你的第一个浏览器 AI 代理。 - 强大的 AI 支持: 集成了
langchain-openai
,可以方便地接入 GPT-4o 等先进的 LLM 模型。同时支持配置多种 AI Provider(OpenAI, Anthropic, Azure, Gemini, DeepSeek 等),只需在.env
文件中添加对应的 API Key。 - 云端托管版本 ☁️: 不想本地配置环境?
browser-use
提供了云端托管版本,让你跳过所有设置步骤,即刻体验浏览器自动化。 - 可视化测试 UI: 提供了 Gradio 示例和独立的 Web UI 仓库,方便进行交互式测试和演示。
- 丰富的示例 Demos: 项目提供了多个引人入胜的用例,直观展示
browser-use
的强大能力(详见下文描述)。 - 活跃的社区: 拥有活跃的 Discord 社区,可以与其他开发者交流、分享项目、获取帮助。
- 清晰的文档 📕: 提供详细的官方文档,涵盖安装、配置、使用及开发细节。
- 明确的愿景和路线图: 项目致力于实现“告诉电脑做什么,它就能完成”的愿景,并有清晰的 Roadmap,包括改进 Agent 记忆、增强规划能力、优化 DOM 提取、降低 Token 消耗、支持工作流模板、构建数据集等。
🛠️ 快速开始
环境要求: Python >= 3.11
安装
browser-use
:pip install browser-use
安装 Playwright 浏览器驱动: (以 chromium 为例)
playwright install chromium
配置 API Keys:
在你的项目根目录下创建一个.env
文件,并添加你所需使用的 LLM Provider 的 API Key:OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx ANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxxxxx # AZURE_ENDPOINT=YOUR_AZURE_ENDPOINT # AZURE_OPENAI_API_KEY=YOUR_AZURE_API_KEY # GEMINI_API_KEY=YOUR_GEMINI_API_KEY # DEEPSEEK_API_KEY=YOUR_DEEPSEEK_API_KEY
编写你的第一个 Agent:
from langchain_openai import ChatOpenAI from browser_use import Agent import asyncio from dotenv import load_dotenv # 加载 .env 文件中的环境变量 load_dotenv() async def main(): agent = Agent( task="Compare the price of gpt-4o and DeepSeek-V3", # 你的任务指令 llm=ChatOpenAI(model="gpt-4o"), # 选择使用的 LLM # 更多配置项请参考文档 ) # 运行 Agent,它会自动控制浏览器完成任务 await agent.run() if __name__ == "__main__": asyncio.run(main())
就是这么简单!运行这段代码,browser-use
就会启动一个浏览器实例,并尝试根据你的指令 “Compare the price of gpt-4o and DeepSeek-V3” 进行网页浏览和信息提取。
✨ Demos 用例描述
browser-use
的能力远不止于此,看看这些它能完成的任务:
- AI 帮你购物: 自动将指定的生鲜商品加入在线超市的购物车,并完成结账流程。
- 自动化 CRM: 访问 LinkedIn,找到你最新的关注者,然后登录 Salesforce,将该关注者的信息添加为新的潜在客户。
- 智能求职: 读取本地存储的简历文件,根据简历内容在招聘网站上搜索匹配的机器学习相关职位,将找到的职位信息保存到本地文件,然后自动在新的浏览器标签页中打开这些职位的申请页面,开始填写申请(如果遇到困难会请求用户帮助)。
- 文档操作: 打开 Google Docs,撰写一封给特定收件人(如“Papa”)的感谢信,表达感谢之情,然后将该文档保存为 PDF 文件。
- 数据提取与处理: 访问 Hugging Face 网站,筛选出使用
cc-by-sa-4.0
许可证的模型,按照点赞数量进行排序,并将排名最高的 5 个模型的信息(如名称、链接等)提取并保存到本地文件中。
更多精彩示例可以在 examples 文件夹 中找到对应的 Python 脚本。
总结
browser-use
为我们打开了一扇通往 AI 驱动的浏览器自动化的新大门。它将强大的 LLM 能力与成熟的 Playwright 浏览器控制相结合,提供了简单易用且功能丰富的解决方案。无论你是想自动化处理日常的网页任务、构建复杂的工作流,还是探索 AI Agent 的前沿应用,browser-use
都值得一试!