一、项目简介
“易问易视”通过自然语言理解和大语言模型技术,将用户的中文查询自动转化为数据处理指令,实现无代码的数据检索与图表生成。你只要在大屏上输入一句话,比如“2024年每月有多少人出境”,它就能自动看懂你要查的时间、指标、维度,然后在后台用Pandas和NumPy把国家统计局或行业CSV里的数据清洗、筛选、聚合好,再用Matplotlib、Plotly画出柱状图、折线图、饼图甚至地图,最后在Streamlit界面上一秒钟呈现出来。
系统自动识别时间、指标、维度等要素,调用 Pandas 完成数据清洗、筛选与聚合,并智能选取柱状图、折线图、饼图等可视化形式,最终在 Streamlit 界面以大屏方式即时展示。
项目采用模块化架构,包含 NLU、数据处理、可视化生成和前端 UI 多个模块,既支持静态 CSV/Excel 数据源,也可扩展至数据库或 API 接入。
二、项目核心功能
1、自然语言理解(NLU)
系统接收用户的文本输入,通过自然语言处理技术(如意图识别、实体提取)解析用户查询意图,提取关键信息(如时间、指标、维度等)。
2、数据处理与分析
依据NLU结果,系统自动访问关联数据源(初期使用预设的结构化数据集,如公开的经济、社会统计数据等),并进行数据清洗、筛选、聚合等操作。
3、智能可视化生成
系统根据分析结果及用户查询类型,自动选择合适的图表形式(如柱状图、饼图、折线图、地图等)并生成图表。
4、展示结果
系统会在大屏展示区将图表、关键数据和文字解读一并呈现,用户无需额外操作,就能一目了然地看到。
三、技术路线
系统整体分为五大模块,每个模块各司其职,又紧密配合,共同实现“用户一句话→自动生成数据表格和图表”的体验。
四、效果演示
1、条形图:
2、折线图:
3、饼状图:
“易问易视”
五、潜在挑战与策略
1.自然语言理解(NLU)准确性
- 挑战:用户提问多样,语义歧义或复杂句式可能导致系统误解。
- 策略:
- 初期限定提问模板(如“×年×省出境人口趋势”、“主要出境目的地占比”等),降低解析难度;
- 选用高性能的预训练大模型(如中文T5、ERNIE等),并加入领域微调;
- 建立用户反馈闭环:允许用户对“解析结果—可视化”进行打分与纠错,用于持续优化NLU模块。
2.数据源覆盖与时效性
挑战:无法实时获取所有用户可能问到的数据,难以满足用户的实时查询需求。
- 策略:
- 在界面及文档中明确标注“数据截止时间”“数据范围”(如省级/市级);
- 优先接入公开、代表性强的历史统计数据进行演示;
- 规划接入社交媒体、大交通运营等高频“信号源”作为未来扩展,提升时效性。
3.处理复杂多条件查询
- 挑战:用户可能提出多条件、比较类的复杂问题。
- 策略:
- 从简单查询开始实现,逐步迭代支持更复杂的查询逻辑
- 对复杂查询返回中间结果(如先展示筛选后的表格),并允许用户进一步细化。