“易问易视”——让数据分析像聊天一样简单

发布于:2025-06-26 ⋅ 阅读:(13) ⋅ 点赞:(0)

一、项目简介

“易问易视”通过自然语言理解和大语言模型技术,将用户的中文查询自动转化为数据处理指令,实现无代码的数据检索与图表生成。你只要在大屏上输入一句话,比如“2024年每月有多少人出境”,它就能自动看懂你要查的时间、指标、维度,然后在后台用Pandas和NumPy把国家统计局或行业CSV里的数据清洗、筛选、聚合好,再用Matplotlib、Plotly画出柱状图、折线图、饼图甚至地图,最后在Streamlit界面上一秒钟呈现出来。

系统自动识别时间、指标、维度等要素,调用 Pandas 完成数据清洗、筛选与聚合,并智能选取柱状图、折线图、饼图等可视化形式,最终在 Streamlit 界面以大屏方式即时展示。

项目采用模块化架构,包含 NLU、数据处理、可视化生成和前端 UI 多个模块,既支持静态 CSV/Excel 数据源,也可扩展至数据库或 API 接入。

二、项目核心功能

1、自然语言理解(NLU)

系统接收用户的文本输入,通过自然语言处理技术(如意图识别、实体提取)解析用户查询意图,提取关键信息(如时间、指标、维度等)。

2、数据处理与分析

依据NLU结果,系统自动访问关联数据源(初期使用预设的结构化数据集,如公开的经济、社会统计数据等),并进行数据清洗、筛选、聚合等操作。

3、智能可视化生成

系统根据分析结果及用户查询类型,自动选择合适的图表形式(如柱状图、饼图、折线图、地图等)并生成图表。

4、展示结果

系统会在大屏展示区将图表、关键数据和文字解读一并呈现,用户无需额外操作,就能一目了然地看到。

三、技术路线

系统整体分为五大模块,每个模块各司其职,又紧密配合,共同实现“用户一句话→自动生成数据表格和图表”的体验。

四、效果演示 

1、条形图:

2、折线图:

 

3、饼状图:

 

“易问易视”

五、潜在挑战与策略

1.自然语言理解(NLU)准确性

  • 挑战:用户提问多样,语义歧义或复杂句式可能导致系统误解。
  • 策略
    • 初期限定提问模板(如“×年×省出境人口趋势”、“主要出境目的地占比”等),降低解析难度;
    • 选用高性能的预训练大模型(如中文T5、ERNIE等),并加入领域微调;
    • 建立用户反馈闭环:允许用户对“解析结果—可视化”进行打分与纠错,用于持续优化NLU模块。

2.数据源覆盖与时效性

挑战:无法实时获取所有用户可能问到的数据,难以满足用户的实时查询需求。

  • 策略
    • 在界面及文档中明确标注“数据截止时间”“数据范围”(如省级/市级);
    • 优先接入公开、代表性强的历史统计数据进行演示;
    • 规划接入社交媒体、大交通运营等高频“信号源”作为未来扩展,提升时效性。

3.处理复杂多条件查询

  • 挑战:用户可能提出多条件、比较类的复杂问题。
  • 策略
    • 从简单查询开始实现,逐步迭代支持更复杂的查询逻辑
    • 对复杂查询返回中间结果(如先展示筛选后的表格),并允许用户进一步细化。

网站公告

今日签到

点亮在社区的每一天
去签到