AIGC(生成式AI)试用 25 -- 跟着清华教程学习 - DeepSeek+DeepResearch让科研像聊天一样简单

发布于:2025-03-01 ⋅ 阅读:(18) ⋅ 点赞:(0)

目标:继续学习,以DeepSeek为主

个人理解:
- 模型结合,充分发挥各模型的优势
- 关注应用,弱化理论,了解就好
- 多模态:多模态(Multimodality)是指结合多种不同类型的数据或信息(模态)来进行分析、处理或生成任务。这些模态可以包括文本、图像、音频、视频、传感器数据等。多模态方法的核心思想是通过融合不同模态的信息,提升模型的性能或生成更丰富的结果。-- 多形态数据
- AI是什么:是陌生的朋友,能陪伴又不打扰;是助手,一心一意执行和回复,虽然有时会“幻觉”

DeepSeek+DeepResearch让科研像聊天一样简单

  • DeepSeek
    - DeepSeek R1 的核心突破在于其通过强化学习驱动的推理能力 。该模型在训练过程中,通过强化学习技术 ,显著提升模型的推理能力 ,使其在数学 、编程和自然语言推理等任务上表现出色。
    - DeepSeek R1-Zero 是首个完全基于强化学习( RL)训练的推理模型 ,无需任何监督微调( SFT )步骤 ,打破传统模型依赖大量标注数据的惯例 。
    - DeepSeek R1 在推理过程中采用“深度思考 ”模式,通过展示完整的推理路径来提高模型的可解释性和可信度。 -- 深度思考R1
    - DeepSeek R1 支持长链推理 ,能够生成数万字的思维链 ,显著提高复杂任务的推理准确性,其长链推理能力在数学 、编程和自然语言推理等任务中表现出色。-- 上下文连贯性
    - DeepSeek R1 在多模态任务中表现出色 ,能够处理复杂场景下的逻辑 、公式识别及自然图像等问题 ,显示出其在多模态任务中的广泛应用潜力。
    - 冷启动数据是指在模型训练初期, 引入的一小部分高质量 、结构化的数据 。其作用是为模型提供一个良好的起点,解决强化学习训练初期的不稳定问题 ,规范模型的输出格式和推理链条,使其更符合人类可读性。
    - DeepSeek通过架构创新和模型蒸馏技术,在提升模型性能的同时 ,显著降低计算成本和内存占用。这些技术不仅在长文本处理 、代码生成 、数学推理等任务中表现出色,还为大模型的轻量化和实际应用提供了有力支持。
    - DeepSeek采用模型蒸馏技术, 通过将知识从大型复杂模型(教师模型) 迁移到小型高效模型(学生模型),实现性能和效率的双重优化 。-- 理论。。。算了,知道,实际要应用
    - DeepSeek的本地部署在性能上表现出色, 能够满足不同应用场景的需求, 尤其是在端侧和端云协同场景 。通过合理的硬件配置和优化策略, DeepSeek可以在本地环境中高效运行, 为用户提供强大的AI支持 。-- 个人知识库,私有化应用,满足不同需求,更适应于行业深度应用
    - DeepSeek践行强化逻辑推理( R1) 与长文本效率( V3) 的差异化技术路线, 其在性能和成本方面展现出色的性价比, 尤其在训练成本和开源透明度方面具有明显优势 。
    - DeepSeek的成功促使AI行业重新审视技术应用与发展方向 。其低成本 、高性能的模型为AI技术的普及提供了实际范例,推动了AI技术在训练成本 、模型效能和开源生态方面的新标准的形成。
    - DeepSeek R1将通过强化学习和多模态融合等技术手段, 进一步提升推理能力 、优化语言理解和生成效果, 并拓展在复杂任务中的应用边界; 同时, 将深耕垂直领域, 如教育 、金融 、医疗等, 为不同领域提供更精准 、高效的解决方案 。
    - DeepResearch能迅速梳理海量文献,提炼关键信息,显著提升文献综述效率;基于深度学习模型, 自动生成高质量技术报告,确保研究成果的准确传达。-- 比人类自身更高效的进行大数据量的整合、分析、总结、推理、应用
    - 数据勘探者、逻辑架构师、批判审查团
    - AI 自主任务规划与执行(AI Agent):AI 能够自主分解任务、规划步骤,并利用外部工具(如API 、数据库 、自动化流程)执行任务。
    - LLM(LLM+KG)
  • DeepResearch:团队自研DeepResearch: 软件免费公测,通过百度网盘分享的文件:AI学术工具公测版.exe,链接: https://pan.baidu.com/s/1vGyt9trkXHUZLe9GGT4URA?pwd=rc5p  -- DeepResearch软件 及 DeepSeek清华教程全版
  • 能做什么
    - AIGC数据应用:数据采集、数据处理、数据分析、数据挖掘、数据可视化
    - 模型特点 -- 模型结合,充分发挥各模型的优势
    - 优势互补,协同应用:数据采集、数据预处理、数据分析、可视化呈现
    DeepSeekR1 高效推理: 专注于低延迟和高吞吐量,适合实时应用。
    轻量化设计:模型结构优化,资源占用少, 适合边缘设备和移动端。
    多任务支持:支持多种任务,如文本生成 、分类和问答。
    Open AI o3 mini 小型化设计:轻量级模型,适合资源有限的环境。
    快速响应:优化推理速度,适合实时交互场景。
    通用性强 :适用于多种自然语言处理任务 ,如对话生成和文本理解
    Claude 3.5 sonnet 平衡性能:在模型大小和性能之间取得平衡 ,适合中等规模任务。
    多模态支持 :支持文本和图像处理,扩展应用场景。
    可解释性 :注重模型输出的可解释性和透明
    Kimi k1.5 垂直领域优化 :针对特定领域(如医疗 、法律)进行优化,提供高精度结果。
    长文本处理 :擅长处理长文本和复杂文档,适合专业场景。
    定制化能力:支持用户自定义训练和微调,适应特定需
    爬虫数据采集:目前DeepSeek R1 、Open AI o3mini 、Kimi k1.5支持联网查询网址 ,Claude 3.5 sonnet暂不支持;
    四个模型均能根据上传的网页代码,对多个网址链接进行筛选 、去重 ,完全提取出符合指令要求的所有网址链接并形成列表;
    在复杂爬虫任务上,DeepSeek R1与Open AI o3min生成的代码均能正常执行数据采集任务 ,o3响应速度更快,R1数据采集结果更加完整准确;其他2个模型都存在多次调试但代码仍然运行不成功的问题,如代码中罗列URL不全 、输出文本中提取数据为空等。
    文件数据读取:DeepSeek R1与Claude 3.5 sonnet均能很好的完成文件数据读取任务 ,生成的表格逻辑性强 、数据指标清晰 ,Claude 3.5 sonnet一次性完成表格生成后支持直接复制和表格文件下载。
    Open AI o3mini能够更加高效地完成数据提取任务,输出表格准确,但暂不支持附件上传 ,文件读取依靠粘贴稍显不便;Kimi k1.5文件数据提取有明显空缺。
    文本数据集成:一般文本处理任务中,DeepSeek R1所提取的文本数据维度最为全面,但容易受文本长度或模型稳定性影响出现失误;其他三个模型在文本数据提取过程中,都存在对部分数据的忽略问题 ,没有完整集成到可视化表格中;
    长文本处理任务中,Kimi k1.5相较短文本处理表现更加突出,提取准确的同时数据维度更加全面; 由于文本过长DeepSeek R1无法完成任务;
    综合来看 ,Open AI o3mini响应最快效率最高,但在数据集成维度上稍显不足,同时与Claude 3.5 sonnet所输出的表格更为工整 、简洁。
    数据分析:DeepSeek R1与Open AI o3mini的数据分析能力相当,且领先其他两个模型 ,均能够精准抓取数据核心指标并做统计,找到各特征与核心指标的关联,其中R1分析逻辑更加清晰严谨 ,而o3推理更加高效;
    Kimi k1.5推理逻辑清晰但分析能力相对较弱, Claude 3.5 sonnet能够提供分析思路但没有明确结论。
    数据挖掘:Kimi k1.5该任务中表现最为出色,对特征进行精准分类,从多维度深入挖掘指定数据的深层内涵和关联性;
    DeepSeek R1与Claude 3.5 sonnet同样能准确完成数据的分类任务,但数据之间的关联挖掘程度相对较浅;
    Open AI o3mini受附件上传限制影响,由于数据集较大 ,暂不能完成该任务。
    数据可视化:Open AI o3mini的数据可视化能力突出 ,能够直接高效地生成多种类型可视化图表 ,准确度高;
    DeepSeek R1 、Kimi k 1 . 5均能基于分析结果提供多种可视化图表绘制方案 ,但都需要依靠运行Python代码才能完成绘图任务,部分代码会出现错误
    DeepSeekR1 文件数据读取完整无缺失
    数据分析全面 、逻辑清晰严谨
    网络爬虫任务数据爬取完整 、准确
    数据挖掘能够准确分类并提供建议数据可视化任务能力有待完善
    Open AI o3 mini 数据分析高效 、全面 、准确
    数据可视化能力突出 、直接生成
    网络爬虫任务爬取数据结果为空
    暂不支持上传数据附件数据挖掘深度较浅
    Claude 3.5 sonnet 数据读取输出逻辑性强 、指标清晰
    数据分析任务完成得较为简单
    爬虫数据采集未形成明确结论
    数据挖掘深度较浅暂不能直接绘制出可视图表
    Kimi k1.5 数据挖掘能力出色
    快速读取文件数据, 提取网址链接
    长文本数据处理能力突出
    爬虫数据采集存在代码错误问题数据分析能力相对较弱
  • 要做什么
    - 撰写文章标题
    - 中英互译
    - 中文学术写作润色
    - 英文学术写作润色
    - 提升段落间逻辑和连贯性 -- 关键是给出写解释和修正原因
    - 标点符号错误一键修改 -- 软件查虫,更高效的拼写检查、错误修正
    - 改写降重
    - 解读文献配图 -- 降低理解难度
    - 论文参考文献格式
    - 高阶数据分析 -- 只要能想到,就能帮着完成
  • 怎么样 -- 应用对比
    - 元知AI:AI学术平台,帮助用户从海L量文献中提取核心信息
    - 中科院PubScholar平台:中国科学院开发的公益学术平台, 整合了国内外多种学术资源
    - 知网研学平台:同PubScholar ??
    - 斯坦福STORM:AI科研工具,通过多智能体协作, 实现L从提纲到段落再到文章的迭代式生成,为用户生成内容大纲及高质量长文本