转载来源于“DataFunSummit”,感谢DataFun各位老师!
随着AI社交需求爆发式增长,用户对个性化交互、高浓度情感陪伴、多模态实时理解及隐私安全的诉求愈发凸显。然而,通用大模型在垂直社交场景中存在适应性不足、情绪价值弱、多模态融合低效与合规风险等短板,亟需构建自主可控的社交专属大模型。
为此,趣丸科技提出以“场景专属、安全可信、多模态协同”为目标的自研开天社交大模型,其核心技术路径包括,技术创新,探索出了垂域大模型的研发思路,形成了CPT+SFT+RLHF迭代技术,过程中采用mask机制和动态样本调整方法提升模型学习的效率和质量;其次是数据与训练优化,通过脱敏社交数据与两阶段训练(通用预训练+垂直微调),结合LoRA轻量化技术,实现高精度与低成本平衡;最后是模型评测及推理,联合国内高校构建社交领域大模型评测方法和数据集,准确衡量垂域模型效果,同时通过模型剪枝量化等方式,加速线上推理,提升并发。
目前,趣丸科技研发的开天模型已在多个业务场景落地(TT语音),依据场景复杂程度,开天提供了7b,14b,32b等不同参数级别模型,既能满足用户情感陪伴诉求,又能平衡并发和推理延时。
在7月25-26日深圳举办的DA数智技术大会上,我们邀请了趣丸科技媒体算法负责人马金龙老师,来分享#开天社交模型的研发和应用实践,介绍#开天模型 在高拟真人社交、心理健康支持、有温度智能客服等场景应用。
01
行业洞察与技术必要性
DataFun:您提到通用大模型在社交场景中存在“情绪价值弱、多模态融合低效”等短板。能否结合具体案例说明,通用大模型在社交交互中难以满足哪些用户深层需求?例如情感陪伴场景中,通用模型与垂域模型的体验差异如何体现?
马金龙:目前通用大模型在迭代过程中受制于数据集的侧重,能力重点也会集中在语言理解,问题解答,文本创意,数理逻辑推理,代码生成等方面,而在实际社交业务场景需要的是更拟人化的情感陪伴大模型。从能力维度更强调的是情感理解,情感识别,情感回应等能力,从体验角度是类似一个真人在陪伴用户,聊天只是情感传递的载体而已。二者差异主要集中在回答的质量(拟人化&情感满足程度),回答格式(长度&口语化&表情符号等),回答角度(角色&目的等)。下面简单举例说明,在公司泼墨体AIGC开发平台上进行模型对比测试,左边是情感模型回复,内容简单,拟人化程度高,愿意倾听用户诉求,右边是通用模型,通用模型首先是在解决问题,告诉用户怎么做了,且内容冗长。
DataFun:趣丸开天社交大模型提出“场景专属、安全可信、多模态协同”三大目标。其中“场景专属”如何通过技术路径实现?是否意味着需要重构模型架构,还是通过数据与训练策略的差异化设计?
马金龙:“场景专属”目前是通过post-training的方式实现,具体路径依据场景能力拆解,例如在常规人机聊天场景,我们拆解了心理咨询,安慰缓解,谈情说爱等子能力,接下来依据自能力任务诉求准备高质量数据集进行模型后训练,进而达成在特定场景模型能力提升。不需要重构模型架构,是数据和训练策略差异化设计,不过在AI社交多轮对话模型训练中,我们也提出了加速训练和提升训练效果的创新技术,对于训练策略,我们会按迭代指标或能力要求采取不同的微调方式,例如全参数,LoRA,QLoRA等,以及DPO,PPO,或者GRPO的RLHF方式。
02
核心技术路径与创新
DataFun:演讲中提到的“CPT+SFT+RLHF迭代技术”是趣丸开天模型的核心创新之一。能否详解“动态样本调整方法”如何优化模型学习效率?例如,在社交垂域中,哪些类型的数据需要动态加权或降权?
马金龙:动态样本调整方法其实是在多轮对话模型训练过程中,为了高效学习质量层次不齐数据集中特定能力的方法。具体来讲就是由于单一一组会话,轮次比较多,很难保证每一句或者每一句里面的所有内容都是满足高质量要求的。为了尽可能选择高质量内容,只能在训练过程中针对部分明显有问题,语义不连贯,人设遵循差的内容进行mask,训练时候动态降权,只学习精华部分,以此来提升模型能力。
DataFun:趣丸开天模型采用“脱敏社交数据+LoRA轻量化技术”实现低成本训练。如何解决社交数据脱敏后信息密度下降的问题?LoRA技术在参数微调中是否牺牲了模型的多模态协同能力?
马金龙:目前我们采用两个方法,一是对脱敏后的内容进行改写,通过评估模型检测改写质量,通过改写来适当补齐因为脱敏带来的信息熵减。二是对脱敏后的数据进行洞察,如果从信息量,会话质量,情感浓度等方面得分很低,会直接去掉此类数据。是会有牺牲,不过目前我们模型重点是在文本领域,优先保证文本领域效果即可。
DataFun:趣丸科技在语音大模型、图像生成等领域有深厚积累。趣丸开天模型如何整合语音、文本、视觉等多模态信号?例如,在“情感陪伴”场景中,语音语调与文本内容的情绪一致性如何实现联合建模?
马金龙:目前整合分两部分,一部分是纯工程侧整合,例如在AI社交场景中,提供语音,图文等聊天入口,通过语音大模型,文本大模型等进行社交服务。另一部分是构建多模态大模型,一方面,在输入侧,对输入语音提取语气语调情感事件等标签,再与文本内容情绪标签进行二重评估,最终给出统一理解标签,作为训练数据;另一方面,输出侧我们使用自研的超拟人多情感TTS,结合上文情绪情景和对话文本生成回复内容,来作为AI回复的训练数据,以增强多模态大模型回复时的文本与语音情感一致性。然后结合端到端的训练方案,既能保持语音与文本情绪的一致性,又能兼顾输入侧到输出侧情感的自然衔接。
03
工程化落地与效果验证
DataFun:您提到与高校合作构建社交领域评测数据集。这类数据集如何量化“情绪价值”等抽象指标?是否引入心理学评估方法(如情感共鸣度、用户留存率)作为辅助评测维度?
马金龙:目前跟高校合作确实已经引入了心理学的一些方法构建了“三维一体”的系统评测方法。例如在情绪价值方面专门设计了情感满足度的衡量指标和方法,来度量模型在聊天的此次会话中,用户情感满足度是否有明显提升。其次,在情感理解和情感管理,情感应用方面也按应用场景涉及了8000多道题目,进行专门的衡量,来验证模型的复杂应用场景中如何处理情感相关问题的能力。最后还参考业界关于情商和智商测评方法,依据心理学中情商量表和部分通用语言理解评测集,来共同衡量模型在通用情商和智商方面的能力。但由于模型应用场景比较多,目前未考虑用户向的指标来衡量,同时也考虑到此类指标受多重因素影响,很难单一反映模型能力,故未采取。
DataFun:趣丸开天模型通过剪枝量化提升并发性能。在TT语音社交场景中,32B模型的实际推理延时与7B模型相比如何?是否采用分层推理(如高频请求走轻量模型)实现成本与体验的平衡?
马金龙:目前32B模型在量化和动态剪枝后,Input:1500tokens,Output:50token耗时大概是2s左右,7B模型同等输入和输入,耗时大概0.6s。考虑过分层推理方案,但考虑到用户在会话连贯性和情感浓度方面的体验,最终还是放弃了分层推理来降低成本的想法。只是依据不同场景和用户习惯,设计了不同参数级别模型以求模型体验和推理成本的动态平衡。
04
合规安全与生态价值
DataFun:生成内容的全链路审核平台如何与趣丸开天模型协同?是否采用“生成前提示词过滤+生成后多模态内容检测”的双重机制?审核模型的误判率如何控制在业务可接受范围内?
马金龙:前面我们团队就是专门做多模态内容审核的,所以在切换到做开天大模型后,顺理成章把原来的技术成果引用起来。确实是“生成前提示词过滤+生成后多模态内容检测”双重机制,不过作为社交模型,在模型设计和训练方面,也考虑模型价值观和安全的问题,专门进行了优化和提升,以便从模型侧就能保证安全,再加上双重机制加持,进一步提升安全能力。审核模型针对生成式模型内容结合业务侧常规审核要求进行了重新迭代优化,目前审核准确率均已达到业界先进水平(已通过广东省科技厅科技成果评价)。
DataFun:在“心理健康支持”等敏感场景中,趣丸开天模型如何避免伦理风险?例如,是否设置用户情绪阈值触发人工干预,或通过知识库限制生成内容的建议范围?
马金龙:这是一个业界难题,目前也是结合心理诊疗方面一些成功经验,结合模型安全,在遇到特殊情绪问题后,分等级启用人工干预。
05
未来演进与行业影响
DataFun:您展望趣丸开天模型将推动社交生态向“更温暖、更健康”方向演进。从技术视角看,这是否需要构建用户-模型-平台的反馈闭环?例如,通过用户行为数据反哺模型的情感理解能力,形成“越用越懂你”的进化机制?
马金龙:是的,目前已经在构建中,已完成了平台的反馈,模型的输出我们定期会进行回溯和分析,作为提升高质量数据集的输入,以便训练的模型能更好的为用户提供社交体验,同时也向“更温暖、更健康”的目标前进。
嘉宾介绍
马金龙:趣丸科技 媒体算法负责人,研究生毕业,10+年算法研发经验,CCF专业会员,参与语音识别评测T/ISC 0034-2023标准制定,负责过音频前后端处理,弱网优化,音视频质量提升,智能内容安全审核“T网”,内容理解“T悟”等大型项目,目前主要负责AIGC类算法研发,包括自研LLM领域大模型,语音大模型,图像生成等。曾作为“灵声讯”创始人,参与智能媒体技术自媒体运营和推广。