智慧赋能，“英才”施教

——大模型家庭英语教师应用

项目架构

本项目相关技术

1 MindsporeAI开发框架

MindSpore是一个全场景深度学习框架，旨在实现易开发、高效执行、全场景覆盖三大目标，其中易开发表现为API友好、调试难度低，高效执行包括计算效率、数据预处理效率和分布式训练效率，全场景则指框架同时支持云、边缘以及端侧场景。

该项目基于MindSpore框架进行搭建，使用MindSpore开发高性能算子。华为MindSpore框架技术先进可行具有良好的研发应用生态。

2 大语言模型推理

大语言模型是实现AI私人教师的基础，我们使用ModelScope社区提供的GPT-3模型。


图2-1：模型结构图

3 思维骨架进行长期推理和规划安排(SOT)

对于大语言模型的规划推理，我们打算使用LangChain开源库以及可视化的LangFlow开源库，搭建模型的思维骨架，实现多种功能的思考推理。同时，我们将设计并完善一个prompt系统，一步一步引导题型大语言模型完成长期推理和规划安排的任务，扮演好一个私人教师的角色。


图2-2：思维骨架

4 向量数据库

我们使用Pinecone向量数据库对用户的信息、学习大纲和记录进行保存。Pinecone是一个支持云端的向量数据库服务，可以实现大语言模型的长期记忆。


图2-3：向量数据库

5 语音识别模型

Paraformer模型——达摩院语音团队提出的一种高效的非自回归端到端语音识别框架。模型采用工业级数万小时的标注音频进行模型训练，保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景我们使用Paraformer模型对用户输入的语音进行文字识别，然后将识别的文字输入到大语言模型的对话中。


图2-4：Paraformer模型

6 文字转语音模型

SpeechT5——基于encoder-decoder结构的speech/text pre-training的方法，可实现如语音转换，自动语音识别，语音合成，说话人识别等功能。通过自监督预训练得到通用的表示，再用于下游任务成为新的范式。采用VITS文字转语音技术，来实现私人教师性化的语音输出。


图2-5：SpeechT5模型图

7 Gradio界面设计

使用Gradio库实现最终的交互界面，以及后台推理过程的可视化输出界面。


图2-6：Gradio界面图

8 ModelArt数据平台

本项目使用ModelArt平台进行模型训练与最终部署。


图2-7：ModelArt