目录
目录README.md

智慧赋能,“英才”施教

——大模型家庭英语教师应用

项目架构

本项目相关技术

1 MindsporeAI开发框架

MindSpore是一个全场景深度学习框架,旨在实现易开发、高效执行、全场景覆盖三大目标,其中易开发表现为API友好、调试难度低,高效执行包括计算效率、数据预处理效率和分布式训练效率,全场景则指框架同时支持云、边缘以及端侧场景。

该项目基于MindSpore框架进行搭建,使用MindSpore开发高性能算子。华为MindSpore框架技术先进可行具有良好的研发应用生态。

2 大语言模型推理

大语言模型是实现AI私人教师的基础,我们使用ModelScope社区提供的GPT-3模型。

img
图2-1:模型结构图

3 思维骨架进行长期推理和规划安排(SOT)

对于大语言模型的规划推理,我们打算使用LangChain开源库以及可视化的LangFlow开源库,搭建模型的思维骨架,实现多种功能的思考推理。同时,我们将设计并完善一个prompt系统,一步一步引导题型大语言模型完成长期推理和规划安排的任务,扮演好一个私人教师的角色。

img
图2-2:思维骨架

4 向量数据库

我们使用Pinecone向量数据库对用户的信息、学习大纲和记录进行保存。Pinecone是一个支持云端的向量数据库服务,可以实现大语言模型的长期记忆。

img
图2-3:向量数据库

5 语音识别模型

Paraformer模型——达摩院语音团队提出的一种高效的非自回归端到端语音识别框架。模型采用工业级数万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于语音输入法、语音导航、智能会议纪要等场景我们使用Paraformer模型对用户输入的语音进行文字识别,然后将识别的文字输入到大语言模型的对话中。

img
图2-4:Paraformer模型

6 文字转语音模型

SpeechT5——基于encoder-decoder结构的speech/text pre-training的方法,可实现如语音转换,自动语音识别,语音合成,说话人识别等功能。通过自监督预训练得到通用的表示,再用于下游任务成为新的范式。采用VITS文字转语音技术,来实现私人教师性化的语音输出。

img
图2-5:SpeechT5模型图

7 Gradio界面设计

使用Gradio库实现最终的交互界面,以及后台推理过程的可视化输出界面。

img
图2-6:Gradio界面图

8 ModelArt数据平台

本项目使用ModelArt平台进行模型训练与最终部署。

img
图2-7:ModelArt
关于

智慧赋能,“英才”施教——大模型家庭英语教师应用

59.4 MB
邀请码