目录
关于

<p> 用主动学习的方法做语料标注,一般的方法是: </p> <p> 1、先对部分语料做人工标注<br /> 2、使用分类器(如SVM、LR)对这些标注的语料做训练,1中的语料作为训练集,余下未标注的作为测试集<br /> 3、为测试集样本产生标签及置信度(即标签的准确性的概率值)<br /> 4、通过观察为置信度人为设定一个阈值,测试集中的样本如果满足这个阈值,则加入到训练集中<br /> 5、重复2-4步,直到剩余的测试样本中不再满足阈值<br /> 6、输出剩余的测试样本 </p> <p> 如此迭代几次,可以完成大部分语料的类标签标注。 </p> <p> 这样做的问题是可能导致过拟合。 </p> <p> 本项目拟将统计句法分析引入主动学习模型, </p>

0 B
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号