对原始语料进行直接修改处理,例如转码成utf8、脱敏手机号、删除版权广告等信息。 本小组和数据清洗小组的区别是,本小组会直接修改语料,数据清洗小组只打标签,不直接修改语料。
当前只列出急需解决的任务
编码检测和转换工具:https://github.com/alanshi/charset_mnbvc
版权和广告信息识别样本和工具: https://github.com/alanshi/chaos_dataset_mnbvc/tree/master/adcleaner
Github Codespaces使用教程说明