语料增强小组2024年年度总结
工作概述:
本小组今年的工作主要重心从去年的编码检测转换,乱码问题研究转换为了标准中文字符范围研究上
工作内容和成果:
1: 提供了标准中英文数据检测接口(api.check_zh_en) ,该接口提供了完整标准的简体中文和英文字母,各类标点符号,常见特殊符号的检测能力。为MNBVC语料中的简体中文,纯英文资料提供了准确的检测能力。
2: 由于在工作中需要判断大量文件是否为纯文本文档,因此我们有了对二进制文件判断的需求,经过调研目前最终确定了采用magic number的机制来判断文件是否为二进制格式,将来会将其封装在mnbvc_charset库内(当前的 api.is_binary 接口只基于扩展名进行了判断,不够完善,建议暂不使用)。
3: 基于标准简繁体字对照表进行标准简繁体转换工具的测试工作,以便判定当前的简繁体转换开源库的准确率,该工作在年内会完成。
4: 提供pre_check.py 用于对文本文件进行编码检测和转换的预检查工作。
个人贡献:
本小组因为组长长期不在线,摸鱼旷工(记打五十大板),很多工作都由组员们辛劳分担了,在此要特别感谢塞北的雪(Ambrose)、云中君(Magican)、花花、yuchen、柚子、冰糖橘子水等诸位同学的努力和付出。
未来工作计划:
本小组明年会继续在标准简繁体中文字符范围、编码检测效率、文件类型判定等诸多方面继续努力,希望有更多的朋友加入本小组,一起为MNBVC项目发光发热,添砖加瓦。
语料增强小组2024年年度总结.txt · 最后更改: 2025/03/14 16:33 由 MNBVC项目组