目录

一、工作概述

本小组主要关注各类至少包含中英文的平行语料的清洗与文本对齐,例如联合国语料、字幕组语料、字典、双语读本等。

二、工作内容与成果

重构了wiki页面和github页面,用github project做项目管理,创建了organization,欢迎大家加入。

游戏语料今年收录了29个文件,共计2.77GB,包括《博3》、《2077》这些大型3A以及《原神》、《鸣潮》这些频繁持续更新运营的游戏。

字幕语料今年收录了伪射手网的字幕。

联合国语料管线今年重点调整了处理过程中的docx表格问题,将在24年结束时用改进后的管线收录全量的2023年联合国文件和2024年文件。

论文方面重新审视了方法论这一块,把讲不清楚的部分就着代码过了一遍。此外统计出了目前收录的联合国语料包括162336个文件,16220714个段落对,713439637个英语单词。托管在huggingface的联合国语料已经获得了总计超过1k次下载。

三、团队协作与个人贡献

夜々(组长):在Jia Li卸任组长后担任平行语料小组的组长,主持会议只是其所有工作中最微不足道的一部分。其余有联合国语料管线的调整及论文的撰写,wiki页面和github页面的重构,协调组内成员的任务,等等。

王然(小组秘书):在年底缺席了两次例会后,才让组长意识到记录每周会议也是个累活。担任小组秘书,负责每周会议笔记的整理与发送,在组长缺席的时候代理主持会议,保证组内工作的有序推进。此外,收集了一份大型游戏语料。

pob:是个写论文方面很有心得的专家,参与论文讨论,能够敏锐地指出方法论不清楚的问题,为组内论文质量提升提供了宝贵意见。

霖:时间充裕时,对自己的任务相当负责,跟进和同步进度很及时,但折腾能力有待提高。细致审阅微软术语库,指出其不值得收录。参与语料升级脚本的Review工作,代理主持周会,展现出出色的组织能力。整理了5份对mod支持相对友好的游戏语料。

Liu:游戏爱好者,提出希望收录无主之地的文本,但目前因为组长预算和人脉有限没有找到游戏本体。喜欢有趣的工作,正在开发docx表格检测工具。此外整理了一份3A游戏的语料。

易水:能做的任务很多,而且效率很高,负责调研对家论文处理表格不到位的问题,提升了小组的研究深度。一年来负责收集整理了6份游戏语料。

阿伟:似乎是对爬虫相当精通的高手,今年收集了伪射手网的字幕,爬了一个Linux中国官方数据集。

Mr.B:写了整理一些频繁更新的手游的游戏语料脚本,语料加起来有1.36GB,在繁忙的工作之余还要被组长催说那边原神语料又更新了麻烦重新跑一下脚本。现在脚本对外了,之后维护手游语料的事情可以交给更多人来做。

青禾:跟他交流的时候就感觉很快乐,帮忙探索了一些游戏的解包数据,同时整理了一份游戏语料。

如来:投入了很多时间在咱们开源项目上,对分给自己的任务跟进很积极,希望在未来的编码工作中能逐步减少对gpt的依赖,形成自己的程序思维。探索歌词语料的可能性,为小组语料方向提供了新思路。参与语料格式升级脚本的Review,完善了项目的工作流程。同时整理了一份小体量游戏语料。

四、下一年度工作计划

继续推进尚未完成的联合国语料相关工作。继续收集各类高质量的平行语料如游戏、字幕、歌词等等。