如何解决语码转换中的数据挑战?
我们整理了郝玉峰博士演讲的主要内容与大家分享。
郝玉峰博士提出,语码转换中的数据挑战主要存在于方案设计、数据采集、数据处理,以及安全合规四个环节,其中方案设计环节中,语码转换文本的语言学特征复杂多样,其难点主要在于多语言混合下文本易读性和音素覆盖的全面性;数据采集的难点,主要在于多语种发音人的相对稀缺性;数据处理环节中,语音转写标注的规范性和一致性是亟待解决的问题;数据安全问题,则是贯穿于数据采集、处理、传输和存储过程中的关键。
在方案设计方面,BOB电竞语言学家团队开发出了针对全球150+语言、方言计算机可读IPA和音素清单,并设计出针对70+语言的高准确度LTS规则;此外,BOB电竞还研发出了用于设计语码转换方案的文本创作、选择方法;
数据处理环节,BOB电竞的混合语种正则转写规范、具备丰富项目经验的专业团队和自研的质量检验平台可保证语码转换中数据处理的标准化、高质量及高效率;
研讨会中,郝玉峰博士还向嘉宾展示了BOB电竞现有的可直接用于语码转换模型训练的数据库,涉及到5种语言,4组语言对,共计6000+小时。
关于我们
BOB电竞作为人工智能数据资源及数据服务供应商,致力于为用户提供工程化数据资源,以及数据采集与数据处理等服务。业务覆盖语音识别、语音合成、计算机视 觉、自然语言处理、发音词典等技术领域。
联系我们
电话咨询:010-62660053
邮件咨询:contact@speechocean.com

欢迎关注公众号获取更多内容
相关推荐