首页 >热门资讯> 在线作图 > 社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据 >

社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据

转载时间:2022.04.06(原文发布时间:2021.08.09)
113
转载作者:36氪企服点评小编
阅读次数:113次

社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据

MagicHub.io开源社区

数据是人工智能的燃料,为人工智能与人交流提供动力支撑。网络和硬件的普及带来数据量的飞速增长,但是结构化的数据才能用于监督学习,才是人工智能真正理解人的关键。当开发者开发出AI模型,将结构化的数据输入到模型中,进行大量的训练,不断提升模型的识别率和响应速度。这里涉及到语音识别(ASR)、语音合成(TTS)和自然语言理解(NLP)等技术。

近期,MagicHub.io开源社区继续开源数据,此次开源超过20小时不同数据集,包括语音识别(朗读和对话语音数据)以及自然语言理解数据,供AI开发者下载使用。

自然语言理解(NLP)文本语料

自然语言理解作为人工智能核心课题之一,以语言学为基础涵盖各个学科知识,人工智能模型训练更离不开NLP数据训练,MagicHub.io社区开源用于AI识别地标地址的数据。

自然语言理解(NLP)——中文地标地址数据

开源的数据集包含100条中文地标地址文本语料,数据采集了大部分四川和河北,以及江苏、浙江、广西、安徽、广东等地重点地标地址。

社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据

数据信息

对话式数据集

自然对话式数据是对话式AI的加速器,赋能当前最热门的对话式人工智能发展。对话式数据也是MagicHub.io开源社区主要的开源数据类型之一,此次社区分别开源上海口音中文普通话和韩语对话音频数据集。

上海口音中文普通话对话音频数据集

开源的数据包含3个小时的上海口音中文普通话对话音频和转写文本,内容为4名说话人之间的8组给定主题对话。为确保对话中使用了上海口音的中文普通话而不是上海话,其中一名说话人的中文普通话是相对标准的。

社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据

数据信息

韩语对话音频数据集

开源的数据包含了5.22个小时的韩语对话音频和转写文本,内容为7组说话人之间的22组给定主题对话。

社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据

数据信息

朗读式数据集

朗读式数据集是语音识别的基础数据,大量结构化的朗读式数据集在提升AI模型识别率上起到重要作用。MagicHub.io社区此次开源了总共超过10个小时、经过结构化的俄语和武汉话朗读数据。

俄语朗读音频数据集-日常用语

数据集总时长为6.57小时的俄语朗读音频和转写文本,内容为日常用语。共有3,842条语料,由10名说话人提供。

社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据

数据信息

武汉话朗读音频数据集-日常用语

此数据集包含了5.08小时的武汉话朗读音频和转写文本,内容为日常用语。共有5,082条语料,由4名说话人提供。

社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据

数据信息

此次MagicHub.io开源社区共开源超过1.6GB用于AI模型训练或测试的语音数据,此外还整理了来自网络的海量数据集,包括来自清华大学、GigaSpeech、LibriSpeech、TED等数据。

目前,社区已开源了超过20种语言,涵盖各大应用场景的数据集。迄今为止,社区聚集超过3000名AI开发者,数据下载小时数超过7000小时。MagicHub.io开源社区将持续为开发者提供更多高质量数据集。

近期,Annotator®5.0标注平台的SaaS免费版将向开发者开放,并发布在MagicHub.io开源社区,更多开源数据和工具将汇聚于此,贡献于斯,欢迎大家持续围观。

[免责声明]

资讯标题: 社区上新 | MagicHub.io开源这5个数据集 涵盖对话式、朗读式和NLP数据

资讯来源: 36氪官网

36氪企服点评

在线作图相关的软件

查看更多软件

大厂都在用的在线作图软件

限时免费的在线作图软件

新锐产品推荐

消息通知
咨询入驻
商务合作