- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
小舅妈育儿|新手妈妈切记注意,比吃钙片有用,饮食健康要放第一位
-
凯尔特人队|狂轰83+41+21!绿军三巨头暴走,沃克耻辱一战,洛瑞罕见爆粗口!
-
勒布朗·詹姆斯|詹姆斯如果今年夺冠并拿到FMVP,他的历史地位如何?
-
网易科技报道日媒称华为或借联发科采购台积电芯片 联发科怒批
-
-
交易日|青岛中程:近3个交易日上涨38.79%,无未披露的重大信息
-
上海检察|与美女“裸聊”被录屏要挟,这个敲诈团伙已判
-
被当面批评指责,接受批评的同时感到羞耻,感到自尊受损,继而对批评者产生短暂厌恶反感的行为该怎样克服
-
批准■中国“县改市”再度开闸升级已有13县获批准, 有没有你们
-
央视新闻客户端|新疆和田地区于田县发生4.1级地震
-
青年|斗鱼DOTA2:8支战队强势上线,RNG打出王者气概,冠军稳了
-
-
-
-
-
读完|宰相寇凖曾挥霍无度,妻子看不下去写了首诗劝他,他读完改正错误
-
-
任天堂|超越PS3!任天堂Switch销量突破8743万台
-
-
健身|怎样才能确保健身不受伤害?你了解多少?快来看看