|算法实现太难了?机器学习也需要开源软件( 二 )
本文从道德 , 伦理和社会基础三个方面进行阐释 , 开源应该是机器学习研究的首选软件发布选项 , 并向读者介绍开源软件的许多优点 。 在这里 , 本文将重点放在用于机器学习研究的开源软件的特定优势上 , 该优势结合了科学进步以及软件生产者和消费者的需求和要求 。 作者从以下7点说明了开源的优势:
1.科学结果的可重复性和算法的合理比较;
2.发现问题;
3.利用已有资源(而不是重新实现);
4.不断获得科学的工具;
5.优势结合;
6.在不同学科和行业中更快地适用某方法;
7.出现协同标准 。
最后 , 作者使用一个表格总结了开源会带来的优点 , 一共有11条 , 分别如下:
1.提高了科学研究的可复现性
2.有助于公平比较在相同框架中实施的算法
3.可以更快地发现问题
4.可以修复bug和扩展外部来源的错误
5.方法可以被其他人更快地采用
6.可以使用高效的算法
7.能利用现有资源来帮助新研究
8.广泛的使用算法会使其得到广泛的认可
9.可以开发更复杂的机器学习算法
10.可以加速研究进展
11.对新研究者和较小的研究小组非常有帮助
本文插图
开源社区当前主要的障碍
尽管根据开源模型发布实现方式具有许多优点 , 但是当前很少采用此选项 。 作者认为 , 有六个主要的原因 , 总结起来概括如下:
1、发布软件不能够被视为一种科学贡献
2、公开与商业利益存在根源上的冲突
3、发布开源软件的激励措施没有足够高
4、机器学习研究人员不是一个优秀的程序员
5、这种松懈能掩盖新方法的问题 , 并降低会议和期刊的接收难度
6、存在一种习惯 , 对质量相似的论文采用相同的处理方法
本文插图
建议
作者给出了提交高质量机器学习开源软件实现的描述 。 提交的内容至少应包括:
1、一封书面信 , 说明该提交内容适用于机器学习开源软件部分 , 发布该软件的开源许可证 , 项目的网址以及要查看的软件版本 。
2、最多四页基于JMLR格式的描述 。
3、包含源代码和文档的zip或tar压缩的归档文件 。
本文插图
结论
综上 , 作者认为 , 采用共享信息的开源模型来实现机器学习软件对整个领域都非常有帮助 。 开源模型具有许多优势 , 例如提高了实验结果的可重复性 , 更快地检测错误 , 加速科学进步以及在其他学科和行业中更快地采用了机器学习方法 。 由于当前发布开源软件的动机不足 , 本文概述了一个发布用于机器学习的软件平台 。
此外 , 本文讨论了机器学习软件的理想功能 , 这些功能最终将产生一个高度可用 , 灵活和可扩展的软件 。 本文邀请所有开发机器学习算法的机器学习研究人员提交机器学习软件的JMLR track 。 定义精心设计的界面对于提高交互操作至关重要 , 这将使社区能构建一套高质量的机器学习软件 。
本文插图
【|算法实现太难了?机器学习也需要开源软件】
推荐阅读
- 中年|北斗“一张网”可实现全天候、高精度、自主可控服务
- 融资并购,字节跳动|微软为实现社交野心,仍选择与甲骨文作斗争
- 科学|未来实现星际旅行的3种技术,或许就是那些UFO使用的技术?
- |变声器为什么一定要有实时变声功能?能实现什么有趣的玩法?
- 拍照摄影|快速抓拍太难了?看看ColorOS怎样轻松做到
- 人工智能|哈佛华人企业BrainCo发布脑机接口操作系统,实现了“读心术”、“隔空打字”
- 数据|同盾李晓林谈联邦学习实现数据安全共享
- 驱动中国|Mintegral洞察:如何运用多次可迭代的交互式广告实现精细化投放?
- 行业互联网|高通与爱立信完成5G载波聚合,全球首次实现FDD/TDD及TDD/TDD跨频段测试
- 科学|合肥研究院在空间反演对称结构中实现光致纯自旋流
