量子位|27个人类基因被重新命名,只因Excel总把它们自动纠正成日期


北京联盟_本文原题:27个人类基因被重新命名 , 只因Excel总把它们自动纠正成日期
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
在Excel里输入证件号的时候 , 你是否有过数字秒变科学计数法的抓狂经历?
量子位|27个人类基因被重新命名,只因Excel总把它们自动纠正成日期
本文插图

让人万万没想到的是 , Excel类似这样的功能 , 竟然在过去一年里 , 导致27种人类基因被重新命名 。
因为这些基因符号 , 总被Excel误读为日期 。
比如一个名为 MARCH1(Membrane Associated Ring-CH Type Finger 1)的基因 , 当你将其输入到Excel中……
量子位|27个人类基因被重新命名,只因Excel总把它们自动纠正成日期
本文插图

2016年的一项研究就指出 , 由于Excel在 默认设置状态下 , 会将基因名称转换为日期和浮点数 , 大约有 五分之一的公开遗传数据都存在错误的基因名称转换 。
量子位|27个人类基因被重新命名,只因Excel总把它们自动纠正成日期
本文插图

据The Verge报道 , 英国Quadram研究所的系统生物学家Dezs? Módos就表示:
这真的非常非常烦人 。
27种人类基因已因Excel被重新命名 比起等待Excel的更新 , 要改变这恼人的现状 , 科学家们觉得还是重命名基因简单一些 。
人类基因的命名主要包括基因名称和基因符号等内容 , 绝大多数基因的命名 , 由国际人类基因命名委员会(HGNC)完成 。
本周 , HGNC发布了有关基因命名的新指南 , 其中包括「影响数据处理和检索的符号」 。
量子位|27个人类基因被重新命名,只因Excel总把它们自动纠正成日期
本文插图

HGNC表示 , 从现在起 , 在命名人类基因及其表达的蛋白质时 , 将采用Excel默认格式下也不会被错误转换的方式 。
比如 , 把 SEPT1修改为 SEPTIN1 ,MARCH1修改为 MARCHF1 。
HGNC也将存储旧符号和名称的记录 , 以避免将来造成混乱 。
据The Verge报道 , HGNC表示 , 到目前为止 , 大约有27个基因名称已经按照这个规则进行了更改 。
重新命名基因 , 自然会带来一些麻烦 , 比如影响到以前发表的相关研究的检索 。
不过 , HGNC的工作人员Elspeth Bruford表示 , 尽管基因重命名并不是轻而易举的决定 , 但也并不罕见 。
比如 , 许多可以读作名词的基因符号已经被重新命名 , 以避免搜索的时候出现混乱 , CARS改为CARS1 , WARS改为WARS1就是这样的例子 。
「这锅不该微软背?」
这样的消息一出 , 立即引发了国内外网友的热议 。
有网友表示 , 这显然应该让微软改啊 , 不只是基因符号的输入遇到了这种问题 , 平常输入项目编号什么的 , 也会被自动转成日期……
量子位|27个人类基因被重新命名,只因Excel总把它们自动纠正成日期
本文插图

也有网友指出 , 虽然可以事先将Excel中的单元格设置为文本格式 , 但在实际工作中 , 经常遇到的情况是:专业软件导出txt/csv文件 , 再用Excel打开 , 某些基因名就被自动转成了日期 。
量子位|27个人类基因被重新命名,只因Excel总把它们自动纠正成日期
本文插图

更麻烦的是 , 一旦被自动转换 , 再去改成文本格式是无法恢复到原来的文本的 , 这就会导致大量数据的丢失 。
量子位|27个人类基因被重新命名,只因Excel总把它们自动纠正成日期
本文插图

并且 , 目前没有任何办法关掉Excel默认设置下的自动格式转换 。
对此 , Elspeth Bruford认为 , 这毕竟是Excel软件的有限用例 , 「Excel的其他广大用户正在广泛使用这样的功能 , 对于微软来说 , 几乎没有什么动力去对这些功能开刀」 , 所以 , 还是改基因名字更简单些 。


推荐阅读