在Excel里看到的这些**“1-Dec”、"3-Sep"、"8-Mar",其实原本是基因名**,在里看到的这些
在Excel里看到的这些**“1-Dec”、"3-Sep"、"8-Mar",其实原本是基因名**,但被Excel自动转换成日期格式的字符串了!在高通量组学研究、数据整理和共享过程中,基因名被Excel自动转化为日期格式是一种非常常见、但极易被忽视的数据污染现象。这一现象已经被多项文献反复报道,并成为生物信息学数据清理中的“经典问题”。Excel等表格软件会自动将形如“3-Mar”“7-Sep”这样的文本字符串识别为日期,并将其转换为“Mar-3”、“Sep-7”或其他日期格式。这会导致原本的基因名在导入或导出表格文件后,永久性丢失和变形。
DEC1(BHLHE40)
MAR1, MAR2, ...(如MTMR1等)
SEP1, SEP2, ...(如SEPT1, SEPT2, ...)
但最常见的,是**"MARCH1"、"SEPT2"、"SEPT6"** 这类以Mar、Sep开头的官方基因名。Excel会把**"MARCH1"自动转为"1-Mar","SEPT2"转为"2-Sep","DEC1"转为"1-Dec"**!