当前位置: 首页> 行业新闻 >R语言学习经验点滴谈:中文编码与相关软件

R语言学习经验点滴谈:中文编码与相关软件

2020-12-27 11:46:47定量群学

戳上面的蓝字关注我们哦!

中文编码及相关软件

对于汉语用户而言,关于中文编码的问题确实是诸多开源统计软件很难绕开的一大顽疾。数据处理过程中很多小白用户并不是瘫痪在一般性的软件操作或统计知识前,而是沮丧于不时出现的中文乱码上。为此,廖雪峰老师曾经以Python为例写过一个小短文,简述了汉字编码过程的一些知识,可供参考。由于链接实在过长,而微信推文又没有支持行内超链接,这里就不放最直接链接了,说明下查找方式:

https://www.liaoxuefeng.com/

然后点击Python教程,然后找到如下地方:

 

把这篇文章读完,就可以了。

 

相比较于R,RStudio对中文用户来说似乎要更加“傲娇”一些,对中文更不友好。暂时也是没办法的事。有时RStudio会出现如下的Warning message:

这其实都是中文惹的祸。对于中文系统,我不知道如何一次性解决这个问题。如果实在觉得它比较碍事,不妨在控制台输入如下命令:

Sys.setlocale(category = "LC_ALL", locale = "C")

这样可临时性解决此次RStudio中出现的这一问题。注意在R中运行通常并不会有此提示。

 

另外,特别注意一点:

 

R 与 RStudio 都可以安装 R 包,区别在于:在R 控制台安装R包时可以自主选择 CRAN 镜像,而 RStudio 会自动选择好 CRAN 镜像,有时会因服务器距离过远而出现耗时过长的情况。一般建议用 R 自身安装 R 包。

 

有时会出现RStudio无法安装R包的情形,或者似乎已经安装“成功”,但是library()时还是说没有这个包。此时换成R(注意不是RStudio里的R,而是独立开启的R)来安装包,选定合适的镜像站,一般都能安装成功。是否确定成功安装成功,用library()检验一下就好。

 

还有,强烈推荐大家学习使用GitHub。严格意义上Git操作也许不必深究,但是这个网站绝对值得拥有。我正邀请我们南开大学社会心理学系毕业、目前正在中科院心理学所读研的张光耀同学撰写相关的Git操作说明,待完稿校对后再行推出,敬请关注。

 

再有,有致于学习量化方法的同学,花一两周时间去熟悉一下LaTeX写作,应该会有帮助。Word什么都好,但至少有几个痛点,让我一直对它颇有微词:

 

(1)图表的自动排序,太繁琐。

(2)尤其不能忍受它的数学公式排版及自动编号,弱爆了。

(3)即使是强大的(我觉得也挺漂亮的)Mathtype,大家可能没有尝试过,用它插       入来写作,我当年2 Gb内存的电脑,只能写到80来页的基础微积分教材,因为插入Mathtype公式实在太耗内存了,所以我一个400多页的教材只能分成若干章作为独立Word文件来保存,实在是麻烦。

(4)某些sci/ssci期刊,不接受Word投稿——还有这种操作?是的,不知道的话你out了,这种杂志多了去了。比如我觉得会因为Richard Thaler获诺贝尔经济学奖而变得更火的决策类期刊 Judgment and Decision Making。顺便说一下,这个刊物的所有数据在发表时可是必须提供且公开以便进行可重复性检验的哦:

http://journal.sjdm.org/

我就是因为这些原因奋发图强学习LaTeX的。学了之后,整个世界都美好了许多。它只是一个写作和编辑工具,一般情况下我觉得比R要好学。我自己觉得大概花了两三周的时间就了解了数学公式编辑的大概(当然不够深入,但是够一般编辑使用),相比之下,R似乎用了两三年的时间才明白一点点——也许我比较笨……

 

当然,如果你觉得Word自带插入的如下的数学公式形式是很漂亮的,我就呵呵了:

起码也得写成这样吧:

什么,没看出来区别?——那就当我没说(此处应有吐血表情包)作为格式控,看到学生们写的论文,首行缩进竟然是用四个空格(更有甚者,竟然是两个空格!),汉语中出现英文标点(或者反过来,英文中出现中文标点),公式竟然是使用网络抠图、而且统计符号没有斜体,英文字体竟然用宋体而不是Times New Roman,Word竟然使用2013版之前的版本、或者弃学校软件正版化平台提供的正版OFFICE软件不用而非得用不知哪得获得的盗版,竟然不知道三线表是什么、或者知道三线表还是三条线一般粗细,等等,然后就交上来了。我一直想:这难道是可以忍受大学四年、枕巾一年一洗(也许还不到)的处女座的我应该忍受的么?当然,通常遇到这种情况,我都是回头看看自己写的文章中的满屏错别字,火气也就慢慢消失了。毕竟,我们要像擅于原谅自己一样擅于原谅他人。

 

严肃申明:本人不相信星座。请不要和我谈论星座,我会鄙视你的。

 

最后说明一下:

 

目前这个系列都是以推文形式出现,我还没有打算专门进行录屏。其实平时的课程授课或内部培训中会有录屏,但是这种面对面的课程中难免有些“陟罚臧否”之语,也许有些政治不正确的地方,不适宜公开。我有计划撰写一本《R语言数据分析入门》的教材类书籍,如果完成了内容,可能会做此考虑——其实我挺讨厌自己在电脑里的声音,感觉就不是自己呢……

 

附加说明:

关于LaTeX,可去如下网站一探究竟:

http://www.chinatex.org/


编辑:潘雨   张柏杨

· · · · · ·