本来博客已经搭建好了,可是总觉得用Github一个二级域名怪怪的,非要折腾自己来绑定自己的域名,并申请SSL(就是喜欢看那个小绿锁!)前前后后花了不少时间,走了不少弯路,将踩过的坑记录下来。
Linux服务器命令行上传数据到百度云盘
每次想把服务器上的数据上传到百度云盘都要先下载到本地,然后再上传百度云。
这一点都不优雅,既浪费时间,还占用电脑本来的带宽。
如果Linux命令行能够直接上传百度云盘岂不美哉?说干就干,磨刀不误砍柴工!
wikipedia 训练繁(简)体中文 embedding(word2vec)模型
由于课题任务需要一个繁体中文的word3vec, 折腾经过记录在此。希望以后少掉几个坑。
训练好的embedding放在网盘中, 密码:2um0
后来又按照这个方法训练了简体中文维度分别为50、100、200、300的embedding,一并放出来网盘链接 密码:751d
Hexo_Next_博客搭建记
与我而言,建立个人博客存在的意义有两个。
一方面,当作自己的备忘录,记录零散的知识点,避免重复的搜索工作;
另一方面,可以更好的分享一些自己的心得,方便与大家交流。
选择GitHub Hexo Next
的组合的主要原因就是方便、便宜、简单,为从来没有接触过前端的自己降低难度。
为了能让博客漂亮一点,这几天来的折腾过程记录整理在此,以备遗忘。
【NLP competition】中文信息学会 文本溯源技术评测(SMP ETST)Ranking First
此次的文本溯源项目我们以n-gram为核心思想,构建候选句子对的评测标准。
用TF-IDF和词袋模型的的思想来预筛选候选句子对,大大提升算法效率。
最后用了两种切词方式的模型融合和规则后处理(提升很小)。
Final-Leaderboard Ranking First