爬虫俱乐部Stata五一编程技术训练营火热报名中!
目前仅有少量名额,抓紧时间报名啦!
爬虫俱乐部将于年5月2日至4日在武汉举行Stata编程技术五一训练营,此次采用理论与案例相结合的方式,旨在帮助大家熟悉Stata数据分析技巧,能够通过编程读取不同类型的数据源、实现复杂数据合并、清洗的程序化,并且熟悉Stata核心的爬虫技术。
爬虫俱乐部已多次举办线下培训活动,曾经在武汉大学、华中科技大学、中央财经大学、中南财经政法大学、华中农业大学、郑州大学、河南大学、福州大学、长沙理工大学、湖北大学和湖北经济学院等进行师资和研究生实证方法的培训,获得了一致的好评。爬虫俱乐部的公开培训也进行了十多场,场场爆满座无虚席。
我们会继续努力,以培养学生、技术研发为己任,在少量盈利的基础上,努力将公益事业做好,传播实证技术和数据分析方法、开发数据分析的工具等,造福于学术界!
授课老师简介
李春涛
香港大学博士,中南财经政法大学金融学院教授、博士生导师;主要研究领域是公司治理和企业创新,在《经济研究》、《金融研究》、JournalofComparativeEconomics等主流期刊上发表学术论文三十余篇。李老师是Stata统计软件的资深用户,有20多年的Stata编程经验,他有十多名学生正在或曾经在海外名校从事研究助理工作。
薛原
曾任香港大学经济金融学院研究助理,现为华中科技大学管理学院博士生,爬虫俱乐部资深成员,擅长Stata和Python编程及网络爬虫技术。与李老师合作开发了cnar、chinagcode、chinaaddress、cnintraday、cnstock、subinfile、reg2docx、sum2docx、wordconvert等重要命令,实现了中国上市公司数据的命令化模块下载、中文地址与经纬度之间的转换,实证结果的格式化集成输出等,曾在金融学国内顶级期刊发表过论文一篇。
闫续文
爬虫俱乐部资深会员,长期讲授结果输出方法,现为香港岭南大学海外研究项目研究助理。
课程大纲
第一部分:基础篇
Stata的界面与DOS命令
获取帮助的技巧(在线帮助、搜索帮助、人肉帮助)
各种数据的读入(Excel、制表符、固定宽度等)
不规则数据的整理、数据搬家与填充(基金经理变更案例)
copy命令(文件转移、文件重命名、网络文件读取、网页源代码读取)
日期定义和日期函数
函数与基于扩展函数的generate
第二部分:宏与循环
local概念与基本操作(如何定义local)
global概念与基本操作(与local的区别)
宏扩展函数(将dis结果、dir结果等赋值给local)
循环(while,forvalueandforeach)
跳出循环的continue和continue,break
上交所年报抓取案例(forvalue循环,日期函数、容错命令cap、循环过程中的终止)
foreach循环,读入多个csv文件
大量数据文件的读取
Excel多个Sheet数据的读取
对变量取值的循环
第三部分:数据库的操作
数据的纵向合并(CSMAR交易数据为例、cntrade命令)
数据的横向合并(财务数据为例)
数据长宽变换(wind财务数据、多列变一列reshape,stack命令)
起死回生(preserverestore命令)
label(文件label、变量label、观测值label)
用label找变量(labelsof、label的宏扩展函数)
字符串处理(长度、关键词、替换、提取、寻找总经理、寻找董事长、两职合一)
第四部分:post命令
post原理
定义post
用post计算同步性和Beta
基于云端数据的事件研究
股本变更数据整理
第五部分:结果输出
输出表格或图形到WORD文档、EXCEL文档和PDF文档:putdocx、putpdf、putexce
基本统计信息:sum2doxc
分组检验:t2docx
相关系数矩阵:corr2docx
简单线性回归:reg2docx
第六部分:网络数据
上市公司公告的抓取
上市公司高管任职信息抓取
深交所信息披露考评数据抓取
上市公司媒体