Python项目依赖生成及其安装

项目换环境后需要重新安装第三方包,甚是麻烦,下面是总结一下对写好的项目自动生成依赖清单,以及在新环境下解决依赖的方法:

生成所有依赖清单requirements.txt

这里需要使用到的工具叫pipreqs,先安装:

1
pip install pipreqs

装好之后cd到项目路径下:

1
pipreqs ./ --encoding=utf8

使用requirements.txt自动安装所有依赖包

使用以下命令:

1
pip install -r requirements.txt

提问的智慧

这里有一篇文章是关于“提问的智慧”(How To Ask Questions in The Smart Way),虽然文章的假设对象是黑客,但觉得帮助作用甚大,所以就从论坛搬过来了。。。在这里仅代表问题帮向热心为我们答疑解惑的各位致以最崇高的敬意,你们辛苦啦!

内容如下:
在黑客世界里,当提出一个技术问题时,你能得到怎样的回答?这取决于挖出答案的难度,同样取决于你提问的方法。本指南旨在帮助你提高发问技巧,以获取你最想要的答案。

首先你必须明白,黑客们只偏爱艰巨的任务,或者能激发他们思维的好问题。如若不然,我们还来干吗?如果你有值得我们反复咀嚼玩味的好问题,我们自会对你感激不尽。好问题是激励,是厚礼,可以提高我们的理解力,而且通常会暴露我们以前从没意识到或者思考过的问题。对黑客而言,“问得好!”是发自内心的大力称赞。

尽管黑客们有蔑视简单问题和不友善的坏名声,有时看起来似乎我们对新手,对知识贫乏者怀有敌意,但其实不是那样的。

我们不想掩饰对这样一些人的蔑视–他们不愿思考,或者在发问前不去完成他们应该做的事。这种人只会谋杀时间–他们只愿索取,从不付出,无端消耗我们的时间,而我们本可以把时间用在更有趣的问题或者更值得回答的人身上。我们称这样的人为“失败者”(由于历史原因,我们有时把它拼作“lusers”)。

我们在很大程度上属于志愿者,从繁忙的生活中抽出时间来解惑答疑,而且时常被提问淹没。所以我们无情的滤掉一些话题,特别是抛弃那些看起来像失败者的家伙,以便更高效的利用时间来回答胜利者的问题。
如果你觉得我们过于傲慢的态度让你不爽,让你委屈,不妨设身处地想想。我们并没有要求你向我们屈服–事实上,我们中的大多数人最喜欢公平交易不过了,只要你付出小小努力来满足最起码的要求,我们就会欢迎你加入到我们的文化中来。但让我们帮助那些不愿意帮助自己的人是没有意义的。如果你不能接受这种“歧视”,我们建议你花点钱找家商业公司签个技术支持协议得了,别向黑客乞求帮助。

如果你决定向我们求助,当然不希望被视为失败者,更不愿成为失败者中的一员。立刻得到有效答案的最好方法,就是像胜利者那样提问–聪明、自信、有解决问题的思路,只是偶尔在特定的问题上需要获得一点帮助。

======== 提问之前 ========

在通过电邮、新闻组或者聊天室提出技术问题前,检查你有没有做到:

  1. 通读手册,试着自己找答案。
  2. 在FAQ里找答案(一份维护得好的FAQ可以包罗万象)。
  3. 在网上搜索(个人推荐google~~~)。
  4. 向你身边精于此道的朋友打听。

当你提出问题的时候,首先要说明在此之前你干了些什么;这将有助于树立你的形象:你不是一个妄图不劳而获的乞讨者,不愿浪费别人的时间。如果提问者能从答案中学到东西,我们更乐于回答他的问题。

周全的思考,准备好你的问题,草率的发问只能得到草率的回答,或者根本得不到任何答案。越表现出在寻求帮助前为解决问题付出的努力,你越能得到实质性的帮助。

小心别问错了问题。如果你的问题基于错误的假设,普通黑客(J. Random Hacker)通常会用无意义的字面解释来答复你,心里想着“蠢问题…”,希望着你会从问题的回答(而非你想得到的答案)中汲取教训。

决不要自以为够资格得到答案,你没这种资格。毕竟你没有为这种服务支付任何报酬。你要自己去“挣”回一个答案,靠提出一个有内涵的,有趣的,有思维激励作用的问题–一个对社区的经验有潜在贡献的问题,而不仅仅是被动的从他人处索要知识–去挣到这个答案。
另一方面,表明你愿意在找答案的过程中做点什么,是一个非常好的开端。“谁能给点提示?”、“我这个例子里缺了什么?”以及“我应该检查什么地方?”比“请把确切的过程贴出来”更容易得到答复。因为你显得只要有人指点正确的方向,你就有完成它的能力和决心。

======== 怎样提问 ========

☆ 谨慎选择论坛版块
小心选择提问的场合。如果象下面描述的那样,你很可能被忽略掉或者被看作失败者:

  1. 在风马牛不相及的论坛贴出你的问题
  2. 在探讨高级技巧的论坛张贴非常初级的问题;反之亦然
  3. 在太多的不同新闻组交叉张贴
    ☆ 用辞贴切,语法正确,拼写无误

我们从经验中发现,粗心的写作者通常也是马虎的思考者(我敢打包票)。回答粗心大意者的问题很不值得,我们宁愿把时间耗在别处。

正确的拼写,标点符号和大小写很重要。更一般的说,如果你的提问写得象个半文盲,你很有可能被忽视。

如果你在使用非母语的论坛提问,你可以犯点拼写和语法上的小错–但决不能在思考上马虎(没错,我们能弄清两者的分别)
☆ 使用含义丰富,描述准确的标题

在邮件列表或者新闻组中,大约50字以内的主题标题是抓住资深专家注意力的黄金时机。别用喋喋不休的“帮帮忙”(更别说“救命啊!!!!!”这样让人反感的话)来浪费这个机会。不要妄想用你的痛苦程度来打动我们, 别用空格代替问题的描述,哪怕是极其简短的描述。

蠢问题: 救命啊!我的膝上机不能正常显示了!
聪明问题: XFree86 4.1下鼠标光标变形,FoowareMV1005的显示芯片。

如果你在回复中提出问题,记得要修改内容标题,表明里面有一个问题。一个看起来象“Re:测试”或者“Re:新bug”的问题很难引起足够重视。另外,引用并删减前文的内容,给新来的读者留下线索。

☆ 精确描述,信息量大

  1. 谨慎明确的描述症状。
  2. 提供问题发生的环境(机器配置、操作系统、应用程序以及别的什么)。
  3. 说明你在提问前是怎样去研究和理解这个问题的。
  4. 说明你在提问前采取了什么步骤去解决它。
  5. 罗列最近做过什么可能有影响的硬件、软件变更。
    尽量想象一个黑客会怎样反问你,在提问的时候预先给他答案。

    ☆ 话不在多
    你需要提供精确有效的信息。这并不是要求你简单的把成吨的出错代码或者数据完全转储摘录到你的提问中。如果你有庞大而复杂的测试条件,尽量把它剪裁得越小越好。
    这样做的用处至少有三点。

    第一,表现出你为简化问题付出了努力,这可以使你得到回答的机会增加;
    第二,简化问题使你得到有用答案的机会增加;
    第三,在提炼你的bug报告的过程中,也许你自己就能找出问题所在或作出更正。

    ☆ 只说症状,不说猜想
    告诉黑客们你认为问题是怎样引起的没什么帮助。(如果你的推断如此有效,还用向别人求助吗?),因此要确信你原原本本告诉了他们问题的症状,不要加进你自己的理解和推论。让黑客们来诊断吧。
    蠢问题: 我在内核编译中一次又一次遇到SIG11错误,我怀疑某条飞线搭在主板的走线上了, 这种情况应该怎样检查最好?
    聪明问题: 我自制的一套K6/233系统,主板是FIC-PA2007(VIA Apollo VP2芯片组),256MBCorsair PC133 SDRAM,在内核编译中频频产生SIG11错误,从开机20分钟以后就有这种情况,开机前20分钟内从没发生过。重启也没有用,但是关机一晚上就又能工作20分钟。所有内存都换过了,没有效果。相关部分的典型编译记录如下…。
    ☆ 按时间顺序列出症状

    对找出问题最有帮助的线索,往往就是问题发生前的一系列操作,因此,你的说明应该包含操作步骤,以及电脑的反应,直到问题产生。
    如果你的说明很长(超过四个段落),在开头简述问题会有所帮助,接下来按时间顺序详述。这样黑客们就知道该在你的说明中找什么。
    ☆ 明白你想问什么

    漫无边际的提问近乎无休无止的时间黑洞。最能给你有用答案的人也正是最忙的人(他们忙是因为要亲自完成大部分工作)。这样的人对无节制的时间黑洞不太感冒,因此也可以说他们对漫无边际的提问不大感冒。

    如果你明确表述需要回答者做什么(提供建议,发送一段代码,检查你的补丁或是别的),就最有可能得到有用的答案。这会定出一个时间和精力的上限,便于回答者集中精力来帮你,这很凑效。
    要理解专家们生活的世界,要把专业技能想象为充裕的资源,而回复的时间则是贫乏的资源。解决你的问题需要的时间越少,越能从忙碌的专家口中掏出答案。

    因此,优化问题的结构,尽量减少专家们解决它所需要的时间,会有很大的帮助–这通常和简化问题有所区别。因此,问“我想更好的理解X,能给点提示吗?”通常比问“你能解释一下X吗?”更好。如果你的代码不能工作,问问它有什么地方不对,比要求别人替你修改要明智得多。

    ☆ 别问应该自己解决的问题
    黑客们总是善于分辨哪些问题应该由你自己解决;因为我们中的大多数都曾自己解决这类问题。同样,这些问题得由你来搞定,你会从中学到东西。

    你可以要求给点提示,但别要求得到完整的解决方案。

    ☆ 去除无意义的疑问
    别用无意义的话结束提问,例如“有人能帮我吗?”或者“有答案吗?”。

    首先:如果你对问题的描述不很合适,这样问更是画蛇添足。其次:由于这样问是画蛇添足,黑客们会很厌烦你–而且通常会用逻辑上正确的回答来表示他们的蔑视,例如:“没错,有人能帮你”或者“不,没答案”。

    ☆ 谦逊绝没有害处,而且常帮大忙
    彬彬有礼,多用“请”和“先道个谢了”。让大家都知道你对他们花费时间义务提供帮助心存感激。

    然而,如果你有很多问题无法解决,礼貌将会增加你得到有用答案的机会。(我们注意到,自从本指南发布后,从资深黑客处得到的唯一严重缺陷反馈,就是对预先道谢这一条。一些黑客觉得“先谢了”的言外之意是过后就不会再感谢任何人了。我们的建议是:都道谢。)

    ☆ 问题解决后,加个简短说明
    问题解决后,向所有帮助过你的人发个说明,让他们知道问题是怎样解决的,并再一次向他们表示感谢。如果问题在新闻组或者邮件列表中引起了广泛关注,应该在那里贴一个补充说明。

    补充说明不必很长或是很深入;简单的一句“你好,原来是网线出了问题!谢谢大家–Bill”比什么也不说要强。事实上,除非结论真的很有技术含量,否则简短可爱的小结比长篇学术论文更好。说明问题是怎样解决的,但大可不必将解决问题的过程复述一遍。
    除了表示礼貌和反馈信息以外,这种补充有助于他人在邮件列表/新闻组/论坛中搜索对你有过帮助的完整解决方案,这可能对他们也很有用。

    最后(至少?),这种补充有助于所有提供过帮助的人从中得到满足感。

    如果你自己不是老手或者黑客,那就相信我们,这种感觉对于那些你向他们求助的导师或者专家而言,是非常重要的。问题久拖未决会让人灰心;黑客们渴望看到问题被解决。好人有好报,满足他们的渴望,你会在下次贴出新问题时尝到甜头。

    ☆ 还是不懂
    如果你不是很理解答案,别立刻要求对方解释。象你以前试着自己解决问题时那样(利用手册,FAQ,网络,身边的高手),去理解它。如果你真的需要对方解释,记得表现出你已经学到了点什么。
    比方说,如果我回答你:“看来似乎是zEntry被阻塞了;你应该先清除它。”,然后:一个很糟的后续问题:“zEntry是什么?”
    聪明的问法应该是这样:“哦~~~我看过帮助了但是只有-z和-p两个参数中提到了zEntry而且还都没有清楚的解释:<你是指这两个中的哪一个吗?还是我看漏了什么?”

======== 三思而后问 ========

以下是几个经典蠢问题,以及黑客在拒绝回答时的心中所想:
问题:我能在哪找到X程序?
问题:我的程序/配置/SQL申明没有用
问题:我的Windows有问题,你能帮我吗?
问题:我在安装Linux(或者X)时有问题,你能帮我吗?
问题:我怎么才能破解root帐号/窃取OP特权/读别人的邮件呢?
提问:我能在哪找到X程序? 回答:就在我找到它的地方啊蠢货–搜索引擎的那一头。天呐!还有人不会用Google吗?
提问:我的程序(配置、SQL申明)没有用回答:这不算是问题吧,我对找出你的真正问题没兴趣–如果要我问你二十个问题才找得出来的话–我有更有意思的事要做呢。

在看到这类问题的时候,我的反应通常不外如下三种:

  1. 你还有什么要补充的吗?
  2. 真糟糕,希望你能搞定。
  3. 这跟我有什么鸟相关?

提问:我的Windows有问题,你能帮我吗? 回答:能啊,扔掉萎软的垃圾,换Linux吧。
提问:我在安装Linux(或者X)时有问题,你能帮我吗?回答:不能,我只有亲自在你的电脑上动手才能找到毛病。还是去找你当地的Linux用户组寻求手把手的指导吧(你能在这儿找到用户组的清单)。
提问:我怎么才能破解root帐号/窃取OP特权/读别人的邮件呢?回答:想要这样做,说明你是个卑鄙小人;想找个黑客帮你,说明你是个白痴!

======== 好问题,坏问题 ========

最后,我举一些例子来说明,怎样聪明的提问;同一个问题的两种问法被放在一起,一种是愚蠢的,另一种才是明智的。
蠢问题:我可以在哪儿找到关于Foonly Flurbamatic的资料?
这种问法无非想得到“STFW”这样的回答。

聪明问题:我用Google搜索过“FoonlyFlurbamatic 2600”,但是没找到有用的结果。谁知道上哪儿去找对这种设备编程的资料?
这个问题已经STFW过了,看起来他真的遇到了麻烦。

蠢问题:我从FOO项目找来的源码没法编译。它怎么这么烂?
他觉得都是别人的错,这个傲慢自大的家伙

聪明问题:FOO项目代码在Nulix 6.2版下无法编译通过。我读过了FAQ,但里面没有提到跟Nulix有关的问题。这是我编译过程的记录,我有什么做得不对的地方吗?
他讲明了环境,也读过了FAQ,还指明了错误,并且他没有把问题的责任推到别人头上,这个家伙值得留意。

蠢问题:我的主板有问题了,谁来帮我?
普通黑客对这类问题的回答通常是:“好的,还要帮你拍拍背和换尿布吗?”,然后按下删除键。

聪明问题:我在S2464主板上试过了X、Y和Z,但没什么作用,我又试了A、B和C。请注意当我尝试C时的奇怪现象。显然边带传输中出现了收缩,但结果出人意料。在多处理器主板上引起边带泄漏的通常原因是什么?谁有好主意接下来我该做些什么测试才能找出问题?
这个家伙,从另一个角度来看,值得去回答他。他表现出了解决问题的能力,而不是坐等天上掉答案。

在最后一个问题中,注意“告诉我答案”和“给我启示,指出我还应该做什么诊断工作”之间微妙而又重要的区别。
事实上,后一个问题源自于2001年8月在Linux内核邮件列表上的一个真实的提问。我(Eric)就是那个提出问题的人。我在Tyan S2464主板上观察到了这种无法解释的锁定现象,列表成员们提供了解决那一问题的重要信息。

通过我的提问方法,我给了大家值得玩味的东西;我让人们很容易参与并且被吸引进来。我显示了自己具备和他们同等的能力,邀请他们与我共同探讨。我告诉他们我所走过的弯路,以避免他们再浪费时间,这是一种对他人时间价值的尊重。

后来,当我向每个人表示感谢,并且赞赏这套程序(指邮件列表中的讨论–译者注)运作得非常出色的时候,一个Linux内核邮件列表(lkml)成员表示,问题得到解决并非由于我是这个列表中的“名人”,而是因为我用了正确的方式来提问。

我们黑客从某种角度来说是拥有丰富知识但缺乏人情味的家伙;我相信他是对的,如果我象个乞讨者那样提问,不论我是谁,一定会惹恼某些人或者被他们忽视。他建议我记下这件事,给编写这个指南的人一些指导。

======== 找不到答案怎么办 ========

如果仍得不到答案,请不要以为我们觉得无法帮助你。有时只是看到你问题的人不知道答案罢了。没有回应不代表你被忽视,虽然不可否认这种差别很难区分。

总的说来,简单的重复张贴问题是个很糟的想法。这将被视为无意义的喧闹。你可以通过其它渠道获得帮助,这些渠道通常更适合初学者的需要。有许多网上的以及本地的用户组,由狂热的软件爱好者(即使他们可能从没亲自写过任何软件)组成。通常人们组建这样的团体来互相帮助并帮助新手。

另外,你可以向很多商业公司寻求帮助,不论公司大还是小(RedHat和LinuxCare就是两个最常见的例子)。别为要付费才能获得帮助而感到沮丧!毕竟,假使你的汽车发动机汽缸密封圈爆掉了–完全可能如此–你还得把它送到修车铺,并且为维修付费。就算软件没花费你一分钱,你也不能强求技术支持总是免费的。

对大众化的软件,就象Linux之类而言,每个开发者至少会有上万名用户。根本不可能由一个人来处理来自上万名用户的求助电话。要知道,即使你要为帮助付费,同你必须购买同类软件相比,你所付出的也是微不足道的(通常封闭源代码软件的技术支持费用比开放源代码软件要高得多,且内容也不那么丰富)。

Python爬虫代码———拉勾数据分析师岗位数据分析

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99

import pandas as pd
import numpy as np

fi = 'F:\cs\python\code\lagou_dataanalysis_craping\lagou3.0.txt'

#read_csv()表示读取csv格式文件,'gb2312'表示csv文件格式的编码

df = pd.read_table(fi, encoding='gbk')

df.head()
df = df.iloc[:,0].str.split('@@@', expand=True)
df.columns = ['city','companyFullName','companyId','companyLabelList','companyShortName','companySize','businessZones','firstType','secondType','education','industryField','positionId','positionAdvantage','positionName','positionLables','salary','workYear']
#df = pd.DataFrame(df)
#读取前五行
df.head()



df_duplicates=df.drop_duplicates(subset='positionId',keep='first')#keep='first'表示保留第一个,删除后面的重复值;keep='last'表示保留最后一个,删除前面的重复值
def cut_word(word,method):
position=word.find('-') #查找“7k-8k”这种形式"-"的位置
length=len(word)
if position !=-1: # "-1" 是False的意思,表示字符串中存在'-'
bottomsalary=word[:position-1]
topsalary=word[position+1:length-1]
else:
bottomsalary=word[:word.upper().find('K')] #这里是指不存在'10k-15k'这种形式,数据中存在7k以上,k有的大写有的小写
topsalary=bottomsalary
if method=="bottom": #获得工资下限
return bottomsalary
else:
return topsalary #获得工资的上限
df_duplicates['topsalary']=df_duplicates.salary.apply(cut_word,method="top") # apply()函数形式:apply(func,*args,**kwargs),*args相当于元组,**kwargs相当于字典
df_duplicates["bottomsalary"]=df_duplicates.salary.apply(cut_word,method="bottom")#apply()函数作用:用来间接的调用一个函数,并把参数传递给函数
df_duplicates.bottomsalary.astype('int')# 字符串转为数值型
df_duplicates.topsalary.astype('int')
df_duplicates["avgsalary"]=df_duplicates.apply(lambda x:(int(x.bottomsalary)+int(x.topsalary))/2,axis=1) #lambda是一种函数,举例:lambda x:x+1,x是参数,x+1是表达式;axis=1表示作用于行
df_duplicates

#选出我们想要的内容进行后续分析
#总体薪酬情况
df_clean=df_duplicates[['city','companyShortName','companySize','education','positionName','positionLables','workYear','avgsalary','industryField']]
import matplotlib.pyplot as plt
#matplotlib inline #%matplotlib inline是jupyter自带的方式,允许图表在cell中输出。
plt.style.use("ggplot") #使用R语言中的ggplot2配色作为绘图风格,为好看
from matplotlib.font_manager import FontProperties #matplotlib.Font_manager 是一种字体管理工具
zh_font = FontProperties(fname="C:\\WINDOWS\\Fonts\\simsun.ttc")#matplotlib.Font_manager.FontProperties(fname) 是指定一种字体,C:\\WINDOWS\\Fonts\\simsun.ttc 是字体路径,直接复制到电脑搜索,你看能不能找到
fig=plt.figure(figsize=(8,5)) #关于绘图方面,文末放了一个链接,讲述的比较详细
ax=plt.subplot(111)
rect=ax.hist(df_duplicates["avgsalary"],bins=30)
ax.set_title(u'薪酬分布',fontProperties=zh_font)
ax.set_xlabel(u'K/月',fontProperties=zh_font)
plt.xticks(range(5,100,5)) #xticks为x轴主刻度和次刻度设置颜色、大小、方向,以及标签大小。
plt.show()

#不同城市薪酬分布情况
ax=df_clean.boxplot(column='avgsalary',by='city',figsize=(9,7))
for label in ax.get_xticklabels():
label.set_fontproperties(zh_font)

#不同学历的薪酬分布
ax=df_clean.boxplot(column='avgsalary',by='education',figsize=(9,7))
for label in ax.get_xticklabels():
label.set_fontproperties(zh_font)

#招聘人数
df_clean.groupby(['city','education']).avgsalary.count().unstack() #unstack()函数可进行行列转置,大家不妨去掉看下效果

#北京上海工作经验不同薪酬分布情况
df_bj_sh=df_clean[df_clean['city'].isin(['上海','北京'])]
ax=df_bj_sh.boxplot(column='avgsalary',by=['workYear','city'],figsize=(19,6))
for label_x in ax.get_xticklabels():
label_x.set_fontproperties(zh_font)

#北上广深对数据分析职位需求量
def topN(df,n=5):
counts=df.value_counts() #value_counts()统计所有非零元素的个数
return counts.sort_values(ascending=False)[:n] #sort_values()对数据进行排序,ascending是设置升序和降序
df_bj_sh_gz_sz=df_clean[df_clean['city'].isin(['上海','北京','广州','深圳'])]
df_bj_sh_gz_sz.groupby('city').positionName.apply(topN)

#公司所处行业领域词云图分析
import re #re模块提供了对正则表达式的支持
import jieba as jb
from wordcloud import WordCloud
word_str = ','.join(df_clean['industryField']) # 以','为分隔符,将所有的元素合并成一个新的字符串,注意:csv文件中,单元格之间有逗号。
#对文本进行分词
word_split = jb.cut(word_str) #精确模式
#使用|作为分隔符
word_split1 = "|".join(word_split)
pattern=re.compile("移动|互联网|其他|金融|企业|服务|电子商务|O2O|数据|服务|医疗健康|游戏|社交网络|招聘|生活服务|文化娱乐|旅游|广告营销|教育|硬件|信息安全")
#匹配所有文本字符;pattern 我们可以理解为一个匹配模式,用re.compile()方法来获得这个模式
word_w=pattern.findall(word_split1) #搜索word_split1,以列表形式返回全部能匹配的子串
word_s = str(word_w)
my_wordcloud = WordCloud(font_path="C:\\WINDOWS\\Fonts\\simsun.ttc",width=900,height=400,background_color="white").generate(word_s)
plt.imshow(my_wordcloud)
plt.axis("off") #取出坐标轴
plt.show()

机器学习数学基础(0)——目录

高等数学

线性代数
行列式
矩阵
向量
线性方程组
矩阵的特征值和特征向量
二次型

概率论和数理统计
随机事件和概率
随机变量及其概率分布
多维随机变量及其分布
随机变量的数字特征
数理统计的基本概念

关于机器学习在大气科学的应用

前阵子阅读了院里一位博士研究生师兄的一篇有关基于神经网络算法对北京近五年的常规探空数据进行自组织分类,并揭示出大气污染物在不同边界层结构下的演变规律和相关机制的文章《Self-organized classification of boundary layer meteorology and associated characteristics of air quality in Beijing》,看完顿时心生膜拜之情;

然后恰巧也是那个时候吕教授在院群上也转发了一篇关于机器学习预测火势甚至天气的公众号文章《机器学习成功解决“蝴蝶效应”!以后你终于可以相信天气预报了》

加之自己报名了一个“预测北京和伦敦两个城市的空气质量”的KDD Cup 2018但是因为自己报名太晚,组队不成(其实更深层的是之前关于机器学习的内容已经忘得差不多了。。。)

如此的机缘巧合,感觉将机器学习应用于大气科学将前途无量。我自己也想在这一方向进行深入了解,接下来我会进行相关内容的学习。