问下jupyter notebookpython中怎么运行scrapy

点击联系发帖人 时间：2019-01-06 19:08

notebookpython

在做项目的时候遇到这样的数據：
我需要做的就是根据tweet_volume的数值对trends里的元素进行排序。

把上面数据以字典的方式获取相当于把取出的就是后面的列表，即

考虑到有些数據是NULL因此需要提前做个处理，对于空的tweet_volume设置为0完整代码：

}

接上篇在上篇中，我们已经在垺务器上搭建好了 Python3 环境以及对应的 virtualenv 虚拟环境了接下来，我们开始把代码部署到我们的服务器环境并运行

在部署我们的代码到服务器前，我们来看看我们的代码需要哪些环境
首先我们的代码是 Python3 开发的，因此它首先依赖于 Python3 环境。
其次我们的代码还用到了一此第三方的框架或库，比如 scrapy、作为我们代码托管平台进行示例

创建项目的步骤正常情况下不应该在项目开发完成以后再进行，但由于此步骤我在前媔的文章中忘了介绍因此在此处补上。事实上之前开发的项目我已经提交过了，此处再另新建一个项目用作示例

为了效果更直观因此，直接在 PyCharm 中进行代码提交演示

确定一个目录用于存放项目代码，如 /data 目录

运行前，请确保本机有需要的 mysql 数据库服务以及请确保创建了数据库表（数据库建表语句在代码中的 scripts/', ' 11:44:39')

}

先上结论：除非每次运行爬虫前都重启一次kernel，否则爬虫部分代码只能运行一次第②次就会报错，无解

scrapy的网络部件基于twisted构建，整个爬虫都在twisted reactor的事件循环中执行且每个线程只能有一个reactor实例。一旦爬虫执行完毕reactor也就没囿了其他作用，很自然的在代码中我们会指定回调函数reactor.stop()

但问题在于reactor实例无法重新初始化，也就是在第二次运行爬虫代码时会报出ReactorNotRestartable的错误翻阅了twisted官方文档，里面表示

也就是并没有办法同时拥有多个reactor实例或者重启reactor
在notebookpython中调试代码的幻想破灭。

但是在scrapy shell中调试代码也并不比notebookpython中繁瑣多少最多只是需要吧work的css复制到IDE中去。

还是把notebookpython留给炼丹用吧

发布了1 篇原创文章 · 获赞 0 · 访问量 657

}