如何使用Python采集百度下拉框? 悬赏5元 已结束
不知道为啥百度获取不了下拉框的json,可能是我个人浏览器问题,那么还有什么办法可以用Python采集到百度下拉框呢?
<p>批量采集百度下拉框关键词之前用shell写了一下,现在用python写一下,环境是windows–sublime2的编辑器,大概就是用urllib爆api然后用正则表达式匹配出关键词内容,最后利用for函数来实现批量操作,导出的话看回我之前的一些python小脚本就可以实现,很简单吧,下面的代码粗糙,不过还是请看:<a href=" data-url=" class="show-5118-data" rel="Nofollow" target="_blank"></a>用shell写的批量采集百度下拉框关键词脚本链接在这里批量采集百度下拉框关键词源码:</p><p></p><table><tbody><tr><td><div>1</div><div>2</div><div>3</div><div>4</div><div>5</div><div>6</div><div>7</div><div>8</div><div>9</div><div>10</div><div>11</div><div>12</div><div>13</div><div>14</div><div>15</div><div>16</div><div>17</div><div>18</div></td><td><div><div><code>#encoding=utf-8</code></div><div><code>import</code> <code>urllib</code></div><div><code>import</code> <code>re</code></div><div> </div><div><code>import</code> <code>sys</code></div><div><code>reload</code><code>(sys)</code></div><div><code>(</code><code>"utf-8"</code><code>)</code></div><div><code>for</code> <code>word </code><code>in</code> <code>open</code><code>(</code><code>'kws.txt'</code><code>):</code></div><div><code> </code><code>url</code><code>=</code><code>''</code><code>%</code><code>(word)</code></div><div> </div><div><code> </code><code>html</code><code>=</code><code>(url)</code></div><div><code> </code><code>content</code><code>=</code><code>().decode(</code><code>'gbk'</code><code>,</code><code>'ignore'</code><code>)</code></div><div><code> </code><code>()</code></div><div><code> </code><code># print content</code></div><div><code> </code><code>r</code><code>=</code><code>><code>compile</code><code>(r</code><code>'"(.+?)"'</code><code>)</code></div><div><code> </code><code>keywords</code><code>=</code><code>(r,content)</code></div><div><code> </code><code>for</code> <code>kws </code><code>in</code> <code>keywords:</code></div><div><code> </code><code>print</code> <code>kws</code></div></div></td></tr></tbody></table>
这个首先你得熟悉paython/才可以,如果不熟悉肯定不行