西西軟件園多重安全檢測(cè)下載網(wǎng)站、值得信賴的軟件下載站!
西西首頁(yè) 電腦軟件 安卓軟件 電腦游戲 安卓游戲 排行榜 專題合集

python爬取138看書網(wǎng)小說(shuō)源碼

  • python爬取138看書網(wǎng)小說(shuō)源碼
  • 軟件大小:1KB
  • 更新時(shí)間:2020-09-21 07:48
  • 軟件語(yǔ)言:中文
  • 軟件廠商:
  • 軟件類別:國(guó)產(chǎn)軟件 / 免費(fèi)軟件 / 源碼相關(guān)
  • 軟件等級(jí):3級(jí)
  • 應(yīng)用平臺(tái):WinXP, Win7, win8
  • 官方網(wǎng)站:暫無(wú)
  • 應(yīng)用備案:
好評(píng):50%
壞評(píng):50%

本類精品

軟件介紹

python爬取138看書網(wǎng)小說(shuō)源碼,來(lái)自論壇大神原創(chuàng)制作的一個(gè)爬取源碼,可以幫您爬取138小說(shuō)網(wǎng)的小說(shuō)資源,支持分類搜索查找功能,支持目錄爬取,自帶書簽系統(tǒng),讓您看小說(shuō)更加輕松。本次帶來(lái)python爬取138看書網(wǎng)小說(shuō)源碼資源下載,需要看小說(shuō)的朋友們不妨試試吧!

python爬取138看書網(wǎng)小說(shuō)源碼

python爬取138看書網(wǎng)小說(shuō)源碼作者說(shuō)明

記錄一下今天爬的第二個(gè)小說(shuō)網(wǎng),第二次弄起來(lái)比較熟練了,不像第一次弄一半就得找教程邊看邊搞。

但實(shí)際上爬小說(shuō)應(yīng)該是最簡(jiǎn)單的事情了吧,涉及的技術(shù)也沒(méi)有那么深。

把代碼發(fā)出來(lái)讓想剛?cè)腴T卻不知道從何下手的同萌新們看看吧,看教程總是云里霧里的,還是還得上手多練練才能加深印象。

這個(gè)小說(shuō)爬蟲還是有點(diǎn)垃圾,多線程沒(méi)有,而且有些函數(shù)也是用的跟*一樣,這玩意該怎么改進(jìn)也沒(méi)有頭緒。

python爬取138看書網(wǎng)小說(shuō)源碼演示一覽

import requests

import lxml

import re

headers = {

    'user-agent': 'User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'

}

print ('本腳本僅適用于138看書網(wǎng):https://www.13800100.com/')

#url_list = 'https://www.13800100.com/list/72262/'

url_list = (input('粘貼小說(shuō)目錄url,必須是小說(shuō)目錄,小說(shuō)首頁(yè)不支持\n'))

downurl = 'https://www.13800100.com/article/'

url_list = requests.get(url_list)

text_list = url_list.text

#爬小說(shuō)書名

text_title = re.findall(r'<div class="cate-tit">(.*?)</h2>',text_list,re.S)[0]

text_title = text_title.replace('\r\n','')

text_title = text_title.replace('<h2>','')

text_title = text_title.replace(' ','')

#爬小說(shuō)目錄列表

text_list_info = re.findall(r'<div class="bd">.*?</div>',text_list,re.S)[0]

text_list_info = re.findall(r'<a href="/article/(.*?)" class="name">(.*?)</a>',text_list)

for i in text_list_info:

#每章小說(shuō)的url和每章章名

    list = i[0]

    name = i[1]

    download = downurl + list

    download_info = requests.get(url = download,headers=headers)

    html=download_info.text

    html_info = re.findall(r'<div class=".*?">(.*?)</div>',html,re.S)[0]

    html_info = html_info.replace ('                          ','')

    html_info = html_info.replace ('<br/>',('\n'))

    html_info = html_info.replace ('  ','')

    print (name)

#輸出為記事本

    with open ('%s.txt' % text_title,'a+',encoding = 'utf-8')as f:

        f.write('                                                '+ name + '\n')

        f.write('\n')

        f.write(html_info + '\n')

        f.write('\n')

print ('下載完成')

軟件標(biāo)簽: python 小說(shuō) 源碼

腳本要求輸入的url必須是小說(shuō)的目錄,而不是小說(shuō)的首頁(yè)

其他版本下載

發(fā)表評(píng)論

昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
查看所有(0)條評(píng)論 > 字?jǐn)?shù): 0/500

TOP
軟件下載