怎么看哪些python 爬取链接的链接是攻击的

梦幻西游电脑版 | 三国人物 | 网络推广 | 剑侠情缘网络版叁 | 武侠 | 总决赛 | Legion | 牛魔王 | 游戏策划 | unity（游戏引擎） | Xbox One | 电子技术研发 | 高中 | 街机游戏 | 钢铁雄心4 | iOS应用 | 海贼王 | 桌面游戏 | 一体机 | 冬奥会 | 校服 | 数学建模 | 秦时明月之天行九歌 | 陶渊明 | 营销策划 | 洛奇英雄传 | 极限挑战(综艺节目) | Overlord（动画） | galgame | 热血传奇（游戏） | 掌上游戏机 | ps3 | ios游戏 | 春节联欢晚会 | 室内设计 | 任天堂 | 对联 | 杨紫 | 公积金 | 进击的巨人 | 休闲游戏 | 算法 | 搜狗输入法 | 超级机器人大战 | 书法 | 化妆品 | 游戏手柄 | 西瓜视频 | 歌曲 | O2O | 彩虹六号（游戏） | 字幕 | 配音 | 男性 | 天下2（游戏） | 衣服 | 日本漫画 | 虎牙直播 | 中国中央电视台 | 梦三国（游戏） | HTML | 经济学 | 300英雄 | 免费软件 | 斗鱼直播 | 刀塔（dota2） | 高中英语 | 命令与征服：红色警戒2（游戏） | Flash | 命运-冠位指定 | 冷知识 | 智能眼镜 | 川酒 | 网站运营 | Internet Explorer | 火影忍者手游 | acg | 火柴人系列游戏 | 任天堂wii | 啤酒 | 一级方程式赛车（f1） | 流星 | 街头霸王（游戏） | 格斗游戏（ftg） | 导航 | 孙悟空 | 女生 | 完美世界（游戏） | 手机游戏开发 | 游戏攻略 | 英雄传说：闪之轨迹（游戏） | 食物 | 任天堂3ds | 超级战队 | 微软（microsoft） | 演员 | youtube | 小米科技 | 花千骨 | 记忆 | 日历 | 刺客信条2 | 哔哩哔哩 | 花样姐姐 | 农业 | 生死狙击手游 | 身高 | 酒吧 | 任天堂switch | 香水推荐 | 编辑器 | 用户界面 | QQ飞车（游戏） | pdf | 飞船 | 勇者斗恶龙（游戏） | 星际战甲（游戏） | 整容 | 流氓软件 | 金庸 | 优酷视频 | 面相 | 生存游戏 | 笔记本 | 华为路由器 | 动画制作 | 网吧 | 软件开发 | macos | 移民 | 烹饪 | 天蝎座 | 意大利 | 赛车游戏 | 雷欧奥特曼 | 香水 | 冰雪奇缘（电影） | 微信群 | 背景音乐（bgm） | 李信 | 刺客信条起源 | 中药 | 炉石传说 | 凹凸世界 | 男生 | 率土之滨 | 祛痘 | 人生 | 辐射防护 | 即时战略游戏（RTS） | 乌贼 | 名言 | 网址导航 | ansys | 输入法 | 海南 | 李小龙 | 武侠小说 | 食用油 | 最强大脑（电视节目） | 飙酷车神 | 海关 | 扫雷（游戏） | 仙剑 | 大话西游之大圣娶亲（电影） | 网球 | 闺蜜 | 科学 | NBA 2K | 战神（游戏） | 取名 | 龙之谷（游戏） | 巧克力 | 球球大作战 | 乐器 | 英雄无敌3（游戏） | 酵素 | 尧山 | root | 李白 | 猴子 | 缝纫机 | 花卉 | 最终幻想（游戏） | 舰队 collection | 星系 | 美术 | 足球游戏 | 新剑侠情缘 | mugen | 中国 | 日本代购 | 南昌市 | 暴雪游戏 | 生化危机7 | 饥荒（游戏） | 孤岛惊魂5（游戏） | 画师 | 地图应用 | 仁王（游戏） |

你的位置：网站首页 >> 频道首页 >>网络游戏 >>怎么看哪些python 爬取链接的链接是攻击的

怎么看哪些python 爬取链接的链接是攻击的

来源：蜘蛛抓取(WebSpider) 时间：2017-06-19 08:03 标签： scrapy 爬取全站链接

你正在使用的浏览器版本过低，将不能正常浏览和使用知乎。2009年7月总版技术专家分月排行榜第二2009年3月总版技术专家分月排行榜第二2009年1月总版技术专家分月排行榜第二2005年7月总版技术专家分月排行榜第二2005年5月总版技术专家分月排行榜第二2005年3月总版技术专家分月排行榜第二
优秀小版主2015年8月优秀小版主2015年9月优秀小版主2015年5月优秀小版主2015年2月论坛优秀版主
2012年12月总版技术专家分月排行榜第一2012年10月总版技术专家分月排行榜第一2012年9月总版技术专家分月排行榜第一2012年8月总版技术专家分月排行榜第一
2012年11月总版技术专家分月排行榜第三
2011年总版技术专家分年内排行榜第三2010年总版技术专家分年内排行榜第三
2012年总版技术专家分年内排行榜第五
2011年总版技术专家分年内排行榜第三2010年总版技术专家分年内排行榜第三
2012年总版技术专家分年内排行榜第五
2011年总版技术专家分年内排行榜第三2010年总版技术专家分年内排行榜第三
2012年总版技术专家分年内排行榜第五
2009年7月总版技术专家分月排行榜第二2009年3月总版技术专家分月排行榜第二2009年1月总版技术专家分月排行榜第二2005年7月总版技术专家分月排行榜第二2005年5月总版技术专家分月排行榜第二2005年3月总版技术专家分月排行榜第二
优秀小版主2015年8月优秀小版主2015年9月优秀小版主2015年5月优秀小版主2015年2月论坛优秀版主
本帖子已过去太久远了，不再提供回复功能。刚开始爬取的时候是用正则表达式实现的，然后爬取了不必要的链接，现在改用goquery实现：
// judgeUrl project judgeUrl.go
package judgeUrl
func IsUrl(str string) bool {
if strings.HasPrefix(str, &#&) || strings.HasPrefix(str, &//&) || strings.HasSuffix(str, &.exe&) || strings.HasSuffix(str, &:void(0);&) {
return false
} else if strings.HasPrefix(str, &{&) && strings.HasSuffix(str, &}&) {
return false
} else if strings.EqualFold(str, &javascript:;&) {
return false
return true
return true
func SamePathUrl(preUrl string, url string, mark int) (newUrl string) {
last := strings.LastIndex(preUrl, &/&)
if last == 6 {
newUrl = preUrl + url
if mark == 1 {
newUrl = preUrl[:last] + url
newPreUrl := preUrl[:last]
newLast := strings.LastIndex(newPreUrl, &/&)
newUrl = newPreUrl[:newLast] + url
return newUrl
// WebUrls_Spider project main.go
package main
&/PuerkitoBio/goquery&
&test/judgeUrl&
var urlMap map[string]bool //防止重复链接进入死循环，不过获取链接太多可能会内存溢出
func fetch(url string, count int) {
if count & 1 { //设定爬取深度是1页
body, err := goquery.NewDocument(url)
if err != nil {
body.Find(&a&).Each(func(i int, aa *goquery.Selection) {
href, IsExist := aa.Attr(&href&)
if IsExist == true {
href = strings.TrimSpace(href)
if len(href) & 2 && judgeUrl.IsUrl(href) {
if _, ok := urlMap[href]; ok == false {
fmt.Println(&之前的url：&, href)
if strings.HasPrefix(href, &/&) || strings.HasPrefix(href, &./&) {
href = judgeUrl.SamePathUrl(url, href, 1)
} else if strings.HasPrefix(href, &../&) {
href = judgeUrl.SamePathUrl(url, href, 2)
fmt.Println(&修改之后的url：&, href)
urlMap[href] = true
fetch(href, count+1)
func writeValues(outfile string) error {
file, err := os.Create(outfile)
if err != nil {
fmt.Printf(&创建%s文件失败！&, outfile)
return err
defer file.Close()
for k, _ := range urlMap {
file.WriteString(k + &\n&)
return nil
func main() {
urlMap = make(map[string]bool, 1000000)
fetch(&/&, 0)
writeValues(&urls.dat&)
&&相关文章推荐
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：318528次
积分：7621
积分：7621
排名：第2564名
原创：456篇
评论：39条
(2)(1)(2)(4)(8)(1)(1)(1)(6)(6)(21)(52)(22)(12)(25)(28)(29)(17)(16)(25)(73)(80)(32)网络爬虫应该怎么抓取调用JS函数的链接地址
代码示例：
&a href = "javascript:test('test');"&test&/a&
类似如上形式的代码，我应该怎么抓取链接地址。
貌似木有啥好的办法，针对特定网页人工分析js代码，然后爬取。
可以使用phantomjs 做模拟点击
jsoup或htmlparser进行解析，&a ....&，获取href属性值即可。
如果需要点击，建议使用htmlunit
写爬虫的童鞋可以试试神箭手云爬虫，自带JS渲染、代理ip、验证码识别等功能，还可以发布和导出爬取的数据，生成图表等，都在云端进行，不需要安装开发环境。

怎么看哪些python 爬取链接的链接是攻击的

我要回帖

更多关于 scrapy 爬取全站链接的文章

随机推荐

怎么看哪些python 爬取链接的链接是攻击的

我要回帖

更多关于 scrapy 爬取全站链接 的文章

随机推荐

更多关于 scrapy 爬取全站链接的文章