Node批量爬取头条视频并保存方法 - IT知识教程 - 中企动力

登录注册

做网站
做推广
做电商

服务支持
应用与服务
关于中企

中企商学院

查看更多

核心必备

数字门户内贸营销版

全球营销版行业解决方案版

通用版企业域名

企业邮箱

行业应用

外贸客户洞察平台产品导入

数字名片

视觉设计

VR全景视频制作

图片拍摄

网络安全

等保认证 SSL证书

查看更多

核心必备

全球SEO 百度首屏展位

Yandex推广 Google海外推广

解决方案

外贸推广解决方案

查看更多

核心必备

全网商城移动商城

装修服务

电商产品拍摄

解决方案

零售行业OMO解决方案政府采购电商平台解决方案

查看更多

查看更多

查看更多

帮助中心

数字门户产品服务保障服务中心

设计师信息化讲堂

解决方案

外贸数字营销解决方案企业视频直播解决方案

企业安全等保解决方案品牌数字化营销解决方案

品牌零售数字商业解决方案智慧园区解决方案

B2B电商平台建设解决方案数字化政务门户解决方案

开拓型外贸企业解决方案成长型外贸企业解决方案

行业解决方案

实战应用

产品剖析律所行业专家

行业解读

学习中心

电商运营学院网站建设学院

查看更多

应用与服务

VR智能全景个性化场景定制服务

网站安全服务云定制

企业视频直播 Banner设计

产品主图设计图片处理

查看更多

企业概况

关于我们企业文化

发展历程数码庄园

法律隐私

资质荣誉

企业资质所获荣誉

新闻中心

新闻公告媒体报道

社会公益视频中心

行业资讯

联系我们

联系我们工作机会

查看更多

查看更多

网站建设 IT知识 IT知识教程 Node批量爬取头条视频并保存方法

Node批量爬取头条视频并保存方法

2021-05-26 21:17:36

简介

一般批量爬取视频或者图片的套路是，使用爬虫获得文件链接集合，然后通过 writeFile 等方法逐个保存文件。然而，头条的视频，在需要爬取的 html 文件（服务端渲染输出）中，无法捕捉视频链接。视频链接是页面在客户端渲染时，通过某些 js 文件内的算法或者解密方法，根据视频的已知 key 或者 hash 值，动态计算出来并添加到 video 标签的。这也是网站的一种反爬措施。

我们在浏览这些页面时，通过审核元素，可以看到计算后的文件地址。然而在批量下载时，逐个手动的获取视频链接显然不可取。开心的是，puppeteer 提供了模拟访问 Chrome 的功能，使我们可以爬取经过浏览器渲染出来的最终页面。

项目启动

命令

npm inpm start

Notice: 安装 puppeteer 的过程稍慢，耐心等待。

配置文件

// 配置相关module.exports = { originPath: 'https://'); await page.screenshot({path: 'example.png'}); await browser.close();})();

视频文件下载方法

下载视频主方法

const downloadVideo = async video => { // 判断视频文件是否已经下载 if (!fs.existsSync(`${config.savePath}/${video.title}.mp4`)) { await getVideoData(video.src, 'binary').then(fileData => { console.log('下载视频中：', video.title) savefileToPath(video.title, fileData).then(res => console.log(`${res}: ${video.title}`) ) }) } else { console.log(`视频文件已存在：${video.title}`) }}

获取视频数据

getVideoData (url, encoding) { return new Promise((resolve, reject) => { let req = http.get(url, function (res) { let result = '' encoding && res.setEncoding(encoding) res.on('data', function (d) { result += d }) res.on('end', function () { resolve(result) }) res.on('error', function (e) { reject(e) }) }) req.end() })}

将视频数据保存到本地

savefileToPath (fileName, fileData) { let fileFullName = `${config.savePath}/${fileName}.mp4` return new Promise((resolve, reject) => { fs.writeFile(fileFullName, fileData, 'binary', function (err) { if (err) { console.log('savefileToPath error:', err) } resolve('已下载') }) })}

目标网站：西瓜视频

项目功能：下载头条号【维辰财经】下的最新20个视频

项目地址：Github 地址

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

相关文章

如何基于线程池提升request模块效率

普通方法：爬取梨视频importreimporttimeimportrandomimportrequestsfromlxmlimportetreestart_t

将阿里巴巴的宝贝复制到淘宝上，需要用什么工具啊？

你好，甩手工具箱中的爬取产品就可以整篇爬取阿里的产品，大批量爬取产品，单独爬取产品导出来淘宝数据包，导出来数据文件立即导进淘宝助理上传入自身店面，爬取产品的协助

Scrapy框架爬取西刺代理网免费高匿代理的实现代码

分析需求:爬取西刺代理网免费高匿代理，并保存到MySQL数据库中。这里只爬取前10页中的数据。思路：分析网页结构，确定数据提取规则创建Scrapy项目编写ite

python爬虫线程池创建并获取文件代码实例

本实例主要进行线程池创建，多线程获取、存储视频文件梨视频：利用线程池进行视频爬取#爬取梨视频数据importrequestsimportrefromlxmlim

使用PyCharm批量爬取小说的完整代码

使用pycharm批量爬取小说爬取小说的思路：1.获取小说地址本文以搜书网一小说为例《嘘，梁上有王妃！》目录网址：https:///XuLiangShangYo

7 x 24

全国售后支持
100 倍

故障时长赔付
26 年

26年行业服务经验
70 家

全国售后支持
1600+ 名

超千人的设计、研发团队
150 万

服务企业客户150万家

Copyright © 1999-2025 中企动力科技股份有限公司（300.cn）版权所有京公网安备11030102010293号京ICP证010249-2

在线咨询

建站在线咨询

获取方案

获取建站报价/方案

我们联系您

微信咨询

扫一扫添加
动力姐姐微信

TOP