如何从外部网页(尤其是 SPA 应用)中提取全部商品 URL
技术百科
聖光之護
发布时间:2026-01-27
浏览: 次 本文介绍如何通过解析 json-ld 结构化数据精准提取现代电商页面(如 coop、migros 等 angular/react 渲染的单页应用)中隐藏的真实商品链接,避开 dom 动态渲染和 cors 限制问

现代电商平台(如 Coop.ch 和 Migros.ch)普遍采用前端框架(Angular、React)进行服务端渲染(SSR)或客户端动态加载,导致传统 DOM 解析(如 getElementsByTagName('a'))无法捕获全部链接——关键商品 URL 往往不直接存在于 标签中,而是嵌入在 。
✅ 推荐方案:定位并解析 JSON-LD 中的 ItemList 数据
以 Coop 页面为例,其商品列表实际由 ItemList 类型的 JSON-LD 提供,其中每个 itemListElement 包含一个 url 字段,即目标商品页地址。该数据块通常位于 HTML 源码中类似如下位置:
此时,使用 DOMDocument 解析整个 HTML 效率低且易受格式干扰;更可靠的方式是字符串级精准提取:
? PHP 实现示例(含辅助函数)
$url,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_FOLLOWLOCATION => true,
CURLOPT_USERAGENT => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
CURLOPT_TIMEOUT => 10,
]);
$html = curl_exec($ch);
curl_close($ch);
if (!$html) {
die("Failed to fetch page");
}
// 精准提取 JSON-LD 内容
$json_ld = str_after('', $html);
$json_ld = str_after('', $json_ld);
$data = json_decode($json_ld, flags: JSON_THROW_ON_ERROR);
if (!isset($data->itemListElement)) {
die("No itemListElement found in JSON-LD");
}
// 输出所有商品 URL
foreach ($data->itemListElement as $item) {
if (isset($item->url) && filter_var($item->url, FILTER_VALIDATE_URL)) {
echo htmlspecialchars($item->url) . "
\n";
}
}? 为什么不用 DOMDocument? JSON-LD 块常因缩进不规范、注释混杂或嵌套引号导致 DOMDocument::loadHTML() 解析失败或丢失节点;而字符串切片(str_after/str_before)轻量、稳定、无依赖,特别适合提取已知锚点的嵌入式 JSON。
⚠️ 注意事项与最佳实践
- User-Agent 与请求头:多数现代网站会拦截无 User-Agent 的请求。务必使用合理浏览器标识,并考虑添加 Accept, Accept-Language 等头部。
- 反爬策略:Coop/Migros 可能启用 Cloudflare 或 bot 检测。若返回 403/503,应改用带完整浏览器指纹的无头浏览器(如 Puppeteer + PHP 调用),但需权衡复杂度与必要性。
- Migros 特殊情况:Migros 页面虽为 Angular 应用,但其商品数据常通过 XHR 加载(如 /api/offers)。可借助浏览器 DevTools → Network → Filter fetch/XHR 找到真实 API 端点,直接调用(需处理认证 token 或 referer)。
- Robots.txt 与法律合规:始终检查 https://www.php.cn/link/959d83db456f69a7ca5a7d683cc52f89/robots.txt 和 https://www./link/73cdac09836439688e0c3626d39d3ef3/robots.txt,遵守 Crawl-Delay 和禁止抓取路径;仅用于个人学习或授权用途,避免高频请求。
- 错误处理不可省略:生产环境必须加入 try-catch、HTTP 状态码校验、JSON 解析异常捕获及空值判断。
✅ 总结
当面对 SPA 构建的电商页面时,“找 标签”已过时。优先搜索 JSON-LD、OpenGraph、Schema.org 结构化数据——它们是搜索引擎和开发者为机器可读性预留的“黄金入口”。掌握字符串级精准提取技巧,配合合理 HTTP 客户端配置,即可高效、稳定地获取全部目标 URL,无需依赖前端渲染或复杂自动化工具。
# 自动化
# ai
# 搜索引擎
# 加载
# 电商平台
# 结构化
# windows
# 为例
# 浏览器
# app
# 客户端
# 工具
# https
# http
# js
# json
# curl
# html
# 字符串
# 重试
# 前端
# Token
# 切片
# try
# catch
# php
# dom
# 但其
# 不规范
# Filter
# 不直接
# react
# 无头
# 服务端
# 前端框架
# angular
相关栏目:
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
AI推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
SEO优化<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
技术百科<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
谷歌推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
百度推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
网络营销<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
案例网站<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
精选文章<?muma echo $count; ?>
】
相关推荐
- Windows10如何更改系统字体大小_Win10
- Python解释执行模型_字节码流程说明【指导】
- Win11怎么设置夜间模式_Windows11显示
- windows 10专注助手怎么关闭_window
- 如何使用Golang管理模块版本_Golanggo
- Win10怎样安装Word样式库_Win10安装W
- Mac怎么安装软件_Mac安装dmg与pkg文件的
- Go语言中slice追加操作的底层共享机制详解
- Win10怎样卸载TeamViewer_Win10
- Windows10系统怎么查看显卡驱动_Win10
- Go 语言标准库为何不提供泛型 Contains
- Windows蓝屏BAD_POOL_HEADER故
- 如何在Golang中实现RPC异步返回_Golan
- Windows7如何安装系统镜像_Windows7
- Windows如何使用BitLocker To G
- Win11输入法选字框不见了怎么办_Win11输入
- Windows10怎么查看硬件信息_Windows
- 本地php环境出现502错误_nginx或apac
- Python配置文件操作教程_JSONINIYAM
- Win11怎么设置右键刷新选项_Windows11
- 如何在 Go 中正确初始化结构体中的 map 字段
- Win11怎么开启自动HDR画质_Windows1
- Win11怎么查看wifi信号强度_检测Windo
- Win11如何设置鼠标灵敏度_Win11鼠标灵敏度
- 作用域操作符会影响性能吗_php静态调用性能分析【
- Python性能剖析高级教程_cProfileLi
- MAC怎么一键隐藏桌面所有图标_MAC极简模式切换
- Win11如何暂停系统更新 Win11暂停更新最长
- c++中如何计算坐标系中两点间距离_c++勾股定理
- c++中的std::conjunction和std
- Win11怎样安装网易云音乐_Win11安装网易云
- php8.4匿名类怎么用_php8.4匿名类创建与
- C++中的std::shared_from_thi
- c++如何判断文件是否存在_c++ filesys
- Win11怎么关闭SmartScreen_禁用Wi
- 如何在JavaScript中动态拼接PHP的bas
- Python模块的__name__属性如何由导入方
- Python项目回滚策略_发布安全说明【指导】
- Mac如何设置动态壁纸?(让桌面动起来)
- 如何使用Golang指针与接口结合_实现方法调用和
- php中$this和::能混用吗_对象与静态作用域
- Win11怎么设置多显示器任务栏 Win11扩展任
- C++中的Pimpl idiom是什么,有什么好处
- Mac电脑如何恢复出厂设置_Mac抹掉数据并重装系
- 如何使用Golang实现负载均衡_分发请求到多个服
- Win11无法安装软件怎么办_Win11解除应用安
- Win11怎么看电池循环次数_Win11笔记本电池
- Win11怎么设置任务栏大小_Windows11注
- Win11系统更新后黑屏怎么办 Win11更新黑屏
- Win11如何关闭小娜Cortana Win11禁

QQ客服