如何从外部网页（尤其是 SPA 应用）中提取全部商品 URL

技术百科

聖光之護

发布时间：2026-01-27

浏览：次

本文介绍如何通过解析 json-ld 结构化数据精准提取现代电商页面（如 coop、migros 等 angular/react 渲染的单页应用）中隐藏的真实商品链接，避开 dom 动态渲染和 cors 限制问

题。

现代电商平台（如 Coop.ch 和 Migros.ch）普遍采用前端框架（Angular、React）进行服务端渲染（SSR）或客户端动态加载，导致传统 DOM 解析（如 getElementsByTagName('a')）无法捕获全部链接——关键商品 URL 往往不直接存在于标签中，而是嵌入在。

✅ 推荐方案：定位并解析 JSON-LD 中的 ItemList 数据

以 Coop 页面为例，其商品列表实际由 ItemList 类型的 JSON-LD 提供，其中每个 itemListElement 包含一个 url 字段，即目标商品页地址。该数据块通常位于 HTML 源码中类似如下位置：

此时，使用 DOMDocument 解析整个 HTML 效率低且易受格式干扰；更可靠的方式是字符串级精准提取：

? PHP 实现示例（含辅助函数）

 $url,
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_FOLLOWLOCATION => true,
    CURLOPT_USERAGENT => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    CURLOPT_TIMEOUT => 10,
]);
$html = curl_exec($ch);
curl_close($ch);

if (!$html) {
    die("Failed to fetch page");
}

// 精准提取 JSON-LD 内容
$json_ld = str_after('', $html);
$json_ld = str_after('', $json_ld);

$data = json_decode($json_ld, flags: JSON_THROW_ON_ERROR);
if (!isset($data->itemListElement)) {
    die("No itemListElement found in JSON-LD");
}

// 输出所有商品 URL
foreach ($data->itemListElement as $item) {
    if (isset($item->url) && filter_var($item->url, FILTER_VALIDATE_URL)) {
        echo htmlspecialchars($item->url) . "
\n";
    }
}

? 为什么不用 DOMDocument？ JSON-LD 块常因缩进不规范、注释混杂或嵌套引号导致 DOMDocument::loadHTML() 解析失败或丢失节点；而字符串切片（str_after/str_before）轻量、稳定、无依赖，特别适合提取已知锚点的嵌入式 JSON。

⚠️ 注意事项与最佳实践

User-Agent 与请求头：多数现代网站会拦截无 User-Agent 的请求。务必使用合理浏览器标识，并考虑添加 Accept, Accept-Language 等头部。
反爬策略：Coop/Migros 可能启用 Cloudflare 或 bot 检测。若返回 403/503，应改用带完整浏览器指纹的无头浏览器（如 Puppeteer + PHP 调用），但需权衡复杂度与必要性。
Migros 特殊情况：Migros 页面虽为 Angular 应用，但其商品数据常通过 XHR 加载（如 /api/offers）。可借助浏览器 DevTools → Network → Filter fetch/XHR 找到真实 API 端点，直接调用（需处理认证 token 或 referer）。
Robots.txt 与法律合规：始终检查 https://www.php.cn/link/959d83db456f69a7ca5a7d683cc52f89/robots.txt 和 https://www./link/73cdac09836439688e0c3626d39d3ef3/robots.txt，遵守 Crawl-Delay 和禁止抓取路径；仅用于个人学习或授权用途，避免高频请求。
错误处理不可省略：生产环境必须加入 try-catch、HTTP 状态码校验、JSON 解析异常捕获及空值判断。

✅ 总结

当面对 SPA 构建的电商页面时，“找标签”已过时。优先搜索 JSON-LD、OpenGraph、Schema.org 结构化数据——它们是搜索引擎和开发者为机器可读性预留的“黄金入口”。掌握字符串级精准提取技巧，配合合理 HTTP 客户端配置，即可高效、稳定地获取全部目标 URL，无需依赖前端渲染或复杂自动化工具。

# 自动化 # ai # 搜索引擎 # 加载 # 电商平台 # 结构化 # windows # 为例 # 浏览器 # app # 客户端 # 工具 # https # http # js # json # curl # html # 字符串 # 重试 # 前端 # Token # 切片 # try # catch # php # dom # 但其 # 不规范 # Filter # 不直接 # react # 无头 # 服务端 # 前端框架 # angular

相关栏目： <？ｍｕｍａ $count = M('archives')->where(['typeid'=>$field['id']])->count(); ?> 【 AI推广<？ｍｕｍａ echo $count; ?> 】 <？ｍｕｍａ $count = M('archives')->where(['typeid'=>$field['id']])->count(); ?> 【 SEO优化<？ｍｕｍａ echo $count; ?> 】 <？ｍｕｍａ $count = M('archives')->where(['typeid'=>$field['id']])->count(); ?> 【技术百科<？ｍｕｍａ echo $count; ?> 】 <？ｍｕｍａ $count = M('archives')->where(['typeid'=>$field['id']])->count(); ?> 【谷歌推广<？ｍｕｍａ echo $count; ?> 】 <？ｍｕｍａ $count = M('archives')->where(['typeid'=>$field['id']])->count(); ?> 【百度推广<？ｍｕｍａ echo $count; ?> 】 <？ｍｕｍａ $count = M('archives')->where(['typeid'=>$field['id']])->count(); ?> 【网络营销<？ｍｕｍａ echo $count; ?> 】 <？ｍｕｍａ $count = M('archives')->where(['typeid'=>$field['id']])->count(); ?> 【案例网站<？ｍｕｍａ echo $count; ?> 】 <？ｍｕｍａ $count = M('archives')->where(['typeid'=>$field['id']])->count(); ?> 【精选文章<？ｍｕｍａ echo $count; ?> 】