Smart Web Fetch
智能网页内容获取技能,优先使用 markdown 转换服务,自动降级到 Scrapling。
使用流程
- 首先尝试
markdown.new/+ URL - 失败则尝试
defuddle.md/+ URL - 再失败尝试
r.jina.ai/+ URL - 全部失败则使用 Scrapling 爬虫
使用方法
使用 web_fetch 工具:
# 按顺序尝试各服务
services = [
"https://markdown.new/",
"https://defuddle.md/",
"https://r.jina.ai/"
]
for service in services:
try:
result = web_fetch(url=service + original_url)
if result and len(result.get("text", "")) > 100:
return result
except:
continue
使用浏览器工具(遇到验证时):
browser.open(url=original_url)
# 等待加载后 snapshot 获取内容
使用 Scrapling(最后手段):
查看 scripts/scrapling_fetcher.py 脚本。
服务特点
- markdown.new/: 适合 Cloudflare 站点,转换质量高
- defuddle.md/: 通用性好,支持更多网站
- r.jina.ai/: Jina AI 提供,稳定可靠
脚本说明
scripts/scrapling_fetcher.py- Scrapling 爬虫脚本,当所有转换服务失败时使用
微信扫一扫