태그 보관물: download

download

다른 도메인에서 wget 다운로드 페이지 리소스 만들기 어떻게 다운로드합니까? 난 노력 했어:

리소스가 다른 도메인 (도메인 B)에있을 때 wget을 사용하여 전체 사이트 (도메인 A)를 어떻게 다운로드합니까?
난 노력 했어:
wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA



답변

wget --recursive --level=inf --page-requisites --convert-links --html-extension \
     --span-hosts=domainA,domainB url-on-domainA

업데이트 : 위의 명령이 과거에 나를 위해 일한 것을 기억합니다 (2010 년 당시 Windows 용 GNU 도구를 사용하고있었습니다 ). 그러나 오늘 사용하고 싶을 때 다음과 같이 변경해야했습니다.

wget --recursive --level=inf --page-requisites --convert-links \
     --adjust-extension --span-hosts --domains=domainA,domainB domainA

이에 대한 속기는 다음과 같습니다. wget -rEDpkH -l inf domainA,domainB domainA

  • -r = --recursive
  • -l <depth> = --level=<depth>
  • -E = --adjust-extension
  • -p = --page-requisites
  • -K = --backup-converted
  • -k = --convert-links
  • -D <domain-list> = --domain-list=<domain-list>
  • -H = --span-hosts
  • -np = --no-parent
  • -U <agent-string> = --user-agent=<agent-string>

GNU Wget 매뉴얼 : https://www.gnu.org/software/wget/manual/wget.html


답변

wget –recursive –level = inf –page-requisites –convert-links –html-extension -rH -DdomainA, domainB domainA


답변

wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA

robots.txt를 무시해야 할 수도 있습니다 (이는 일부 서비스 약관을 위반하는 것일 수 있으며 필요한 최소값을 다운로드해야합니다). https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion을 참조 하십시오 .


답변

HTTrack 사용을 고려하십시오 . wget 이외의 다른 도메인에서 컨텐츠를 크롤링 할 때 더 많은 옵션이 있습니다. –span-hosts, –domains 및 –w와 함께 wget을 사용하면 내 요구에 불충분 한 곳을 수락하지만 HTTrack이 작업을 수행했습니다. 다른 도메인에서 리디렉션 제한을 설정하면 많은 도움이되었다는 것을 기억합니다.


답변