XML, HTML 및 XHTML 문서에 대한 유효한 컨텐츠 유형 만 가져 오는 간단한 크롤러를

XML, HTML 및 XHTML 문서에 대한 올바른 컨텐츠 유형은 무엇입니까?

이러한 종류의 파일 만 가져 오는 간단한 크롤러를 작성해야합니다.

요즘 http://example.net/index.html 은 예를 들어 mod_rewrite로 인해 JPEG 파일을 제공 할 수 있으므로 응답 헤더에서 콘텐츠 유형을 확인하고 허용 된 콘텐츠 유형 목록과 비교해야합니다.

그러한 목록은 어디서 얻을 수 있습니까?



답변

HTML : text/html, 마침표.

XHTML : application/xhtml+xml, 또는 HTML 호환성 지침을 따르는 경우에만 text/html. W3 미디어 유형 참고를 참조하십시오 .

XML : text/xml, application/xml( RFC 2376 ).

XML을 기반으로하는 다른 많은 미디어 유형 (예 : application/rss+xml또는 image/svg+xml. 인식되지 않았지만 등록 된 모든 끝 +xml이 XML 기반 이라는 것은 안전한 내기입니다 . 로 끝나는 등록 된 미디어 유형 은 IANA 목록 을 참조하세요 +xml.

(등록되지 않은 x-유형의 경우 모든 베팅이 해제되지만 +xml존중 되기를 바랍니다 .)


답변