XML, HTML 및 XHTML 문서에 대한 올바른 컨텐츠 유형은 무엇입니까?
이러한 종류의 파일 만 가져 오는 간단한 크롤러를 작성해야합니다.
요즘 http://example.net/index.html 은 예를 들어 mod_rewrite로 인해 JPEG 파일을 제공 할 수 있으므로 응답 헤더에서 콘텐츠 유형을 확인하고 허용 된 콘텐츠 유형 목록과 비교해야합니다.
그러한 목록은 어디서 얻을 수 있습니까?
답변
HTML : text/html
, 마침표.
XHTML : application/xhtml+xml
, 또는 HTML 호환성 지침을 따르는 경우에만 text/html
. W3 미디어 유형 참고를 참조하십시오 .
XML : text/xml
, application/xml
( RFC 2376 ).
XML을 기반으로하는 다른 많은 미디어 유형 (예 : application/rss+xml
또는 image/svg+xml
. 인식되지 않았지만 등록 된 모든 끝 +xml
이 XML 기반 이라는 것은 안전한 내기입니다 . 로 끝나는 등록 된 미디어 유형 은 IANA 목록 을 참조하세요 +xml
.
(등록되지 않은 x-
유형의 경우 모든 베팅이 해제되지만 +xml
존중 되기를 바랍니다 .)