바트파싱에 대해 질문드립니다.
본문
안녕하세요?
바트파싱을 하고있는데..
본문내용 이미지 다운로드실패라는 에러가 자꾸 뜨네요..
이게 뭐 디버깅이 가능한것도 아니고..
내부적인 구조를 모르니
어떤 프로세스를 거쳐서 다운로드 하는지 정말 모르겠습니다..
샘플로 작성된것을보면
<div>이미지이미지이미지</div>
를 추출하게되어있어서
똑같이 해보았는데..
정규표현식 도구에서는
파싱하려하는 페이지가 다르기때문에
<div 속성>이미지이미지</div> 정도 나오게끔 정규식을 작성하여 던지는데
자꾸 실패를해서..
혹시 본문내용 파싱 플로우가 어떻게 이루어지는지 설명좀 부탁드릴수 있을까요?
답변 1
플로우는 아래와 같습니다.
1. 먼저 해당 정규식으로 본문 html 을 가져옵니다
2. 본문 html 에서 <img src="..."> 같은 이미지 관련 태그를 뽑아옵니다.
3. 이미지의 url 을 뽑아서 다운로드 받습니다.
4. <img src="..."> 의 src 부분을 다운로드한 파일경로로 치환합니다.
/lib/bart/file_crawler.php 에서 downloadImage() 함수에 해당 태그를 뽑아서 처리하는 부분이 있습니다.
답변을 작성하시기 전에 로그인 해주세요.