바트파싱에 대해 질문드립니다.

바트파싱에 대해 질문드립니다.

QA

바트파싱에 대해 질문드립니다.

답변 1

본문

안녕하세요?

 

바트파싱을 하고있는데..

 

본문내용 이미지 다운로드실패라는 에러가 자꾸 뜨네요..

 

이게 뭐 디버깅이 가능한것도 아니고..

 

내부적인 구조를 모르니

 

어떤 프로세스를 거쳐서 다운로드 하는지 정말 모르겠습니다..

 

샘플로 작성된것을보면

 

<div>이미지이미지이미지</div>

 

를 추출하게되어있어서 

 

똑같이 해보았는데..

 

정규표현식 도구에서는

 

파싱하려하는 페이지가 다르기때문에

<div 속성>이미지이미지</div> 정도 나오게끔 정규식을 작성하여 던지는데

자꾸 실패를해서..

 

혹시 본문내용 파싱 플로우가 어떻게 이루어지는지 설명좀 부탁드릴수 있을까요?

이 질문에 댓글 쓰기 :

답변 1

플로우는 아래와 같습니다.

1. 먼저 해당 정규식으로 본문 html 을 가져옵니다

2. 본문 html 에서 <img src="..."> 같은 이미지 관련 태그를 뽑아옵니다.

3. 이미지의 url 을 뽑아서 다운로드 받습니다.

4. <img src="..."> 의 src 부분을 다운로드한 파일경로로 치환합니다.

 

/lib/bart/file_crawler.php 에서 downloadImage() 함수에 해당 태그를 뽑아서 처리하는 부분이 있습니다.

답변을 작성하시기 전에 로그인 해주세요.
QA 내용 검색
질문등록
전체 125,873
© SIRSOFT
현재 페이지 제일 처음으로