바트파싱에 대해 질문드립니다.

바트파싱에 대해 질문드립니다.

QA

바트파싱에 대해 질문드립니다.

본문

안녕하세요?

 

바트파싱을 하고있는데..

 

본문내용 이미지 다운로드실패라는 에러가 자꾸 뜨네요..

 

이게 뭐 디버깅이 가능한것도 아니고..

 

내부적인 구조를 모르니

 

어떤 프로세스를 거쳐서 다운로드 하는지 정말 모르겠습니다..

 

샘플로 작성된것을보면

 

<div>이미지이미지이미지</div>

 

를 추출하게되어있어서 

 

똑같이 해보았는데..

 

정규표현식 도구에서는

 

파싱하려하는 페이지가 다르기때문에

<div 속성>이미지이미지</div> 정도 나오게끔 정규식을 작성하여 던지는데

자꾸 실패를해서..

 

혹시 본문내용 파싱 플로우가 어떻게 이루어지는지 설명좀 부탁드릴수 있을까요?

이 질문에 댓글 쓰기 :

답변 1

플로우는 아래와 같습니다.

1. 먼저 해당 정규식으로 본문 html 을 가져옵니다

2. 본문 html 에서 <img src="..."> 같은 이미지 관련 태그를 뽑아옵니다.

3. 이미지의 url 을 뽑아서 다운로드 받습니다.

4. <img src="..."> 의 src 부분을 다운로드한 파일경로로 치환합니다.

 

/lib/bart/file_crawler.php 에서 downloadImage() 함수에 해당 태그를 뽑아서 처리하는 부분이 있습니다.

답변을 작성하시기 전에 로그인 해주세요.
전체 60,954
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1402호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT