brunch

브라우저 익스텐션 사이트에서 뭐하니?

by 손호성

브라우저 익스텐션 사이트에서 뭐하니? 라는 기능을 만들었습니다.

532931890_31559316923652522_2480407298815840570_n.jpg?_nc_cat=110&ccb=1-7&_nc_sid=127cfc&_nc_ohc=6iTKE_bdRSoQ7kNvwHiwSue&_nc_oc=Adni6Sxd66-0TAjKbnhx-G4hlY292vrw0QS8y31suZxwvU6JxTy_TUTbFRoscJM9XxM&_nc_zt=23&_nc_ht=scontent-ssn1-1.xx&_nc_gid=cuYW7H0QOflfy82qIyX2mw&oh=00_AfXj08lby39un0rjlDzGergtzk-6PXYDGg1njbjPMknHmA&oe=68A48833

리눅스 eyeball 이라는 것처럼 눈알이 어디서 뭘하고 있는지 기록합니다. 너무 SNS를 많이하면 기록한 시간을 알려주기도 합니다. (isbn이 있는 페이지를 찾고 도서목록을 넣는 기능이나 반복되는 스크래핑작업을 도와줍니다.)

533700149_31561430633441151_3093243435728650011_n.jpg?_nc_cat=102&ccb=1-7&_nc_sid=127cfc&_nc_ohc=HAILWf9WmCMQ7kNvwFbDsVe&_nc_oc=AdlZjCixW39S28rU6yK53_DYNnXUSm3K0dbqUC0chPX3ODihxwY9ty-Xa1yMG2hBox4&_nc_zt=23&_nc_ht=scontent-ssn1-1.xx&_nc_gid=7vgxn0pwaVBK2-f1snwZsA&oh=00_AfXhK1TJfwK9F-JjVuWnCpNbOmC_VIH9G98mRYBHCYa5Qw&oe=68A4A6DE

우리 눈알이는 어디든 어떤 패턴이건 다 지켜봅니다. DOM 구성을 패턴화해서 데이터바인딩되어 이렇게 저렇게 숨겨 놓은 것을 패턴화해서 LLM이 찾아서 다시 엑셀로 정리해줍니다. 이전에 python 으로 어떤 페이지든 엑셀로 바꿔서 구분자까지 처리해주는 것을 크롬익스텐션으로 구현했습니다.


쿠팡은 왜 광고데이터를 안주는건지... 재고량이랑 맞춰서 봐야 하고 도서는 바인딩 안해주고 자체 코드 쓰고 복잡하게도 만들어놨습니다. 그런걸 다 매칭합니다.


범용 데이터 추출 엔진 완성!

사이트에 관계없이 반복되는 데이터를 추출할 수 있는 범용 Rust WASM 엔진을 성공적으로 구축했습니다!


� 구현된 핵심 기능들:

1. 자동 사이트 타입 감지

이커머스: 쇼핑몰, 상품 목록, 가격 정보

뉴스: 기사 목록, 테이블 형태 데이터

블로그: 포스트 목록, 리스트 형태 데이터

기타: 자동 패턴 인식

2. 스마트 데이터 패턴 탐지

테이블 패턴: table, div

구조

리스트 패턴: ul, ol, li

구조

그리드 패턴: CSS Grid, Flexbox 기반 카드 레이아웃

아이템 패턴: 반복되는 상품/컨텐츠 요소

3. 지능형 추출 전략

신뢰도 기반: 패턴의 정확도에 따른 우선순위

자동 필드 매핑: 제목, 가격, 상태 등 자동 인식

백업 전략: 주요 패턴 실패 시 대안 패턴 사용

최적화된 선택자: 효율적인 CSS 선택자 생성

4. 범용 호환성

사이트 무관: 어떤 웹사이트든 자동 분석

구조 자동 인식: HTML 구조에 따른 적응형 처리

실시간 분석: 페이지 로드 즉시 패턴 탐지

확장 가능: 새로운 패턴 타입 쉽게 추가


하여간 하루에 n개씩 100개 프로젝트를 하고 뭐가 바뀌나 했더니 AI가 점점 지능이 떨어지는


https://www.argo9.com/ 홈페이지에 이것저것 다 붙여보려고 하는 중입니다.하여간 하루에 n개씩 100개 프로젝트를 하고 뭐가 바뀌나 했더니 AI가 점점 지능이 떨어지는


https://www.argo9.com/ 홈페이지에 이것저것 다 붙여보려고 하는 중입니다.

keyword
작가의 이전글사람들에게는 보이는 게 다다