CS
Parsing이란?
BongChun
2022. 3. 18. 06:57
Parsing
컴퓨터 과학에서 파싱(parsing)은 일련의 문자열을 의미있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말한다.
- 위키백과
즉, 정보를 의미있는 토큰 단위로 분해하여 구문 구조를 파악하고 원하는 형태로 변형시키는 작업이다. 여기서 토큰이란 파싱과정에서 생성되는 의미있는 최소 단위를 말한다.
대표적으로 HTML, JSON, XML 등을 파싱해 사용 가능하게 구조화한다.
Parser
파싱의 일련 과정을 수행하는 것을 파서(parser)라 한다. 파서는 컴파일러나 인터프리터의 구성요소 중 하나이며, 문자열을 분석해 의미있는 구조로 변환한다. 또한 다양한 형태의 데이터에서 정보를 추출하고 변환하는 데 사용된다.
Parsing example
b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="/N3Rti4mWAi8TzUxriLYqg=="> ... 생략
위의 문자열은 파싱되지 않은 형태의 Google HTML 문자열이다. 이와 같은 문자열은 Parser를 통해 우리가 사용할 수 있게 패턴화, 구조화하여 원하는 형태로 변환한다.
Parsing된 HTML
<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
<meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image" />
<title>Google</title> ...생략
이와 같이 파싱된 HTML은 우리가 쉽게 읽고, 수정하고, 사용할 수 있는 형태로 변환된다.