[끄적끄적]
6월 2일 방영했던 sbs 스페셜 "작은 습관이 인생을 바꾼다"라는 프로그램을 본 후 가장 처음 세운 작은 습관 2가지.
그 중 첫번째가 팔굽혀펴기 10회. 그리고 두 번째가 하루 책 2장 읽기이다.
(최소 2장이 목표이지 2장 읽고 때려치진 않는다)
하루 책 2장 읽기를 실천하기 위해 시작.
2019.06.04
수학이라는 용어는 "배움으로써 얻는 지식"이라는 뜻의 고대 그리스어 '마테마'에서 유래했다고 한다.
즉, 수학은 우리의 삶과 더욱 많이 연관되어 있고, 이 책에서는 어떻게 수학을 이용하여 정보를 처리하고 생활 속에서 매일 사용하는 제품을 개발하는지 살펴본다고 한다.
2019.06.05
1장을 읽었다. 1장에서의 키워드는
- 문자=정보의 매개체
- 로제타, 코퍼스
- CheckBit
정도로 볼 수 있겠다.
먼저 문자=정보의 매개체라는 말은 당연하면서도 중요한 의미를 가진다. 문자 그 자체로는 "흰 것은 종이요. 검은 것은 글자다"밖에 되지 않는다.
즉, 그 문자의 의미가 우선시되어야 한다는 의미이다. 세익스피어의 글을 보면 문법에 어긋나는 문장들이 다수 있다.
과거 어떤 사람들은 문법에 어긋나는 문장들을 고치기 위해 노력하였는데 이는 밑빠진 독에 물붓는 형국이 되어버렸다.
여기서도 알 수 있다시피 문장에서 중요한 것은 문법이 아니라 문장 안에 있는 정보인 것이다.
우리 집에 AI 스피커 클로바가 있는데 개같이 말해도 찰떡같이 알아듣더라.
로제타... 게임 닉네임으로 쓰면 참 괜찮겠다 싶은 단어다.
로제타는 [이집트 상형문자, 이집트 표음문자, 고대 그리스 문자]가 적혀있는 고대 이집트의 역사를 기록한 비석이다.
현재 우리는 이 기록 덕분에 1000년 전 마야 문명보다 5000년 전 이집트 문명의 역살르 더 잘 알고 있다고 한다.
(기록이 이렇게 중요하다)
여기서 유심히 봐야할 것은 바로 하나의 내용을 세 가지 언어로 나눠 썻다는 것이다.
이를 통해
- "채널 코딩"
세 가지 언어 중 하나의 내용만 완벽하게 보존된다면 내용의 유실이 발생하지 않는다는 것.
- "코퍼스(말뭉치)"
여러 나라 언어를 번역하는데 굉장히 중요한 데이터셋. 기계번역의 기초가 됨.
에 대한 개념을 도입할 수 있다.
채널 코딩이라는 단어를 처음 들어봐서 찾아보니 통신 쪽에서 데이터를 안정적으로 보내기 위해 처리하는 작업이라고 한다. 논회 시간에 배운 일종의 Hamming Code같은 느낌으로 봐도 될 것 같다.
또 다른 개념으로는 "소스코딩"이라는 것이 있는데 정보 이론 분야에서 자세하게 다룬다고 한다.
과거 프린터가 없었을 때 성경 사본을 만들기 위해 CheckBit를 이용했다고 한다.
(God, Lord와 같이 하나님을 쓸 때 몸을 정갈하게 한다는 것은 알고 있었는데 실수를 줄이기 위해 이런 방법까지 썼다니 놀라울 따름이다)
2019.06.06
오늘도 어김없이 작은 습관을 위한 책을 한 4장정도 읽었다.
인공지능의 시작이라고 불리는, 컴퓨터 과학의 아버지 "앨런 튜링"에서 시작하여
당시 컴퓨터 과학 분야에서 아직 해결되지 않은 문제들을 '다트머스 하계 인공지능 세미나'에서 한 번쯤은 들어봤을 법한 옛날 사람(특히, 섀넌)에 대한 역사적 사실을 설명해준다.
하지만 이번 지문에서의 가장 키포인트는
"과거 사람들이 자연어 처리를 어떠한 방식으로 해결하려고 했는가"
라고 볼 수 있겠다.
결론부터 말하면 과거 사람들은 인간이 언어를 배우는 방법인 '문법적 접근' 방법을 사용하였다.
(반면 현재는 '의미론적 접근'이라고 볼 수 있겠다.)
언어에 녹아있는 다양한 문법적인 규칙들, 품사, 형태론적인 요소들이 컴퓨터 알고리즘으로 쉽게 구현(?)이 되기 때문이다.
이는 1960년대에 촘스키 형식 언어를 토대로 한 컴파일러 기술이 크게 발전하면서 '문법적 접근' 방법에 더 힘이 실리게 됬다고 이야기한다.
고급 언어도 컴파일러라는 놈으로 해석이 가능하니, 우리의 말도 충분히 가능할 것이라는 직관에서 시작이 된 것이다.
하지만 어디 고급 언어가 위대한 자연어와 비교할 수 있단 말인가ㅎ
문맥 독립 문법(context independent grammar)의 시간 복잡도는 문구길이의 제곱인데 반해
자연어의 시간복잡도는 문구길이의 6제곱이라고 한다.
길이가 똑같이 10인 문구를 분석하려면 1만배만큼의 시간 차이가 발생한단 뜻이다.(와우)
2019.06.07
오늘 읽은 부분의 핵심 키워드는 규칙을 바탕으로 한 구문 분석의 한계와 통계를 바탕으로한 구문 분석으로의 변환 과정에 대한 내용이다.
규칙 기반 구문 분석의 한계를 가장 명확하게 보여주는 쉬운 문장 하나가 있다.
The pen is in the box.
The box is in the pen.
두 구문 모두 문법적 오류가 없다.
그리고 첫번째 문장의 경우 영어를 조금이라도 배운 사람이라면 누구나 해석할 수 있는 구문이다.
그럼 두번째 문장을 보자.
박스가 펜 안에 들어가 있다?
pen은 펜이라는 뜻 이외에 울타리란 뜻도 존재한다.
즉, 박스가 울타리 안에 있다. 라는 뜻이된다.
이러한 단어의 중의적 성질로 인해 문장의 규칙성만으로는 온전한 기계번역이 이루어질 수 없다.
해당 문제를 해결하기 위한 역사적 사실로 음성인식률을 70%->90%로 향상시킨 IBM 왓슨연구소의 '프레더릭 젤리넥'이 있다.
당시 연구소는 통계 기반 방식을 활용해 위와 같은 성과를 도출해냈고, 이는 자연어 번역에 큰 반향을 불러일으켰다고 한다.
하지만 모든 연구자들이 통계 기반 방식을 동의한 것은 아니었다. 이러한 논쟁은 약 15년동안 계속되었다. 결과적으론 통계가 승리했지만 말이다.
여기서 무서운 점은 규칙 기반 구문 분석 연구자들은.... 15년동안이나 일종의 삽질을 했다고 봐도 무방하다.
어떠한 분야를 연구하기 위해서는 통찰력, 다른 지식의 수용 자세 역시 상당히 중요하다는 사실이 여실히 들어난다.
인문학적(?) 이야기는 이정도로 하고, 그 뒤에는 수학을 이용한 언어 규칙 모델을 수학적으로 표현하고 있다.
조건부 확률 기반이긴 한데 통계 공부 안한지가 너무 오래되서(대학교 때 확률 및 통계 좀 들을 걸 그랬다) 1차적으로 정리를 하고 글을 작성해야겠다.