. 응용언어학
. 교육법
. computer
. computer처리(전산언어학) - 자연어 처리
. 언어학(linguistics)
. 인간의 지적활동 중에서 언어의 생성과 이해를 과정에 대한 탐구를 목적으로
하는 학문
. 연구의 초점은 인간이 지니고 있는 지적 능력의 한 부분으로서의 언어능력
혹은 언어 능력의 외적 구현으로서의 언어 행위의 과정을 기술하고
형식화하는 것이다.
. 이론적 연구분야 : 음성학, 음운론, 형태론, 통사론(구문론), 의미론, 화용론
. 전산언어학(computational linguistics)
. 언어로 의사소통하는 인간과 기계의 상호 접촉에서 발생하는 제반
언어학적 문제를 다루는 분야 - 인간과 기계의 관계
. 도구개발을 위한 언어 연구
. 형식문법(formal grammar)
. 어휘부(사전, dictionary, 전자사전)
. 음성, 음소처리, 형태소분석, 통사분석, 의미분석, 화용분석
. 자연언어처리(Natural Language Processing)
. 자연언어로 의사소통이 가능하도록 하기 위한 계산 효율성이 있는
장치의 탐구와 개발을 목표로 하는 전산과학의 하위 영역
. 자연언어 vs 인공언어
. 연구영역 : 자연언어생성, 자연언어의 문법적 형식구조 분석,
인간과 기게의 인터페이스 개발, 어휘부의 구조 분석 및 조직, 담화분석,
의미 연구 및 지식 표현
. 응용분야 : 기계번역, 정보검색, 교육, 문서작성 보조도구 개발, 자동번역
. 자연언어처리 대상이 되는 자료는 언어이므로 언어학과 밀접한 관련이 있음
. Computational Linguistics and Natural Language Processing
. mathematical models
. human-human
. human-machine communication
. linguistic problem
. linguistics formalism
. computational formalism
. computational implementation
. Contents in CL
. formal representation of human language
. algorithm for processing natural language
. general, mechanic, finite(finite state automata)
. Difference between traditional linguistics and computational linguistics
1. Full ambiguity - without ambiguity
2. complex structure - relatively simple structure
3. 어렵게 - 사람이 의미를 조절
4. 의미와 구조의 n:n관계 - 1:1관계
. Difference between traditional linguistics and computational linguistics
. 전산언어학 : 기존의 언어학 = 응용 : 이해
1. 일반언어현상 - 특수언어현상
2. 실용적 - 이론적
3. 분석하고 이해 - 이해하고 분석
4. 언어연구들을 넘나듬 - 언어 연구만 함.
. 자연언어 처리의 역사
. 1:1 영어-러시아어 번역 : 1954
. 음성합성의 개요
. 입력 단어 또는 문장을 음성으로 변환
ex) 114전화번호 안내, ARS, 지하철 역 안내, 증권시세 확인
. TTS(Text to Speech)
문자가 오면 말로 읽어 주는 기능, 즉 문장의 소리변환 기능
. 제한적 음성합성 : (단어수가 적음)
. 무제한적 음성합성 : (단어수가 많음)
. 코커스 - 사람의 말을 녹음, 부드럽지 않고 가끔 끊어질 때가 있음.
. 음성합성은 음성인식보다는 잘 되고 있다.
. 음성인식
. 스펙트로그램 - 음향, 음성학에서 이용, 음운론 등
. 고립단어 인식
. 연속음성인식
. 자유발화음성 - 아무런 제약조건 없음.
. 기계 번역의 개요
. MT(Machine Translation)
. Mad Translation - 잘 안되더라는 비유
. 컴퓨터가 한 언어의 텍스트를 다른 언어의 텍스트로 번역하는 것을 말함.
. Human translation
. Too expensive
. Too slow
ex) ETRI의 특허문서 번역 - 몇 초만에 한다.
80%만 되도 대충 알아볼만 하다. 중요한지, 아닌지는 판단가능하다.
. 기계 번역의 필요성
. 번역가들에게 위혀이 되나? No
. 인간과 컴퓨터는 능력 차이가 있다.
. 반복된 작업은 기계에게 맡기고 문학 등 창작물은 인간이 번역한다.
. 자동번역
. 시간과 비용 절약
. 자동번역의 어려움
. 통사적 중의성
. 하나 이상의 수식어구의 피수식어 관계
. 형태적 중의성
. 하나의 단어 - 여러 품사.
. 의미 중의성(semantic ambiguity)
. 다의어(Polysemy)
ex) mouth - 입, 강어구
. 동음이의어(Homonym)
. 배 - ship, pear
. 공기(Collocation)관계
ex) 밥을 먹다. - eat
욕을 먹다. - get a scolding
나이를 먹다. - get older
겁을 먹다. - get scared
고기를 굽다. - roast
생선을 굽다. - grill
파란 모자를 쓰다 - wear
신다. - wear
끼다. - wear
. 자동번역의 어려움
. 구조 변환 문제
. 동사에 따른 의미격의 차이
. 동사 유형의 차이
. 소유격의 차이
. 차라리 문장 대 문장 1:1 통째 번역이 낫다.
. 화용론적 중의성(pragmatic ambiguity)
. 대화 상황 파악 필요
. 관사 생성
. 작가의 문체, 은유적인 표현, 미묘한 뉘앙스
. 생략된 문구, 대용어(anaphora)
. 대용어의 선행사 파악
. 생략