본문 바로가기

AI4

[EP. 5-1] Python에서 내부적으로 문자열을 처리하는 방법 [세줄요약] 1. 파이썬은 작은따옴표(') 혹은 큰따옴표(")로 문자열을 사용할 수 있다. 2. 파이썬3은 문자열 데이터를 유니코드로 인코딩한 뒤 컴퓨터의 저장장치에 저장한다. 3. 컴퓨터에 저장된 기록을 보기 위해서는 사람이 알 수 언어로 변환하는 디코딩 과정을 거쳐야한다. Python에서 텍스트 데이터를 문자열로 저장하는법 Python에서 텍스트 데이터는 문자열(string)이라는 데이터 타입으로 사용할 수 있습니다. 파이썬에서 문자열을 리터럴(literal). 즉, 작은따옴표(') 혹은 큰따옴표(")로 묶어 아래 코드처럼 사용합니다. my_str = 'Welcome!' ur_str = "You're welcome." print(my_str) #Welcome! print(ur_str) #You're .. 2021. 12. 1.
[EP. 31-3] 맵리듀스(MapReduce)의 개념과 원리 맵리듀스의 개념 맵리듀스(MapReduce)는 한 컴퓨터에서 수행할 작업을 여러 컴퓨터에 분산하여 처리하는 프로그래밍 모델입니다. 연산을 수행할 작업을 여러 컴퓨터에 자동으로 작업을 분할하고, 작업을 위한 네트워크 통신을 수행하는데 사용됩니다. 맵리듀스는 그리드 프로그램(토렌트, 웹하드) 등이 대표적입니다. 위 기술은 2004년 구글의 Jeffrey Dean과 Sanjay Ghemawat가 발표한 논문에서 사용된 기법입니다. 이 논문은 현재 빅데이터용 클러스터 컴퓨팅에 사용되는 주요 모델인 맵리듀스를 최초로 제안한 공식 자료입니다. MapReduce: Simplified Data Processing on Large Clusters MapReduce 크게 map() 함수와 reduce() 함수로 구성되어 .. 2021. 11. 22.
[EP. 31-2] Split-Apply-Combine(분할-적용-병합) [세줄요약] 1. 분할(Split) - 큰 문제를 자신이 해결 가능한 작은 문제로 나눠서 분할합니다. 2. 적용(Apply) - 분할한 작은 문제를 독립적으로 해결합니다. 3. 병합(Combine) - 해결한 모든 작은 문제를 하나의 큰 문제로 다시 합치는 작업을 진행합니다. Split-Apply-Combine Strategy글을 참고하여 작성했습니다. 우리는 어떠한 복잡한 문제가 있을때, 큰 문제를 작은 문제로 분해하고 작은문제를 하나씩 풀어가며 결국 큰 문제를 해결합니다. 이처럼, 빅데이터 처리를 위한 탐색적 데이터 분석 단계에서도 하나의 큰 데이터 세트를 해결하고자 하는 문제의 기준에 따라 세분화 하고, 세분화된 작은 데이터 세트에서 유의미한 데이터 또는 정보를 집계 후, 문제에 접근 또는 해결합니.. 2021. 11. 22.
[EP. 31-1] 빅 데이터 처리의 기본 [세줄 요약] 빅데이터는 일반컴퓨터로는 처리는커녕 저장장치에 저장할 수조차 없을 만큼 큰 사이즈의 데이터이다. 빅데이터 처리는 컴퓨터 한 대로는 처리할 수 없는 분량의 데이터를 여러 대가 나눠서 처리하는 작업이다. 맵리듀스(MapReduce)는 하둡, 스파크 등 빅데이터를 다루는 솔루션의 근간이 되는 프로그래밍 모델이다. 오늘날 우리들은 수없이 쏟아지는 정보 속에 살아가고 있습니다. 아침에 일어나 스마트폰을 키면, 다운받은 앱들로부터 수많은 알림이 와있고 SNS와 검색포털에서는 각종 맞춤형 광고가 저희들의 지갑을 호시탐탐 노리고 있습니다. 여가시간에는 유튜브를 보거나 온라인 게임 등을 하며 시간을 보냅니다. 이렇게 우리들은 항상 언제 어디서든 인터넷에 연결되어 수많은 정보를 생산하고 소비합니다. 1T 용.. 2021. 11. 22.