Mahout에서 기술 지원 데이터를 처리하려면 HDFS에 업로드하고 텍스트 벡터로 변환해야 합니다. 이 백서에서 고려 중인 VMware 기술 지원 데이터는 인기 있는 고객 관계 관리(CRM) 서비스인 클라우드 SaaS(Software as a Service) 애플리케이션인 Salesforce에 저장됩니다. 따라서 Salesforce에서 CSV 형식으로 내보낸 기술 지원 데이터를 Hadoop SequenceFile 형식 으로 변환하는 Hadoop 작업이 고안되었습니다 . Hadoop 시퀀스 파일은 이진 키/값 쌍으로 구성된 플랫 파일 데이터 구조입니다. Hadoop 매퍼는 InputReader 를 사용하여 입력 키와 값을 구문 분석하고 매퍼 작업은 다른 키와 값 집합을 출력하기 전에 처리합니다.
구글상위노출백링크구글상단노출구글상단작업구글상위작업