Wibowo et al.(2017)
Wibowo, Merlinda, Sarina Sulaiman, and Siti Mariyam Shamsuddin. "Machine learning in data lake for combining data silos." Data Mining and Big Data: Second International Conference, DMBD 2017, Fukuoka, Japan, July 27–August 1, 2017, Proceedings 2. Springer International Publishing, 2017.
https://link.springer.com/chapter/10.1007/978-3-319-61845-6_30
Abstract.
Data silo can grow to be a large-scale data for years, overlapping and has an indefinite quality.
데이터 사일로는 수년에 걸쳐 대규모 데이터로 성장할 수 있으며, 중복되고 불명확한 품질을 가질 수 있다.
It allows an organization to develop their own analytical capabilities.
이는 조직이 자체 분석 역량을 개발할 수 있도록 한다.
Data lake has the ability to solve this problem efficiently with the data analysis by using statistical and predictive modeling techniques which can be applied to enhance and support an organization’s business strategy.
데이터 레이크는 통계 및 예측 모델링 기법을 활용한 데이터 분석을 통해 이러한 문제를 효율적으로 해결할 수 있으며, 이는 조직의 비즈니스 전략을 강화하고 지원하는 데 적용될 수 있다.
This study provides an overview of the process of decision-making, operational efficiency, and creating the solution for an organization.
본 연구는 조직의 의사결정 과정, 운영 효율성, 그리고 해결책 창출에 대한 개요를 제공한다.
Machine Learning can distribute the architecture of data model and integrate the data silo with other organizations’ data to optimize the operational business processes within an organization in order to improve data quality and efficiency.
머신러닝은 데이터 모델 아키텍처를 분산시키고 데이터 사일로를 다른 조직의 데이터와 통합하여 조직 내 운영 비즈니스 프로세스를 최적화함으로써 데이터 품질과 효율성을 향상시킬 수 있다.
Testing is done by utilizing the data from Malaysia’s and Singapore’s Government Open Data on the Air Pollutant Index to determine the condition of air pollution levels for the health and safety of the population.
테스트는 말레이시아와 싱가포르 정부의 공공 데이터 중 대기 오염 지수를 활용하여 대기 오염 수준이 인구의 건강과 안전에 미치는 영향을 판단하는 방식으로 진행되었다.
Keywords: Data silos, data lake, machine learning, big data, prediction, air pollutant index, Rough Set.
키워드: 데이터 사일로, 데이터 레이크, 머신러닝, 빅데이터, 예측, 대기 오염 지수, 러프 셋.
Evolving technology has a major role to the operational processes of an organization.
진화하는 기술은 조직의 운영 프로세스에서 중요한 역할을 하고 있다.
The ongoing process of an organization will involve several different stages (design, material acquisition, manufacturing, distribution, sales, usage, service and others) to obtain the meaningful, accurate, and efficient information.
조직의 지속적인 프로세스는 의미 있고 정확하며 효율적인 정보를 얻기 위해 설계, 자재 확보, 제조, 유통, 판매, 사용, 서비스 등 여러 단계를 포함한다.
Each stage of this process will require the supply of accurate information as a decision-making process, operational efficiency, and the creation of the desired solution.
이 과정의 각 단계는 의사결정 과정, 운영 효율성, 그리고 원하는 해결책 창출을 위해 정확한 정보 제공을 필요로 한다.
An organization has variety of data, which can support transactional applications, analytical decision support, and master as a universal business object.
조직은 다양한 데이터를 보유하고 있으며, 이는 거래 애플리케이션, 분석적 의사결정 지원, 그리고 보편적인 비즈니스 객체로서의 역할을 지원할 수 있다.
Increasing amount of organization data is creating challenges in data management to make the hundreds of data entry into a single business view of data.
조직 데이터의 증가로 인해 수백 개의 데이터 항목을 단일 비즈니스 데이터 관점으로 통합하는 데이터 관리에서 도전 과제가 발생하고 있다.
Lack of storage management system in many organizations, it makes data to become overlapping and indefinite quality.
많은 조직에서 저장 관리 시스템의 부족으로 인해 데이터가 중복되거나 품질이 불명확해질 수 있다.
A large number of data in different types can also affect the analytics process of data to deal with uncertainty, prediction and dynamics data.
다양한 유형의 방대한 데이터는 불확실성, 예측 및 동적 데이터와 관련된 분석 프로세스에 영향을 미칠 수 있다.
Data on a large scale is a collection of various data assets which is complex and cannot be managed efficiently by data processing technology state-of-the-art.
대규모 데이터는 다양한 데이터 자산의 복합체이며, 최첨단 데이터 처리 기술로도 효율적으로 관리할 수 없다.
Many organizations rely on traditional data warehouses and business intelligence solutions as decision makers to access their data and reports.
많은 조직이 데이터 및 보고서에 접근하기 위해 전통적인 데이터 웨어하우스와 비즈니스 인텔리전스 솔루션에 의존하고 있다.
But this solution will ignore most of the external data sources because it is too large or in a format that is not easily manipulated and stored.
그러나 이러한 솔루션은 너무 크거나 쉽게 조작 및 저장할 수 없는 형식의 대부분의 외부 데이터 소스를 무시한다.
We need to determine the best architecture, common metadata, data integration and so on for optimizing operational business processes within an organization in order to improve data quality and more efficient.
데이터 품질을 개선하고 더 효율적으로 만들기 위해 조직 내 운영 비즈니스 프로세스를 최적화할 수 있는 최적의 아키텍처, 공통 메타데이터, 데이터 통합 등을 결정해야 한다.
It aims to improve the quality of data, use data as a competitive advantage, manage change, comply with work regulations, and adapted to the standards of work.
이는 데이터 품질을 개선하고 데이터를 경쟁 우위로 활용하며, 변화 관리, 작업 규정 준수 및 작업 표준에 적응하는 것을 목표로 한다.
This research will describe the background of study trough definition of data silos, data lake concept, and application.
본 연구는 데이터 사일로의 정의, 데이터 레이크 개념 및 적용을 통해 연구 배경을 설명한다.
Next part will give the explanation about the modification of data lake architecture with machine learning techniques for combining the data silos.
다음 부분에서는 데이터 사일로를 통합하기 위한 머신러닝 기술을 활용한 데이터 레이크 아키텍처의 수정에 대해 설명한다.
Experiment and results of this study are described and followed by the conclusion of the study at the end of this paper.
이 연구의 실험과 결과가 설명되며, 논문의 마지막에는 연구 결론이 제시된다.
Repository of data that available under an organization called Data Silos.
조직 내에서 사용할 수 있는 데이터 저장소를 데이터 사일로라고 한다.
Evolving organization will certainly affect the growing amount of data.
발전하는 조직은 데이터의 증가에 영향을 미칠 수밖에 없다.
The data collected by each organization will be different.
각 조직이 수집하는 데이터는 서로 다를 것이다.
It depends on technical priorities, cultural, and responsibilities that come naturally.
이는 기술적 우선순위, 문화적 요인, 그리고 자연스럽게 발생하는 책임에 따라 달라진다.
In addition, these data can be in the form of unstructured data in heterogeneous formats such as documents, video, images and others that do not have the scheme and come from a variety of sources.
또한, 이러한 데이터는 문서, 비디오, 이미지 등 다양한 출처에서 스키마가 없는 이질적인 형식의 비정형 데이터 형태일 수 있다.
Information from an organization is certainly not only from the body of an organization only but needs the support from outside sources an organization.
조직의 정보는 조직 내부에서만 나오는 것이 아니라 외부 출처의 지원이 필요하다.
This data collection can be allowed to develop the ability of an organization in the own analytic capacity and capability.
이러한 데이터 수집은 조직이 자체 분석 역량과 능력을 개발할 수 있도록 한다.
Therefore, data silos is big data because it already has characteristics four “V”: Volume, Variety, Velocity, and Veracity.
따라서 데이터 사일로는 대용량(Volume), 다양성(Variety), 속도(Velocity), 진실성(Veracity)의 네 가지 특징을 이미 갖춘 빅데이터이다.
Organizations must understand the needed insight to make strategic decisions and a better operation.
조직은 전략적 의사결정과 더 나은 운영을 위해 필요한 통찰을 이해해야 한다.
An organization needs to predict the future to identify trends and correlations that encourage changes that are more useful in a business that changing wheel rapidly.
조직은 빠르게 변화하는 비즈니스 환경에서 더 유용한 변화를 유도하는 트렌드와 상관관계를 파악하기 위해 미래를 예측해야 한다.
Data processing needs to be done in an integrated and systematic way to generate accurate and up-to-date.
정확하고 최신의 데이터를 생성하기 위해 데이터 처리는 통합적이고 체계적으로 이루어져야 한다.
This process is a challenge for an organization to analyze data and brings a high value for decision-making as an effective solution that is influential for the future.
이 과정은 조직이 데이터를 분석하고 미래에 영향을 미칠 효과적인 해결책으로서 의사결정에 높은 가치를 부여하는 데 있어 도전 과제가 된다.
Future prediction becomes more important than the simple visualization of current or historical perspective.
단순한 현재 또는 과거 관점의 시각화보다 미래 예측이 더 중요해지고 있다.
In fact, there are some fundamental issues that occur in the analytical data access.
실제로, 분석 데이터 접근에는 몇 가지 근본적인 문제가 존재한다.
There are pressures, damage the user experience, the power of decision without the data, and the ability to access the data.
이는 압박, 사용자 경험의 손상, 데이터 없이 이루어지는 의사결정, 데이터 접근 능력의 문제를 포함한다.
In addition, unstructured data will complicate the process of further analysis of data such as data mining process.
게다가, 비정형 데이터는 데이터 마이닝과 같은 추가적인 데이터 분석 과정을 복잡하게 만든다.
Data mining can help to deduce the meaning of the data, which has been designed to work in accordance with the orientation of a database schema with structured data.
데이터 마이닝은 데이터베이스 스키마와 구조화된 데이터를 기반으로 설계된 방식에 따라 데이터를 분석하고 의미를 도출하는 데 도움을 줄 수 있다.
There are several ways to solve the problem of data silos, namely the origin of data, analysis of data management, enterprise, consumption data, data normalization, includes data, data curation, data access, cloud and machine learning.
데이터 사일로 문제를 해결하는 몇 가지 방법에는 데이터의 출처, 데이터 관리 분석, 엔터프라이즈, 데이터 소비, 데이터 정규화, 데이터 포함, 데이터 큐레이션, 데이터 접근, 클라우드 및 머신러닝이 포함된다.
Data lake is a new concept that has the ability to secure, convert and process the data, which make the data can be consumed with speed and value required by the user even though that operation is impossible to run.
데이터 레이크는 데이터를 보호, 변환 및 처리할 수 있는 새로운 개념으로, 사용자가 필요로 하는 속도와 가치를 제공하며, 실행이 불가능했던 작업도 가능하게 한다.
This concept is a simply storage repository that can store data regardless of size, schema, format, and complexity.
이 개념은 데이터의 크기, 스키마, 형식, 복잡성과 상관없이 데이터를 저장할 수 있는 단순한 저장소이다.
It can catalog, indexing and metadata management that needed for its own purposes and provide information to the invention of data and calculations analysis.
이는 자체 목적을 위해 필요한 카탈로그 작성, 인덱싱, 메타데이터 관리를 수행하며, 데이터 발굴과 분석 계산에 필요한 정보를 제공한다.
Data lake can be used for log management, knowledge management, business intelligence, cloud services, application hosting and relational databases, which can provide the advantage of minimizing costs and risks.
데이터 레이크는 로그 관리, 지식 관리, 비즈니스 인텔리전스, 클라우드 서비스, 애플리케이션 호스팅 및 관계형 데이터베이스에 사용될 수 있으며, 비용과 위험을 최소화하는 이점을 제공한다.
Data lake has included in database semantic or conceptual models using same standards and technologies.
데이터 레이크는 동일한 표준과 기술을 사용하는 데이터베이스의 의미론적 또는 개념적 모델을 포함한다.
This concept can create a hyperlink internet, adding a layer of context data that provides information on the meaning of data and data relationships with other data.
이 개념은 데이터의 의미와 다른 데이터와의 관계에 대한 정보를 제공하는 컨텍스트 데이터 계층을 추가하여 하이퍼링크 인터넷을 생성할 수 있다.
It can also combine with SQL, NoSQL databases, online analytical processing and online transaction processing capabilities.
또한, SQL, NoSQL 데이터베이스, 온라인 분석 처리 및 온라인 트랜잭션 처리 기능과 결합될 수 있다.
Different from warehouse traditional, data lake does not require a rigid schema or data manipulation (structured data, not structured or semi-structured) and size but based on an order of arrival data.
기존의 데이터 웨어하우스와 달리, 데이터 레이크는 엄격한 스키마나 데이터 조작(구조화된 데이터, 비구조화된 데이터, 또는 반구조화된 데이터) 및 크기를 요구하지 않으며, 데이터 도착 순서에 기반한다.
Thus, the data lake lacks a formal schema-on-write but uses various tools which apply schema-on-read.
따라서 데이터 레이크는 공식적인 ’스키마-온-라이트(schema-on-write)’가 없으며, 대신 ’스키마-온-리드(schema-on-read)’를 적용하는 다양한 도구를 사용한다.
Data lake is center of the big data movement and often associated with Hadoop object-oriented storage.
데이터 레이크는 빅데이터 움직임의 중심에 있으며, 종종 Hadoop 객체 지향 스토리지와 연관된다.
Hadoop ecosystem will implement scalable and parallel processing framework that process data on a large scale in a subtle way and almost impossible to lose any data.
Hadoop 생태계는 데이터 손실 가능성을 거의 없애면서 대규모 데이터를 세밀하게 처리할 수 있는 확장 가능하고 병렬적인 처리 프레임워크를 구현한다.
All organizations which take advantage of large datasets and diverse, it will be difficult to manage the increased volume, velocity and variety of the latest information.
대규모 및 다양한 데이터를 활용하는 모든 조직은 증가하는 데이터의 양, 속도, 다양성을 관리하는 데 어려움을 겪을 것이다.
Data lake is an emerging approach to extract and put all the relevant data (e.g., logs and sensor data, social media, document collections, images, video, audio and another data useful for integrated analysis) without losing any data that relevant to the analysis, now or in the future.
데이터 레이크는 로그 및 센서 데이터, 소셜 미디어, 문서 모음, 이미지, 비디오, 오디오 등 통합 분석에 유용한 모든 관련 데이터를 현재와 미래를 위한 분석과 관련된 데이터를 손실 없이 추출하고 저장하는 새로운 접근 방식이다.
Data lake will store all relevant data which considered for analysis and digest in raw format corresponding to any data model.
데이터 레이크는 분석에 고려된 모든 관련 데이터를 원시 형식으로 저장하며, 이는 어떤 데이터 모델에도 부합한다.
Data lake will organize data to promote better, more efficient access and will reuse the data management process or introduce new tools that improve search knowledge and general knowledge of data content.
데이터 레이크는 데이터를 구성하여 더 나은 효율적인 접근을 촉진하고, 데이터 관리 프로세스를 재사용하거나 데이터 콘텐츠 검색 지식과 일반 지식을 개선하는 새로운 도구를 도입할 것이다.
Many recent works have been used this concept in the crucial sectors such as banking, healthcare, retail, digital risk management, and other enterprises.
최근 많은 연구에서 이 개념이 은행, 헬스케어, 소매, 디지털 위험 관리 및 기타 기업과 같은 주요 부문에 활용되고 있다.
The systems used to restrict the flow of data into the warehouse as well as their use in organization, which focused on providing automation and tools to enable less skilled workers to clean, integrate and link data.
이 시스템은 데이터의 웨어하우스 유입 흐름을 제한하고 조직 내에서 데이터를 사용하는 데 중점을 두며, 숙련도가 낮은 작업자도 데이터를 정리, 통합 및 연결할 수 있도록 자동화 및 도구를 제공한다.
Machine learning will focus on the development of computer programs that can teach themselves to grow and change when given a new data.
머신러닝은 새로운 데이터를 제공받았을 때 스스로 학습하고 성장하며 변화를 할 수 있는 컴퓨터 프로그램 개발에 중점을 둔다.
Machine learning is a type of artificial intelligence that has the ability to learn from the data, without explicit and will follow the instructions that have been programmed.
머신러닝은 명시적인 프로그래밍 없이 데이터를 학습하고, 이미 프로그래밍된 지침을 따를 수 있는 인공지능(AI)의 한 유형이다.
There are some examples of machine learning products that have the ability to perform large data processing such as Apache Spark, Hadoop, Cloudera Manager, HBase, NoSQL Database, MapReduce and others.
Apache Spark, Hadoop, Cloudera Manager, HBase, NoSQL 데이터베이스, MapReduce와 같은 대규모 데이터 처리가 가능한 머신러닝 제품들이 그 예이다.
Machine learning will assist in finding a solution, optimize performance by using sample data or previous experience to gain new insights, reveal new patterns and the result of production are more accurate.
머신러닝은 샘플 데이터나 과거 경험을 활용하여 새로운 통찰을 얻고, 새로운 패턴을 밝혀내며, 보다 정확한 결과를 생성함으로써 문제 해결과 성능 최적화를 지원한다.
Figure 1 depicts the modification of data lake architecture with machine learning techniques from existing architectures.
그림 1은 기존 아키텍처에서 머신러닝 기법을 적용한 데이터 레이크 아키텍처의 수정된 모습을 나타낸다.
The data source consists of several data silos with large scale and different parameters.
데이터 소스는 대규모이며 서로 다른 매개변수를 가진 여러 데이터 사일로로 구성된다.
Data lake will process the data source through several phases to ensuring its operational availability, integrity, access control, authentication and authorization, monitoring and audit, business continuity, and find the importance solution.
데이터 레이크는 운영 가능성, 무결성, 접근 제어, 인증 및 권한 부여, 모니터링 및 감사, 비즈니스 연속성을 보장하고 중요한 솔루션을 찾기 위해 여러 단계를 거쳐 데이터 소스를 처리한다.
Data discovery will describe the data and determination data.
데이터 디스커버리는 데이터를 설명하고 데이터의 정의를 결정한다.
Data governance will capture and contextualize data by cataloging and indexing and manage incremental improvements to the metadata.
데이터 거버넌스는 데이터의 카탈로그화와 인덱싱을 통해 데이터를 수집하고 컨텍스트화하며, 메타데이터의 점진적인 개선을 관리한다.
Exploration is creating new models of this data or modifies the existing model and can be combined with machine learning process.
탐색 과정에서는 데이터의 새로운 모델을 생성하거나 기존 모델을 수정하며, 이를 머신러닝 프로세스와 결합할 수 있다.
There are several steps in the machine learning process.
머신러닝 프로세스에는 몇 가지 단계가 있다.
First step is pre-processing, which convert the data into a form that can be used as input to the study through data cleaning, integration, transformation, construction, and reduction.
첫 번째 단계는 전처리로, 데이터 정제, 통합, 변환, 구축 및 축소 과정을 통해 데이터를 연구 입력으로 사용할 수 있는 형태로 변환한다.
In Figure 2 depicts the data integration architecture for combining data silos in machine learning process.
그림 2는 머신러닝 프로세스에서 데이터 사일로를 통합하기 위한 데이터 통합 아키텍처를 보여준다.
In identification process, data silos will be recognized of data types, data structure, content and semantic.
식별 과정에서는 데이터 사일로의 데이터 유형, 데이터 구조, 내용 및 의미가 인식된다.
Data silos will align the structure of entities and define the relationships between the data silos.
데이터 사일로는 엔터티의 구조를 정렬하고 데이터 사일로 간의 관계를 정의한다.
The harmonization process is unification of data types, value, scaling, format, and dimensions to merge the data based on previously transformation rules.
조화 과정은 이전에 정의된 변환 규칙에 따라 데이터 유형, 값, 스케일, 형식, 차원을 통합하여 데이터를 병합하는 것이다.
The result of the merge data silos will be presented in combined view and can be used for other processes.
병합된 데이터 사일로의 결과는 통합된 뷰로 제공되며, 다른 프로세스에 활용될 수 있다.
The second step in machine learning is learning. In this step, we can choose learning algorithms and model parameters to produce the desired output using the datasets result from pre-processing.
머신러닝의 두 번째 단계는 학습이다. 이 단계에서는 전처리 결과로 생성된 데이터셋을 사용하여 원하는 출력을 생성하기 위해 학습 알고리즘과 모델 매개변수를 선택할 수 있다.
Data silos from the organizations will be used for better decision-making and more efficient operations.
조직의 데이터 사일로는 더 나은 의사결정과 효율적인 운영을 위해 사용될 것이다.
These data need to be processed promptly and correctly to identify meaningful information and can extract knowledge from the data itself for organization needs.
이 데이터는 의미 있는 정보를 식별하고 조직의 필요에 맞는 지식을 데이터 자체에서 추출하기 위해 신속하고 정확하게 처리되어야 한다.
Various intelligent solutions have been used to analyze the data using predicting method such as Naïve Bayes, Decision Tree, Rough Set, and K-Nearest Neighbor.
다양한 지능형 솔루션이 나이브 베이즈, 의사결정 트리, 러프 셋, K-최근접 이웃과 같은 예측 방법을 사용하여 데이터를 분석하는 데 활용되었다.
The powerful technique is needed for this domain in order to have accurate classification is Rough Set.
이 분야에서 정확한 분류를 위해 가장 강력한 기법은 러프 셋(Rough Set)이다.
Rough Set has its own strength in managing data and generating rules that are easier to interpret.
러프 셋은 데이터를 관리하고 해석하기 쉬운 규칙을 생성하는 데 있어 강점을 가지고 있다.
Rough Set, introduced by Zdzislaw Pawlak in the 1980s, is a mathematical tool to deal with vagueness and uncertainty.
1980년대 Zdzislaw Pawlak이 소개한 러프 셋은 모호성과 불확실성을 다루기 위한 수학적 도구이다.
This method is concerned with the classificatory analysis of vague, uncertain, or incomplete information or knowledge expressed in terms of data acquired from experience.
이 방법은 경험으로부터 획득한 데이터로 표현된 모호하고 불확실하거나 불완전한 정보 또는 지식의 분류 분석을 다룬다.
The attribute reduction algorithm removes redundant information or features and selects a feature subset that has the same discernibility as the original set of features.
속성 축소 알고리즘은 중복된 정보나 특성을 제거하고 원래의 전체 특성 집합과 동일한 식별성을 가진 특성 하위 집합을 선택한다.
To lead the best prediction accuracy, the selected features can describe the decision as well as the original whole feature set.
최상의 예측 정확도를 위해 선택된 특성은 원래 전체 특성 집합과 마찬가지로 결정을 설명할 수 있다.
Decision rules extracted by these algorithms are concise and valuable, which can be benefited in data mining by enlightening some hidden knowledge from the data.
이 알고리즘으로 추출된 의사결정 규칙은 간결하고 유용하며, 데이터에 숨겨진 지식을 밝혀내어 데이터 마이닝에서 유용하게 활용될 수 있다.
Rough Set is chosen in this study because the important features can be identified based on reducts computation and thus will eliminate insignificant features in data silos.
본 연구에서는 러프 셋을 선택하였으며, 이는 축소 계산을 통해 중요한 특성을 식별하고 데이터 사일로에서 중요하지 않은 특성을 제거할 수 있기 때문이다.
The last step in the machine learning process is evaluation, which determines the performance of the learning model.
머신러닝 프로세스의 마지막 단계는 평가로, 학습 모델의 성능을 결정한다.
The results of whole data processing will always be stored in data storage and can be used anytime by users, which are related to infrastructure and operational management of the organization.
전체 데이터 처리 결과는 항상 데이터 저장소에 저장되며, 조직의 인프라 및 운영 관리와 관련하여 사용자가 언제든 사용할 수 있다.
The outcomes of this process can be various forms such as intelligent applications, interactive visualization, predictive analysis, and statistical reports depending on the needs of an organization.
이 프로세스의 결과는 조직의 요구에 따라 지능형 애플리케이션, 인터랙티브 시각화, 예측 분석, 통계 보고서 등 다양한 형태로 제공될 수 있다.
Air pollution is part of significant health hazard worldwide.
대기 오염은 전 세계적으로 주요 건강 위험 요소 중 하나이다.
According to the existing research, about 1.2% of total global annual deaths related to air pollution [38], which half of this amount comes from developing countries.
기존 연구에 따르면, 전 세계 연간 사망자의 약 1.2%가 대기 오염과 관련이 있으며, 그 중 절반은 개발도상국에서 발생한다.
In 2015, Malaysia and Singapore had bad haze which came from forest fires in Indonesia.
2015년, 말레이시아와 싱가포르는 인도네시아 산불로 인해 심각한 스모그를 겪었다.
The extreme weather conditions caused by El Nino can increase the temperature of the sea in the Southern Ocean [39].
엘니뇨로 인한 극단적인 날씨 조건은 남극해의 해수 온도를 상승시킬 수 있다.
In Indonesia, El Niño has delayed the rainy season, causing drought across the country, impacting the water supply and the harvest of rice and other crops.
인도네시아에서는 엘니뇨로 인해 우기가 지연되면서 전국적으로 가뭄이 발생하였으며, 이는 물 공급과 쌀 및 기타 작물의 수확에 영향을 미쳤다.
Under the dry conditions, Indonesia’s forests and peat lands became into tinderboxes.
건조한 환경에서 인도네시아의 숲과 이탄지대는 불쏘시개와 같은 상태가 되었다.
The rainy season is being late and being shorter than normal because of El Niño.
엘니뇨로 인해 우기가 평소보다 늦어지고 기간도 짧아졌다.
This phenomenon happened again in early 2016.
이 현상은 2016년 초에 다시 발생하였다.
Air pollution has been formed as a result of climate change could damage the epidermis, affects the immune reaction, and by mixing pollen, can increase the likelihood of allergic diseases such as asthma, allergic rhinitis and allergic conjunctivitis [40].
기후 변화로 인해 발생한 대기 오염은 표피를 손상시키고 면역 반응에 영향을 미치며, 꽃가루와 혼합될 경우 천식, 알레르기성 비염, 알레르기성 결막염과 같은 알레르기 질환의 가능성을 증가시킬 수 있다.
The study of human health effects caused by air pollution in developing countries is essential in providing more detailed information to evaluate the impact on health and the environment.
개발도상국에서 대기 오염이 인간 건강에 미치는 영향을 연구하는 것은 건강과 환경에 미치는 영향을 평가하기 위한 보다 상세한 정보를 제공하는 데 필수적이다.
Several previous studies have focused on the human health effects of pollutants single reflecting damage air pollution overall for human health [41].
이전 연구들 중 다수는 단일 오염 물질이 인간 건강에 미치는 영향을 분석하여 대기 오염으로 인한 전반적인 피해를 반영하였다.
Air Pollutant Index is a standard value of the level of air pollution which was developed by the Environmental Protection Agency (USEPA) to provide information that is more easily understood.
대기 오염 지수(API)는 환경보호청(USEPA)이 개발한 대기 오염 수준의 표준값으로, 보다 쉽게 이해할 수 있는 정보를 제공한다.
API has a goal to be able to predict how long or heavy fog which has a thickness or may have a particular pattern, it is done with proper modeling software that includes weather, wind speed, and air mass concentration.
API는 두께나 특정 패턴을 가진 안개의 지속 시간이나 강도를 예측하기 위한 목적으로, 날씨, 풍속, 공기질 농도를 포함한 적절한 모델링 소프트웨어를 활용하여 실행된다.
According to USEPA, standard API value divided into several levels, namely: Good Level (<50), Moderate Level (51-100), Unhealthy Level (101-200), Very Unhealthy Level (201-300), and Hazardous Level (>300).
USEPA에 따르면, 표준 API 값은 다음과 같이 여러 단계로 나뉜다: 좋음(<50), 보통(51-100), 나쁨(101-200), 매우 나쁨(201-300), 위험(>300).
Experiments were performed to present the results of combined data silos by using a machine learning technique in data lake.
데이터 레이크에서 머신러닝 기법을 사용하여 통합된 데이터 사일로의 결과를 제시하기 위한 실험이 수행되었다.
This experiment used Talend Studio, Weka, and Rosetta as simulated tools for the data silos management system.
이 실험에서는 Talend Studio, Weka, Rosetta를 데이터 사일로 관리 시스템의 시뮬레이션 도구로 사용하였다.
In this research, two data silo sets were used, consisting of 24,574 records from Malaysia’s Government Open Data on Air Pollution Index (API) and 23,760 records from Singapore’s Government Pollutant Standard Index (PSI) from 2014 to 2015.
본 연구에서는 말레이시아 정부의 대기 오염 지수(API) 공공 데이터 24,574건과 싱가포르 정부의 오염 표준 지수(PSI) 데이터 23,760건(2014년~2015년)을 포함한 두 개의 데이터 사일로 세트를 사용하였다.
The data samples were in real value format as shown in Tables 1 and 2.
데이터 샘플은 표 1과 표 2에 나타난 바와 같이 실제 값 형식으로 제공되었다.
Table 1. Sample Data of Malaysia’s Air Pollutant Index Dataset.
표 1. 말레이시아 대기 오염 지수 데이터 세트의 샘플 데이터.
Table 2. Sample Data of Singapore’s Pollutant Standard Index Dataset.
표 2. 싱가포르 오염 표준 지수 데이터 세트의 샘플 데이터.
In Tables 1 and 2, the pollutant index attributes include date, time, state, region, and API.
표 1과 2에서 오염 지수 속성은 날짜, 시간, 주, 지역, API를 포함한다.
The data in these tables are raw data that still require pre-processing.
이 표의 데이터는 전처리가 필요한 원시 데이터이다.
This process includes preparation, cleaning, and selection to ensure better data quality.
이 과정에는 더 나은 데이터 품질을 보장하기 위한 준비, 정리, 선택 과정이 포함된다.
In many applications, an outcome which is represented by a Decision Attribute is based on the standard API value as shown in Tables 3 and 4.
많은 응용 프로그램에서 결과는 표준 API 값을 기반으로 하는 결정 속성(Decision Attribute)으로 표현되며, 이는 표 3과 표 4에 나타나 있다.
Table 3. Sample of Decision System for Malaysia’s Air Pollutant Index Dataset.
표 3. 말레이시아 대기 오염 지수 데이터 세트의 의사결정 시스템 샘플.
Table 4. Sample of Decision System for Singapore’s Pollutant Standard Index Dataset.
표 4. 싱가포르 오염 표준 지수 데이터 세트의 의사결정 시스템 샘플.
The Decision Attribute classifies API values into meaningful categories, such as “Good” or “Moderate,” based on predefined thresholds.
결정 속성은 사전에 정의된 임계값에 따라 API 값을 “Good” 또는 “Moderate”와 같은 의미 있는 범주로 분류한다.
The data will be integrated with several different resources.
데이터는 여러 다른 소스와 통합될 것이다.
In this case, the data in Table 3 will be combined with data from Table 4.
이 경우, 표 3의 데이터는 표 4의 데이터와 결합된다.
The transformation result of merging the source will provide a more useful format.
소스를 병합한 변환 결과는 더 유용한 형식을 제공할 것이다.
The two pieces of combined data organization will be reorganized, restructured, and integrated with data from several internal and external resources as illustrated in Figure 3.
결합된 두 데이터 조직은 재구성되고, 재구조화되며, 그림 3에 나타난 것처럼 여러 내부 및 외부 리소스의 데이터와 통합된다.
Figure 3. Data Integration Scheme for Combined API Data.
그림 3. 결합된 API 데이터를 위한 데이터 통합 체계.
Selected data certainly affect the amount of data.
선택된 데이터는 데이터의 양에 확실히 영향을 미친다.
The amount of data will be reduced because there is a lot of data which is certainly not irrelevant.
관련성이 없는 많은 데이터가 존재하기 때문에 데이터 양이 감소할 것이다.
There is 10,427 ignored data with unknown instances.
알 수 없는 인스턴스를 포함한 10,427개의 데이터가 무시되었다.
The result of the combined data silo is reported in Table 5.
결합된 데이터 사일로의 결과는 표 5에 보고되어 있다.
Table 5. Combination Data of Malaysia and Singapore API.
표 5. 말레이시아와 싱가포르 API의 결합 데이터.
본 연구는 소프트 컴퓨팅 예측 방법인 러프 셋(Rough Set)을 사용하여 수행되었다.
Rough Set consists of data preparation, discretization, reduct computation, generation rules, and classification.
러프 셋은 데이터 준비, 이산화(discretization), 축소 계산(reduct computation), 규칙 생성, 그리고 분류로 구성된다.
In this research, the rules are generated from the combination of API data for Malaysia and Singapore.
본 연구에서는 말레이시아와 싱가포르의 API 데이터를 결합하여 규칙을 생성하였다.
This data needs to be discretized into certain intervals prior to classification using Rough Set.
이 데이터는 러프 셋을 사용한 분류 전에 특정 간격으로 이산화되어야 한다.
The discretization technique that has been chosen is Boolean Reasoning, and the reducer selected is Genetic Algorithm.
선택된 이산화 기법은 부울 추론(Boolean Reasoning)이며, 축소 알고리즘으로 유전 알고리즘(Genetic Algorithm)을 선택하였다.
Next, the dataset is divided into training and test sets with 10-fold cross-validation.
다음으로, 데이터셋은 10겹 교차 검증(10-fold cross-validation)을 통해 학습 및 테스트 세트로 나뉘었다.
This splitting dataset has been chosen to provide less biased estimation of the accuracy for the large-scale dataset.
이 데이터셋 분할은 대규모 데이터셋의 정확도를 보다 덜 편향되게 추정하기 위해 선택되었다.
Rough Set produced reducts and rules for the classifier.
러프 셋은 분류기를 위한 축소 결과와 규칙을 생성하였다.
Table 6 shows the sample of generated rules.
표 6은 생성된 규칙의 샘플을 보여준다.
Table 6. Sample Rules for Malaysian and Singapore API Dataset with Highest Support.
표 6. 말레이시아와 싱가포르 API 데이터셋의 높은 지지도를 가진 규칙 샘플.
The sample generated rules classify API into meaningful information for safety and health of the population.
샘플로 생성된 규칙은 API를 분류하여 인구의 안전과 건강을 위한 의미 있는 정보를 제공한다.
Rule 4: Date(2015-01-06) AND State(Selangor) AND API([51,100]) => Decision(Moderate).
규칙 4: 날짜(2015-01-06) AND 주(Selangor) AND API([51,100]) => 결정(보통).
Based on the value given in the rule condition, the rule can be interpreted as:
규칙 조건에 제공된 값을 기반으로, 규칙은 다음과 같이 해석될 수 있다.
IF Date is 6 January 2015, AND State is Selangor, AND API is between 51 and 100, THEN the air condition is Moderate.
만약 날짜가 2015년 1월 6일이고, 주가 Selangor이며, API가 51에서 100 사이라면, 대기 상태는 “보통”이다.
The generate rules from Malaysia and Singapore dataset can help to determine which areas have appropriate air conditions.
말레이시아와 싱가포르 데이터셋에서 생성된 규칙은 적절한 대기 상태를 가진 지역을 결정하는 데 도움을 줄 수 있다.
Moreover, it can help the government to predict the time and date when disasters might occur and make informed decisions for public safety and health.
또한, 정부가 재난이 발생할 수 있는 시간과 날짜를 예측하고, 공공 안전과 건강을 위한 정보에 기반한 결정을 내리는 데 도움을 줄 수 있다.
러프 셋 접근법을 사용하여 말레이시아와 싱가포르 API 데이터셋을 결합한 분석 결과는 생성된 규칙을 기반으로 주요 데이터베이스에서 중요한 데이터를 선택할 수 있다.
The selected dataset is displayed in a chart for easier presentation of the results.
선택된 데이터셋은 결과를 더 쉽게 제시하기 위해 차트로 표시된다.
Based on the Malaysian Air Quality Guidelines (MAAGs) and NEA (National Environment Agency) that have been adapted to the recommendations of the World Health Organization (WHO), figure 4 depicts APIs in each state in Malaysia and Singapore with their API conditions using a map chart.
세계보건기구(WHO)의 권고를 기반으로 조정된 말레이시아 대기 질 가이드라인(MAAGs) 및 싱가포르 국가환경청(NEA)을 바탕으로, 그림 4는 말레이시아와 싱가포르 각 주의 API 조건을 지도 차트를 통해 보여준다.
Figure 4. Visualization Statistical Data using Map Chart for the Combination of API Data.
그림 4. 결합된 API 데이터의 지도 차트를 사용한 통계 데이터 시각화.
These results can also send warnings to the states where the measured air quality is not appropriate for the population, as it can damage the epidermis, affect the immune response, and increase the possibility of allergic diseases such as asthma, allergic rhinitis, and allergic conjunctivitis.
이 결과는 측정된 대기 질이 인구에 적합하지 않은 주에 경고를 보낼 수 있으며, 이는 표피를 손상시키고 면역 반응에 영향을 미치며, 천식, 알레르기성 비염, 알레르기성 결막염과 같은 알레르기 질환의 가능성을 증가시킬 수 있다.
It is also possible to provide warning alarms in areas with the highest API, allowing governments to be aware of these conditions.
또한, 가장 높은 API 값을 가진 지역에 경고 알람을 제공하여 정부가 이러한 상태를 인지할 수 있도록 할 수 있다.
The improvement of data quality in an organization significantly influences the processing of information from the data.
조직 내 데이터 품질의 개선은 데이터로부터 정보를 처리하는 데 중대한 영향을 미친다.
The challenges consist of data selection, description, maintenance, and governance.
주요 도전 과제는 데이터 선택, 설명, 유지 관리 및 거버넌스를 포함한다.
In order to increase profits in the operational processes of an organization, technical limitations should be minimized.
조직의 운영 프로세스에서 수익을 증가시키기 위해 기술적 제한을 최소화해야 한다.
Data lake can help determine the best architecture, common metadata, data integration, and so on, optimizing operational business processes within an organization to improve data quality and efficiency.
데이터 레이크는 조직 내 운영 비즈니스 프로세스를 최적화하여 데이터 품질과 효율성을 향상시키기 위해 최적의 아키텍처, 공통 메타데이터, 데이터 통합 등을 결정하는 데 도움을 줄 수 있다.
The overall data lake process includes data discovery, governance, exploration, and machine learning.
데이터 레이크 전체 프로세스는 데이터 탐색, 거버넌스, 탐구, 머신러닝을 포함한다.
The use of machine learning techniques with a soft computing approach can maximize the data management process in a data lake, leveraging scenarios of data integration from different sources, both within and across domains.
소프트 컴퓨팅 접근 방식을 활용한 머신러닝 기술은 데이터 레이크 내에서 데이터 관리 프로세스를 극대화하며, 동일한 도메인 내외의 다양한 출처에서 데이터 통합 시나리오를 활용할 수 있다.
It aims to improve data quality, use data as a competitive advantage, manage change, comply with work regulations, and adapt to work standards.
이는 데이터 품질을 개선하고 데이터를 경쟁 우위로 활용하며, 변화 관리, 작업 규정 준수 및 작업 표준에 적응하는 것을 목표로 한다.
Testing was conducted using data from Malaysia’s and Singapore’s Government Open Data on the Air Pollutant Index to determine air pollution levels for the health and safety of the population.
테스트는 말레이시아와 싱가포르 정부의 대기 오염 지수 공공 데이터를 활용하여 인구의 건강과 안전을 위한 대기 오염 수준을 판단하기 위해 수행되었다.
Both datasets were combined to form new information, analyzed using Rough Set as a prediction method in the data lake scenario.
두 데이터셋은 결합되어 새로운 정보를 형성하였으며, 데이터 레이크 시나리오에서 예측 방법으로 러프 셋을 사용하여 분석되었다.
The selected significant data based on the generated rules will be displayed in meaningful formats to aid decision-making and provide actionable insights.
생성된 규칙을 기반으로 선택된 주요 데이터는 의사결정을 지원하고 실행 가능한 통찰력을 제공하기 위해 의미 있는 형식으로 표시될 것이다.