第4の産業革命の基盤は、データ(Data)と接続(Connectivity)性に大きく依存します。データマイニングソリューションを開発または作成できるAnalysisServices(Analysis Services)は、この点で重要な役割を果たします。これは、潜在的な購入者をターゲットにするための顧客の購入行動の結果を分析および予測するのに役立ちます。データ(Data)は新しい天然資源になり、この分類されていないデータから関連情報を抽出するプロセスは非常に重要になります。そのため、データマイニング(Data Mining)、そのプロセス、およびアプリケーションという用語を正しく理解することは、この流行語への全体的なアプローチを開発するのに役立ちます。
データマイニングの基本(Data Mining Basics)とその手法
データマイニングは、Knowledge Discovery in Data(KDD)とも呼ばれ、大量のデータストアを検索して、単純な分析を超えたパターンや傾向を明らかにすることを目的としています。ただし、これは単一ステップのソリューションではなく、複数ステップのプロセスであり、さまざまな段階で完了します。これらには以下が含まれます:
1]データの収集と準備
それは、データ収集とその適切な編成から始まります。これは、データマイニングを通じて発見できる情報を見つける可能性を大幅に向上させるのに役立ちます
2]モデルの構築と評価
データマイニングプロセスの2番目のステップは、さまざまなモデリング手法の適用です。これらは、パラメータを最適な値に調整するために使用されます。採用される手法は、組織のあらゆるニーズに対応し、意思決定を行うために必要な分析機能に大きく依存します。
いくつかのデータマイニング手法を簡単に調べてみましょう。ほとんどの組織は、2つ以上のデータマイニング技術を組み合わせて、ビジネス要件を満たす適切なプロセスを形成していることがわかります。
読む(Read):ビッグデータとは何ですか?(What is Big Data?)
データマイニング技術
- アソシエーション– (Association – )アソシエーション(Association)は、広く知られているデータマイニング手法の1つです。この場合、同じトランザクション内のアイテム間の関係に基づいてパターンが解読されます。したがって(Hence)、それは関係技法としても知られています。大手ブランドの小売業者は、この手法を利用して顧客の購買習慣/好みを調査しています。たとえば、人々の購買習慣を追跡する場合、小売業者は、顧客がチョコレートを購入するときに常にクリームを購入することを識別し、したがって、次にチョコレートを購入するときにもクリームを購入することを提案する場合があります。
- 分類(Classification)–このデータマイニング手法は、機械学習に基づいており、線形(Linear)計画法、決定(Decision)木、ニューラルなどの数学的手法を使用するという点で上記とは異なります。(Neural)通信網。分類では、企業はデータ項目をグループに分類する方法を学習できるソフトウェアを構築しようとします。たとえば、会社はアプリケーションで、「会社を辞めることを申し出た従業員のすべての記録を前提として、将来会社を辞める可能性のある個人の数を予測する」という分類を定義できます。このようなシナリオでは、会社は従業員の記録を「退職」と「滞在」の2つのグループに分類できます。次に、データマイニングソフトウェアを使用して、従業員を以前に作成した個別のグループに分類できます。
- クラスタリング(Clustering)–異なる(Different)同様の特性を示すオブジェクトは、自動化によって1つのクラスターにグループ化されます。このようなクラスターの多くは、クラスとして作成され、それに応じてオブジェクト(同様の特性を持つ)が配置されます。これをよりよく理解するために、図書館での本の管理の例を考えてみましょう。図書館では、膨大な数の本のコレクションが完全にカタログ化されています。同じタイプのアイテムが一緒にリストされます。これにより、興味のある本を見つけやすくなります。同様に、クラスタリング手法を使用することで、ある種の類似性を持つ本を1つのクラスターに保持し、適切な名前を付けることができます。したがって、読者が自分の興味に関連する本を手に入れようとしている場合、図書館全体を検索するのではなく、その棚に行くだけで済みます。したがって、クラスタリング手法はクラスを定義し、各クラスにオブジェクトを配置します。
- 予測(Prediction)–予測は、他のデータマイニング手法と組み合わせて使用されることが多いデータマイニング手法です。これには、傾向、分類、パターンマッチング、および関係の分析が含まれます。過去のイベントまたはインスタンスを適切な順序で分析することにより、将来のイベントを安全に予測できます。たとえば、販売が独立変数として選択され、利益が販売に依存する変数として選択された場合、予測分析手法を販売で使用して、将来の利益を予測できます。次に、過去の売上と利益のデータに基づいて、利益の予測に使用される近似回帰曲線を描くことができます。
- デシジョンツリー(Decision trees)–デシジョンツリー内では、複数の回答がある単純な質問から始めます。各回答は、データを分類または識別して分類できるようにするため、または各回答に基づいて予測を行うために役立つ、さらなる質問につながります。たとえば、次の決定木を使用して、クリケットODIをプレイするかどうかを決定します。データマイニング決定木(Data Mining Decision Tree):ルートノードから開始して、天気予報で雨が予測される場合は、その日の試合を避ける必要があります。または、天気予報がはっきりしている場合は、試合をする必要があります。
データマイニングは、通信、(Data Mining)保険(Insurance)、教育(Education)、製造(Manufacturing)、銀行(Banking)、小売(Retail)などのさまざまな業界や分野にわたる分析活動の中心です。したがって、さまざまな手法を適用する前に、それに関する正しい情報を入手することが不可欠です。
What is Data Mining? Basics and its Techniques.
The fоundatіon of the fourth industrial rеvolution will lаrgely depend upon Data and Connectivity. Analysis Services capable of developing or creating data mining solutions will play a key role in this regard. It could assist in analyzing and predicting outcomes of customer purchasing behavior for targeting potential buyers. Data will become a new natural resource and the process of extracting relevant information from this unsorted data will assume immense importance. As such, a proper understanding of the term – Data Mining, its processes, and application could help us in developing a holistic approach to this buzzword.
Data Mining Basics and its Techniques
Data mining, also known as Knowledge Discovery in Data (KDD) is about searching large stores of data to uncover patterns and trends that go beyond simple analysis. This, however, is not a single-step solution but a multi-step process and is completed in various stages. These include:
1] Data gathering and Preparation
It starts with data collection and its proper organization. This helps in significantly improving the chances of finding the information that can be discovered through data mining
2] Model Building and Evaluation
The second step in data mining process is the application of various modeling techniques. These are used to calibrate the parameters to optimal values. Techniques employed largely depend on analytic capabilities required to address a gamut of organizational needs and to arrive at a decision.
Let us examine some data mining techniques in brief. It is found that most organizations combine two or more data mining techniques together to form an appropriate process that meets their business requirements.
Read: What is Big Data?
Data Mining Techniques
- Association – Association is one of the widely-known data mining techniques. Under this, a pattern is deciphered based on a relationship between items in the same transaction. Hence, it is also known as the relation technique. Big brand retailers rely on this technique to research customer’s buying habits/preferences. For example, when tracking people’s buying habits, retailers might identify that a customer always buys cream when they buy chocolates, and therefore suggest that the next time that they buy chocolates they might also want to buy cream.
- Classification – This data mining technique differs from the above in the way that it is based on machine learning and uses mathematical techniques such as Linear programming, Decision trees, Neural network. In classification, companies try to build software that can learn how to classify the data items into groups. For instance, a company can define a classification in the application that “given all records of employees who offered to resign from the company, predict the number of individuals who are likely to resign from the company in future.” Under such a scenario, the company can classify the records of employees into two groups that namely “leave” and “stay”. It can then use its data mining software to classify the employees into separate groups created earlier.
- Clustering – Different objects exhibiting similar characteristics are grouped together in a single cluster via automation. Many such clusters are created as classes and objects (with similar characteristics) are placed in it accordingly. To understand this better, let us consider an example of book management in the library. In a library, the vast collection of books is fully cataloged. Items of the same type are listed together. This makes it easier for us to find a book of our interest. Similarly, by using the clustering technique, we can keep books that have some kinds of similarities in one cluster and assign it a suitable name. So, if a reader is looking to grab a book relevant to his interest, he only has to go to that shelf instead of searching the entire library. Thus, the clustering technique defines the classes and puts objects in each class, while in the classification techniques, objects are assigned into predefined classes.
- Prediction – The prediction is a data mining technique that is often used in combination with the other data mining techniques. It involves analyzing trends, classification, pattern matching, and relation. By analyzing past events or instances in a proper sequence one can safely predict a future event. For instance, the prediction analysis technique can be used in the sale to predict future profit if the sale is chosen as an independent variable and profit as a variable dependent on sale. Then, based on the historical sale and profit data, one can draw a fitted regression curve that is used for profit prediction.
- Decision trees – Within the decision tree, we start with a simple question that has multiple answers. Each answer leads to a further question to help classify or identify the data so that it can be categorized, or so that a prediction can be made based on each answer. For example, We use the following decision tree to determine whether or not to play cricket ODI: Data Mining Decision Tree: Starting at the root node, if the weather forecast predicts rain then, we should avoid the match for the day. Alternatively, if the weather forecast is clear, we should play the match.
Data Mining is at the heart of analytics efforts across a variety of industries and disciplines like communications, Insurance, Education, Manufacturing, Banking and Retail and more. Therefore, having correct information about it is essential before apply the different techniques.