世界で生成されるすべての新しい情報の90%以上が磁気メディアに保存されており、そのほとんどがハードディスクドライブに保存されていると推定されています。それらの重要性にもかかわらず、ディスクドライブの障害パターン(failure patterns of disk drives)、およびそれらの寿命に影響を与える重要な要因に関する公開された研究は比較的少ないです。入手可能なデータのほとんどは、加速劣化実験または比較的小規模なフィールド調査からの外挿に基づいています。
さらに、大規模な人口調査では、動作中のコンポーネントからヘルス信号を収集するためのインフラストラクチャが整っていることはめったにありません。これは、詳細な障害分析にとって重要な情報です。
カーネギーメロン大学(Carnegie Mellon University)が実施した約100,000台のドライブの調査によると、顧客は、ドライブベンダーが提供する推定平均故障間隔( MTBF )よりもはるかに高い速度でディスクドライブを交換します。
ハードディスクの故障
カーネギーメロン大学の調査では、 (Carnegie Mellon)SCSI、FC、およびSATAドライブを実行する高性能コンピューティングサイトやインターネット(Internet)サービスサイトなど、大規模な本番システムを調査しました。これらのドライブのデータシートには、MTBFが100万から150万時間と記載されており、この調査によると、年間故障率は「最大0.88%」であるとのことです。ただし、この調査では、通常の年間交換率は2%から4%であり、「一部のシステムでは最大13%が観察されました」と示されています。
では、これは、ハードドライブとハードドライブを搭載したコンピューターを購入する消費者にとって、どのような意味がありますか?
私は25年以上のエンジニアリング、製造、ソフトウェア開発の経験があるので、最初に自動車や飛行機からハードドライブやスマートフォンまでの典型的な製造プロセスの重要な側面を調べてみましょう。最終製品の典型的なメーカーは、実際に最終製品を構成するいくつかのコンポーネントを製造しています。実際、彼らはほとんどすべてのサブコンポーネントの製造と設計を外部委託しており、サプライヤはまったくないものから広範な仕様、テスト、および監視に至るまで監視を行っています。コンポーネントを供給するために選ばれたサプライヤーは、多くの場合、最低入札者ですが、一部のメーカーは、価格、品質、および信頼性の組み合わせである価値に基づいて最良のサプライヤーを選択します。
このアウトソーシングシステムは、多くの場合、階層型サプライヤーベースと呼ばれます。ティア1サプライヤーは、最終製品のメーカーに直接供給します。ティア1サプライヤのサプライヤはティア2サプライヤであるため、フードチェーンの下位にあります。技術的には、ハードドライブメーカーの場合、実際には、コンピューターメーカーのティア1サプライヤーです。このシステムは、米国(United) 政府が(Government)米国の(States) 自動車メーカー(US Automobile Manufacturers)を救済するかどうかに取り組んでいたときに、彼らが下に行くことを許可された場合、何十万人もの人々が職を失うだろうと人々が言ったと言われた理由を説明します。彼らはすべてのティアサプライヤーの従業員に言及していました。
このようなシステムでは、最終製品の品質は、サプライチェーンの最も弱いリンクと同じくらい良いだけです。ほとんどのサプライヤーは、製品の品質を確保するために非常に(Very)複雑で厳格な品質管理と設計手法を使用していますが、最終的には人為的ミスの可能性があります。世界で最も洗練された24時間年中無休のコンピューター制御およびロボット化された製造工場でさえ、人為的ミスの影響を受けます。ロボットをプログラミングしている人は、100回の操作ごとにロボットがマイクロチップをターゲットから数分の1マイクロメートル外に配置するタスクに集中していない可能性があり、同僚の同じコンピューターが問題ない場合にハードドライブに問題が発生します。
このような初期の失敗は珍しいことではありません。これは、すべての保証で「製造上の欠陥」と呼ばれるものです。業界内の用語は乳児死亡率の失敗(Infant Mortality Failure)(IMF)です。保証は、 IMF(IMFs)からユーザーを保護することを目的としているため、期限があります。実際には、さまざまなレベルのIMF(IMFs)があります。ほとんどの電子機器は、バーンインと呼ばれることが多いある種のテストを受けます。これは、即時の障害または最初の数分間の障害をテストしています。これらは、ほぼ即座に壊滅的な障害を引き起こす重大な製造上の欠陥によって引き起こされます。
より厄介なIMF(IMFs)は、消費者であるあなたに至るまで、短期間完璧に機能し、その後、バム、それは死んでしまうものです。製造業者のあなたの意見が損なわれているので、製造業者はこれらの失敗を嫌います。バーンイン中の障害については知らなかったし、知らなかったので満足していましたが、重要な期限の前夜にハードドライブが故障すると、弾道的になり、世界に補償を要求します。この障害のコストは長期的であり、新しいハードドライブのコストよりも高くなります。顧客を永久に失う可能性があります。これが、優れたコンピューターであっても、別のHPコンピューターを所有することは決してない理由です。私は悪いものを手に入れました、そしてそれは私をHPに対して永遠に傷つけました。
関連(Related):ハードドライブが自動的にワイプされました!私は何をしますか?
では、自分を守るために何ができるでしょうか。
私は個人的に、新しい電子機器を購入する前に常に多くの調査を行っています。IMFは、問題の根本原因が発見されて修正されるまで、1つのメーカーまたはモデルで永続的な問題になる可能性があります。それは設計上の欠陥であり、製造上の問題ではない可能性もあります。最近、新しい大画面HD TVを購入しました。いくつかの情報源からのレビューを読んで、2010年のモデルで黒レベルが早期に(3か月以内に)失われ、十分ではないことがわかるまで、最高級の(Plasma)Panasonic3DPlasma(Panasonic 3D) が欲しいと思いました。2011年モデルで修正されたかどうかを判断するための情報が利用可能でした。だから私は私の2番目の選択肢を購入しました。
コンピュータのハードドライブで特に実行できるもう1つの明白なことは、データをバックアップするか、システム全体をイメージ化することです。私はAcronisTrueImage(Acronis True Image)という製品を個人的に使用しています。システム全体のバックアップイメージを作成してから、毎晩増分バックアップを作成します。過去10回の増分を保持するように設定しているので、いつでも以前の最新バージョンにリセットできます。これを専用の1TB外付けハードドライブ(Hard Drive)にバックアップします。そのハードドライブが故障した場合はどうなりますか?コンピュータのハードドライブと外付けハードドライブが同時に故障する可能性はほとんどありませんが、私は自分のビジネスを所有しているので、安全のために冗長バックアップを行う冗長外付けハードドライブを持っています。
また、延長コードの横にあるウォルマートで入手できるようなものではなく、 (Walmart)Best Buyなどの小売業者やコンピューター用品の小売業者から、高品質のサージプロテクタを入手することをお勧めします。私は約40米ドルのBelkinユニットを(USD)使用(Belkin)しています。
ハードディスクの潜在的な障害を監視するためのフリーウェア(Freeware to Monitor Hard Disk for Potential Failure)が必要な場合は、これを確認してください。(Check this if you need some Freeware to Monitor Hard Disk for Potential Failure.)
このゲスト投稿の著者であるRandyL.Millerは、AlagadIncorporatedのCEOです。(The author of this Guest Post, Randy L. Miller is the C.E.O of Alagad Incorporated.)
Why did my hard disk fail or crash so fast & for no apparent reason?
It is estimated that оver 90% оf all new information produced in the world is being stored on magnetic media, most of it on hard disk drives. Despite their importance, there is relatively little published work on the failure patterns of disk drives, and the key factors that affect their lifetime. Most available data are either based on extrapolation from accelerated aging experiments or from relatively modest-sized field studies.
Moreover, larger population studies rarely have the infrastructure in place to collect health signals from components in operation, which is critical information for detailed failure analysis.
Customers replace disk drives at rates far higher than those suggested by the estimated mean time between failure (MTBF) supplied by drive vendors, according to a study of about 100,000 drives conducted by Carnegie Mellon University.
Hard Disk Failure
A Carnegie Mellon study examined large production systems, including high-performance computing sites and Internet services sites running SCSI, FC, and SATA drive. The datasheets for those drives listed MTBF between 1 million to 1.5 million hours, which the study said should mean annual failure rates “of at most 0.88%.” However, the study showed typical annual replacement rates of between 2% and 4%, “and up to 13% observed on some systems.”
So what does this mean to you, the consumer who purchases hard drives and computers with hard drives?
I have over 25 years of engineering, manufacturing, and software development experience so first let’s examine an important aspect of typical manufacturing processes from automobiles and airplanes to hard drives and smartphones. The typical manufacturer of any end product actually produces a few of the components that make up the end product. They, in fact, outsource the manufacture and often the design of almost all subcomponents giving the supplier oversight ranging from none at all to expansive specifications, testing, and oversight. The supplier picked to supply the component is often the lowest bidder while some manufacturers choose the best supplier based on the value which is a combination of price, quality, and reliability.
This system of outsourcing is often referred to as the tiered supplier base. A tier one supplier supplies directly to the manufacturer of the end product. The suppliers to the tier one supplier are tier two suppliers, and so goes it down the food chain. Technically in the case of a hard drive manufacturer, they, in fact, are a tier-one supplier to the computer manufacturer. This system explains why when the United States Government was wrestling with whether to bail out the US Automobile Manufacturers people were quoted as saying if they are allowed to go under, hundreds of thousands of people will lose their jobs. They were referring to the employees of all the tier suppliers.
In a system like this, the quality of the end product is only as good as the weakest link in the supply chain. Very complex and rigid quality control and design methods are used by most suppliers to ensure the quality of their products but in the end, it still comes down to the potential for human error. Even the most sophisticated lights out, 24/7, computer-controlled, & robotized manufacturing plant in the world is subject to human error. The person programming the robot may not be concentrating on the task causing the robot to place a microchip a fraction of a micrometer off target every 100th operation causing your hard drive to have problems when your co-worker’s identical computer us just fine.
Early failures like this are not uncommon. It is what all warranties refer to as “manufacturing defects”. The inside industry term is Infant Mortality Failure (IMF). Warranties have a time limit because they are intended to protect you against IMFs. There are in fact different levels of IMFs. Most electronics go through some sort of test often referred to as burn-in. This is testing for an immediate failure or a failure in the first few minutes. These are caused by gross manufacturing defects that cause catastrophic failure almost immediately.
The more bothersome IMFs are the ones that make it all the way to you, the consumer, perform flawlessly for a short period of time, and then bam, it’s dead. The manufacturers hate these failures because now your opinion of the manufacturer is tarnished. You never knew of the failures during burn-in and were happy not knowing about them but when your hard drive dies the night before a critical deadline, you go ballistic and demand the world for compensation. The cost of this failure is long-term and higher than the cost of a new hard drive. It may result in a lost customer forever. This is why I will never own another HP computer even though they may be great computers. I got a bad one and it tarnished me against HP forever.
Related: Hard drive wiped itself! What do I do?
So what can you do to protect yourself?
I personally always do a lot of research before any new electronics purchase. IMF can be a persistent problem with one manufacturer or model until the root cause of the problem is found and corrected. It could even be a design flaw and not a manufacturing problem. I recently purchased a new big-screen HD TV and I thought I wanted the top of the line Panasonic 3D Plasma until I learned through reading reviews from several sources that the 2010 models experience early (within 3 months) loss of black levels and not enough information was available to determine if it was fixed in the 2011 models. So I bought my second choice.
The other more obvious thing you can do specifically with a computer hard drive is to back up your data or image your entire system. I personally use a product called Acronis True Image. I make a backup image of my entire system and then make incremental backups every night. I have it set to keep 10 past increments so I can always reset back to an earlier recent version. I back this up to a dedicated 1 TB external Hard Drive. What if that hard drive fails you say? Well, the likelihood of your computer hard drive and your external hard drive failing at the same time is remote but I own my own business so I have a redundant external hard drive that I do redundant backups on just to be safe.
I would also recommend you get a good quality surge protector, not the kind you get at Walmart next to the extension cords but a good quality unit from a retailer like Best Buy or any computer supply retailer. I USE A Belkin unit that costs around $40 USD.
Check this if you need some Freeware to Monitor Hard Disk for Potential Failure.
The author of this Guest Post, Randy L. Miller is the C.E.O of Alagad Incorporated.