MATLABでCSVデータをインポート&エクスポート!便利な関数と活用例

MATLABでCSVデータをインポート&エクスポート!便利な関数と活用例

MATLABは、数値計算、データ分析、可視化のための強力なプログラミング環境です。多くのデータはCSV(Comma Separated Values)形式で保存されており、MATLABでCSVデータを効率的にインポートおよびエクスポートする能力は、データ分析ワークフローにおいて非常に重要です。この記事では、MATLABでCSVデータを扱うための様々な関数とその活用例を詳細に解説します。

1. CSVデータ形式の基礎

CSV(Comma Separated Values)は、データをプレーンテキスト形式で格納するための一般的なファイル形式です。各行はレコードを表し、レコード内の各フィールドはカンマ(,)で区切られます。CSVファイルは、スプレッドシートソフトウェア(Excelなど)やテキストエディタで簡単に開いて編集できます。

CSVファイルの基本的な特徴:

  • 区切り文字: 通常はカンマ(,)が使用されますが、セミコロン(;)、タブ(\t)、スペースなど、他の文字も区切り文字として使用されることがあります。
  • ヘッダー行: 最初の行に列名(ヘッダー)が含まれることが一般的です。ヘッダー行は、データの各列の意味を説明します。
  • テキストの引用符: フィールドにカンマ自体が含まれる場合や、先頭や末尾にスペースが含まれる場合は、フィールドを引用符(”)で囲むことがあります。
  • 改行: 各レコードは改行文字(\nまたは\r\n)で区切られます。

例:

csv
Name,Age,City
John Doe,30,New York
Jane Smith,25,London
Peter Jones,40,Paris

2. MATLABでのCSVデータインポートの基本

MATLABでCSVデータをインポートするための最も基本的な関数は、readtable関数です。この関数は、CSVファイル全体をテーブルオブジェクトとして読み込みます。テーブルオブジェクトは、MATLABでデータを効率的に管理し、操作するための構造化されたデータ型です。

2.1 readtable関数:

readtable関数の基本的な構文は次のとおりです。

matlab
T = readtable('filename.csv');

  • filename.csv: インポートするCSVファイルのパスとファイル名です。
  • T: CSVファイルから読み込まれたデータを格納するテーブルオブジェクトです。

例:

mydata.csvという名前のCSVファイル(上記例のデータを使用)をインポートする場合:

matlab
T = readtable('mydata.csv');
disp(T);

このコードは、mydata.csvファイルの内容をテーブルオブジェクトTに読み込み、テーブルの内容をMATLABコマンドウィンドウに表示します。

出力例:

“`
T =

3×3 table

Name         Age      City
___________    ___    ________

"John Doe"     30     "New York"
"Jane Smith"    25     "London"
"Peter Jones"   40     "Paris"

“`

2.2 readtable関数のオプション:

readtable関数には、CSVファイルの構造や特定のニーズに合わせてデータをインポートするための様々なオプションがあります。

  • Delimiter: 区切り文字を指定します。デフォルトはカンマ(,)です。
    • 例:T = readtable('mydata.csv', 'Delimiter', ';'); (セミコロン区切りの場合)
  • ReadVariableNames: ヘッダー行を読み込むかどうかを指定します。デフォルトはtrue(ヘッダー行を読み込む)です。falseに設定すると、列名は自動的にVar1, Var2, Var3のように割り当てられます。
    • 例:T = readtable('mydata.csv', 'ReadVariableNames', false);
  • HeaderLines: ヘッダー行として読み飛ばす行数を指定します。
    • 例:T = readtable('mydata.csv', 'HeaderLines', 2); (最初の2行をヘッダー行として読み飛ばす)
  • VariableTypes: 各列のデータ型を明示的に指定します。これにより、MATLABが自動的に判断するデータ型とは異なるデータ型を強制できます。
    • 例:T = readtable('mydata.csv', 'VariableTypes', {'string', 'double', 'string'}); (1列目と3列目を文字列、2列目を数値として読み込む)
  • MissingRule: 欠損値をどのように処理するかを指定します。デフォルトは'fill'(欠損値をNaNで埋める)です。他のオプションには、'omitrow'(欠損値を含む行を削除する)、'omitvar'(欠損値を含む列を削除する)などがあります。
    • 例:T = readtable('mydata.csv', 'MissingRule', 'omitrow');
  • TextType: 文字列データを格納するデータ型を指定します。デフォルトは'string'です。'char'に設定すると、文字列データは文字配列として格納されます。
    • 例:T = readtable('mydata.csv', 'TextType', 'char');
  • Encoding: ファイルの文字エンコーディングを指定します。
    • 例:T = readtable('mydata.csv', 'Encoding', 'UTF-8');

例:区切り文字がセミコロンで、欠損値をNaNで埋める場合

matlab
T = readtable('mydata.csv', 'Delimiter', ';', 'MissingRule', 'fill');

3. CSVデータエクスポートの基本

MATLABでテーブルオブジェクトをCSVファイルにエクスポートするための基本的な関数は、writetable関数です。

3.1 writetable関数:

writetable関数の基本的な構文は次のとおりです。

matlab
writetable(T, 'filename.csv');

  • T: エクスポートするテーブルオブジェクトです。
  • filename.csv: エクスポート先のCSVファイルのパスとファイル名です。

例:

テーブルオブジェクトToutput.csvという名前のCSVファイルにエクスポートする場合:

matlab
writetable(T, 'output.csv');

このコードは、テーブルオブジェクトTの内容をoutput.csvファイルに書き込みます。

3.2 writetable関数のオプション:

writetable関数にも、CSVファイルの構造や特定のニーズに合わせてデータをエクスポートするための様々なオプションがあります。

  • Delimiter: 区切り文字を指定します。デフォルトはカンマ(,)です。
    • 例:writetable(T, 'output.csv', 'Delimiter', ';'); (セミコロン区切りでエクスポート)
  • WriteVariableNames: ヘッダー行(列名)を書き込むかどうかを指定します。デフォルトはtrue(ヘッダー行を書き込む)です。
    • 例:writetable(T, 'output.csv', 'WriteVariableNames', false); (ヘッダー行を書き込まない)
  • QuoteStrings: 文字列を引用符で囲むかどうかを指定します。デフォルトはfalse(文字列を引用符で囲まない)です。
    • 例:writetable(T, 'output.csv', 'QuoteStrings', true); (文字列を引用符で囲む)
  • Encoding: ファイルの文字エンコーディングを指定します。
    • 例:writetable(T, 'output.csv', 'Encoding', 'UTF-8');
  • FileType: ファイルの種類を指定します。デフォルトは'text' (CSV)です。
  • Sheet: Excelファイルへの書き込み時にシートを指定します。FileType'spreadsheet'に設定する必要があります。

例:区切り文字がセミコロンで、文字列を引用符で囲み、ヘッダー行を書き込まない場合

matlab
writetable(T, 'output.csv', 'Delimiter', ';', 'QuoteStrings', true, 'WriteVariableNames', false);

4. その他のCSVデータインポート関数

readtable関数以外にも、MATLABにはCSVデータをインポートするための関数がいくつかあります。これらの関数は、特定の状況やニーズに合わせて使用できます。

4.1 csvread関数 (非推奨):

csvread関数は、CSVファイルから数値データを読み込むための関数です。ただし、文字列データを含むCSVファイルや、複雑な形式のCSVファイルには適していません。readtable関数の使用が推奨されます。

matlab
M = csvread('filename.csv');

注意: csvread関数は非推奨であり、将来のMATLABバージョンで削除される可能性があります。

4.2 textscan関数:

textscan関数は、テキストファイルからデータを読み込むための汎用的な関数です。CSVファイルにも使用できますが、readtable関数ほど使いやすくはありません。textscan関数を使用するには、データの形式を正確に把握し、適切なフォーマット文字列を指定する必要があります。

matlab
fileID = fopen('filename.csv', 'r');
data = textscan(fileID, '%s %f %s', 'Delimiter', ',');
fclose(fileID);

この例では、%sは文字列、%fは浮動小数点数を意味します。textscan関数は、ファイルから指定されたフォーマットでデータを読み込み、各列のデータをセル配列として返します。

5. CSVデータの操作

CSVデータをインポートした後、テーブルオブジェクトを使用してデータを操作できます。テーブルオブジェクトは、MATLABの配列や構造体と同様に、インデックスや列名を使用してアクセスできます。

5.1 列へのアクセス:

テーブルオブジェクトの列には、列名またはインデックスを使用してアクセスできます。

  • 列名でアクセス:

    matlab
    ages = T.Age; % 'Age'列のデータを抽出

    * インデックスでアクセス:

    matlab
    ages = T{:, 2}; % 2番目の列のデータを抽出

5.2 行へのアクセス:

テーブルオブジェクトの行には、インデックスを使用してアクセスできます。

matlab
first_row = T(1, :); % 最初の行のデータを抽出

5.3 データのフィルタリング:

論理インデックスを使用して、特定の条件を満たす行を抽出できます。

matlab
adults = T(T.Age >= 18, :); % 'Age'列が18以上の行を抽出

5.4 データの追加と削除:

テーブルオブジェクトに新しい列や行を追加したり、既存の列や行を削除したりできます。

  • 列の追加:

    matlab
    T.Salary = [50000; 60000; 70000]; % 'Salary'列を追加

    * 行の追加:

    matlab
    new_row = table({'David Lee'}, {35}, {'Sydney'}, 'VariableNames', {'Name', 'Age', 'City'});
    T = [T; new_row]; % 新しい行を追加

    * 列の削除:

    matlab
    T.Age = []; % 'Age'列を削除

    * 行の削除:

    matlab
    T(1, :) = []; % 最初の行を削除

5.5 データの変換:

テーブルオブジェクトのデータを変換できます。

  • 数値データを文字列に変換:

    matlab
    T.Age = string(T.Age); % 'Age'列を文字列に変換

    * 文字列データを数値に変換:

    matlab
    T.Age = str2double(T.Age); % 'Age'列を数値に変換

6. 実践的な活用例

例1: 気象データの分析

気象データがCSVファイルに保存されているとします。各行は1日の気象データ(日付、最高気温、最低気温、降水量など)を表します。

  1. CSVファイルのインポート:

    matlab
    weather_data = readtable('weather.csv');

  2. 最高気温の平均値を計算:

    matlab
    mean_max_temp = mean(weather_data.MaxTemperature);

  3. 最高気温が30度以上の日の数をカウント:

    matlab
    hot_days = sum(weather_data.MaxTemperature >= 30);

  4. 結果の表示:

    matlab
    disp(['平均最高気温: ' num2str(mean_max_temp)]);
    disp(['最高気温が30度以上の日数: ' num2str(hot_days)]);

例2: 販売データの分析

販売データがCSVファイルに保存されているとします。各行は1回の販売トランザクション(日付、製品名、販売数量、販売金額など)を表します。

  1. CSVファイルのインポート:

    matlab
    sales_data = readtable('sales.csv');

  2. 製品ごとの販売数量の合計を計算:

    matlab
    product_names = unique(sales_data.ProductName);
    total_quantities = zeros(size(product_names));
    for i = 1:length(product_names)
    total_quantities(i) = sum(sales_data.Quantity(strcmp(sales_data.ProductName, product_names{i})));
    end
    product_summary = table(product_names, total_quantities, 'VariableNames', {'ProductName', 'TotalQuantity'});

  3. 結果の表示:

    matlab
    disp(product_summary);

  4. 製品ごとの販売金額の合計を計算し、CSVファイルにエクスポート:

    matlab
    total_revenue = zeros(size(product_names));
    for i = 1:length(product_names)
    total_revenue(i) = sum(sales_data.Price(strcmp(sales_data.ProductName, product_names{i})));
    end
    revenue_summary = table(product_names, total_revenue, 'VariableNames', {'ProductName', 'TotalRevenue'});
    writetable(revenue_summary, 'revenue_summary.csv');

例3: アンケートデータの分析

アンケートデータがCSVファイルに保存されているとします。各行は1人の回答者の回答を表します。

  1. CSVファイルのインポート:

    matlab
    survey_data = readtable('survey.csv');

  2. 特定の質問に対する回答の分布を計算:

    matlab
    question = 'Q1'; % 質問番号
    answers = unique(survey_data.(question));
    answer_counts = zeros(size(answers));
    for i = 1:length(answers)
    answer_counts(i) = sum(strcmp(survey_data.(question), answers{i}));
    end
    answer_summary = table(answers, answer_counts, 'VariableNames', {'Answer', 'Count'});

  3. 結果の表示:

    matlab
    disp(answer_summary);

7. トラブルシューティング

CSVデータのインポートおよびエクスポート時に発生する可能性のある一般的な問題とその解決策を以下に示します。

  • 区切り文字の問題: CSVファイルの区切り文字がカンマ以外の場合(セミコロンなど)、Delimiterオプションを使用して区切り文字を指定します。
  • ヘッダー行の問題: CSVファイルにヘッダー行が含まれていない場合、ReadVariableNamesオプションをfalseに設定します。
  • 文字エンコーディングの問題: CSVファイルの文字エンコーディングがデフォルトのエンコーディング(UTF-8など)と異なる場合、Encodingオプションを使用して適切なエンコーディングを指定します。
  • 欠損値の問題: CSVファイルに欠損値が含まれている場合、MissingRuleオプションを使用して欠損値をどのように処理するかを指定します。
  • データ型の問題: MATLABが自動的に判断するデータ型が正しくない場合、VariableTypesオプションを使用して各列のデータ型を明示的に指定します。
  • 数値と文字列の混合: csvreadのような関数では、数値データしか読み込めないため、文字列と数値が混在するCSVファイルを読み込む際にはエラーが発生します。readtableを使用するか、textscanでフォーマットを適切に指定してください。
  • 巨大なファイル: 非常に大きなCSVファイルを扱う場合、readtable関数はメモリを大量に消費する可能性があります。その場合は、textscan関数を使用して、必要なデータのみを読み込むようにしたり、ファイル全体を一度に読み込まずに、チャンクごとに読み込むことを検討してください。

8. まとめ

この記事では、MATLABでCSVデータをインポートおよびエクスポートするための様々な関数とその活用例を詳細に解説しました。readtable関数は、CSVファイルをテーブルオブジェクトとして読み込むための最も強力で使いやすい関数です。writetable関数は、テーブルオブジェクトをCSVファイルにエクスポートするための関数です。これらの関数に加えて、csvread関数やtextscan関数などの他の関数も、特定の状況やニーズに合わせて使用できます。CSVデータを効率的にインポートおよびエクスポートする能力は、データ分析ワークフローにおいて非常に重要です。この記事で説明した知識とテクニックを活用して、MATLABでCSVデータを効果的に処理し、貴重な洞察を得ることができます。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール