シラバス表示
        
開講年度 2022年度 登録コード G1B10012
授業名 データサイエンス入門A
Introduction to data sciences A
担当教員 鈴木 治郎 副担当  
講義期間 前期 曜日・時限 月2 講義室 共通教育12講義室 単位数 2
対象学生 授業形態 講義 備考 【地域】
授業で学べる「テーマ」 地域運営、キャリア
授業で扱う「志向」(本学で重点的に育成するマインド) 信州志向
全学横断特別教育プログラム ローカル・イノベーター養成コース、ストラテジー・デザイン人材養成コース、ライフクリエイター養成コース
注意)「曜日・時限」「講義室」等は変更される場合がありますので、「キャンパス情報システム」や「掲示」等で確認してください。

(1)授業のねらい授業で得られる「学位授与の方針」要素
・【2020年度以降カリキュラム対象】的確に情報を収集し,理解し,発信する力
【授業の達成目標】
・データサイエンスの見方に沿って情報を扱える.
行動目標:モデルカリキュラム「基礎」においては,データの図示の中に代表値や散布度などの統計量を読み取れること.
【授業のねらい】
AI(人工知能)技術の急速な普及を背景に,ビッグデータの処理と活用が可能となり,データサイエンスの必要性が急速に増したことで,我が国はデータサイエンスを2025年に大学生全員が身につけるべき素養として位置づけており(参考:文部科学省「AI戦略2019」),データサイエンス教育コンソーシアムにより学習すべきリテラシーレベルのカリキュラムも公表されました.
 この授業ではそのリテラシーレベルの学習を進めます.データサイエンスの必要性については,これからの社会のあり方を考え,そこで生活する個人の立場を念頭においた理解を図ります.また,データサイエンスの基礎を築いていくために不可欠な統計学,情報科学,数学の位置づけを理解します.
(2)授業の概要 本授業では,授業のねらいにあげた問題を密接な問題としてとらえやすいよう,オープンデータとして提供されている実データ,とくに信州大学のある長野県の実情を明らかにするものを取り入れた多くのデータ処理結果を基本材料に進めます.
 第9回までの8回分の構成は,上記コンソーシアムの定める,「導入」,「心得」に主に属する話題を中心に4回,「基礎」に主に属する話題を中心に4回扱います.それぞれ各回ごとに小テストおよび話題に応じた短レポートが課されます.扱う実データには,たとえば地域経済分析システムRESASなどの提供する市町村データ(オープンデータ)があります.
 第9回までは,実施回によってはeALPS上のみで受講する授業もあります.
 第10回以降は,教室において以上を発展させた課題をいくつか演習を交えながら扱います.
(3)授業のキーワード問題発見・解決,論理的思考,データサイエンス,統計学,プログラミング,数理的手法
(4)授業計画第1回:授業ガイダンス(教室参加の必要はありません)
【第2回~第9回:部分的にeALPS上のみで実施】
第2回:(導入)データ駆動型社会とSociety5.0
現代社会の特徴としてSociety5.0などの概念がなぜ提唱されるようになったのか全体像の把握を目指します.また経済産業省の新産業ビジョンや第4次産業革命などの理解を通じて,私たちがデータサイエンスを必修とすべき時代となった背景へのより正確な描像を築きます.
第3回:(導入,心得)データの増大する社会とAIの必要性
データを日夜増大させ続ける社会の仕組み,とくにIoTの広がりとインターネットで集積される情報を扱う分析装置としてのAIの必要性をとらえること,また,インターネット上のSNSを中心にAIの活用の仕方が情報セキュリティを含めて,私たちの社会のあり方を大きく変えつつある現状を把握します.たとえば東京五輪(2021年)のアメリカでのTV中継視聴率が前回五輪(2016年)に比べて5割近くと大きく落ち込んだのも,そうした現れの一つです.
第4回:(導入,心得)オープンデータの活用と個人情報管理
基礎編で扱うオープンデータの活用に焦点を当て,データ駆動型社会のあり方を考えます.またデータベース管理技術の視点から個人情報管理の重要性に気づいてください.政府統計のe-statや地域経済分析のRESASにある実データは,オープンデータの一例です.
こうしたデータの取り扱いの中に,個人情報保護の技術がどうか変わるかも説明します.
第5回:(基礎,導入)1変量データから情報を得る方法の概説
代表値*,散布度*,箱ひげ図*,分布の図示(*は高校までで既習)
箱ひげ図ではとくに分布の特徴が要約されているので重要です.なお,高校数学Iで扱った計算法の一部は特殊であり,実際には別定義が使われています.
分布の図示を介すると,複数のデータの特徴の比較や,ビッグデータによく現れるべき分布的な特徴を読み取ることもできます.
第6回:(基礎,導入)2変量以上のデータから情報を得る方法の概説
クロス集計,散布図*,相関係数*,回帰直線(*は高校までで既習)
クロス集計に伴う分割表の考え方は,私たちが統計データへの判断で犯しがちである誤認を避ける上で重要な見方です.また回帰直線は人工知能による予測技術などで多用される基本技術です.多くの実データを通じて,2変量の相関と予測との関連に触れていきます.
第7回:(基礎,導入)図示による表現
2つの概説を踏まえて「導入」で話題とした事例などをさらに詳しく体験します.
第8回:(基礎,導入)数値による比較
2つの概説を踏まえて「導入」で話題とした事例などをさらに詳しく体験します.
第9回:(導入,基礎,心得)総括
現代社会におけるSociety5.0の概念が絵空事でないことを,基礎編で扱った事例も交えて振り返ります.

第10回以降.統計分析ツールにはRを用い,実行環境にはオンライン上でGoogle Colab.を利用します.
第10から12回:統計処理の実際.
第13,14回:自然言語処理
第15回:総合演習を交えて授業全体を振り返る
(5)成績評価の方法【第2回~第9回(60点満点):次の評価で得られた点数(90点満点)を6/9倍します】
第1回から第7回まで毎回の課題ごとに10点で合計70点,総合問題(第8回)20点.

【第10回以降(40点満点)】
第10回から第14回まで各回の小テストおよび記述課題提出があります.

※原則,いずれもeALPS上に課題を掲示し,eALPS上で課題を提出します

他に授業に相応しい良い質問に対して最大20点の加点をします.ただし全体で100点は超えません.
(6)成績評価の基準60%未満:不可
60%以上70%未満:可
70%以上80%未満:良
80%以上90%未満:優
90%以上:秀
(7)事前事後学習の内容毎回の授業においては,eALPS上に指示のある復習すべき内容をもとに小テストや掲示板等で課題が提供,実施されます.
復習すべき学習レベルの参考に,授業回によっては練習問題の提供される話題もあります.

※この授業は90時間の学修を必要とする内容です。従って,60時間以上の時間外学習が必要となります.
(8)履修上の注意第1週授業で行うガイダンスの内容に関してはeALPS上に資料があります.教室ガイダンスは,この資料にない情報の提供は基本的にないので,質問がなければ数分で終了します.

受講希望者が多い場合,学部バランスを考慮して抽選により受講者を決定します.

基本的にすべてeALPSに掲載した課題提出を行います.各課題にはそれぞれ締め切りが設定されているので,期日までに提出してください.
 授業で提供した材料にあるデータ処理について,第9回までは各自が実習を行う課題はありません.そのソースコードは公開してあるので,興味のある人は自習を進めてみてください.質問にも対応します.
(9)質問,相談への対応eALPS上の掲示板およびメール szkjiro@shinshu-u.ac.jp によります.研究室訪問もメールで事前に時間帯を打合せてください.
eALPSの使い方についてはe-Learningセンターに相談してください.
【教科書】授業は教科書に沿って進めるわけではありませんが,数理・AI・データサイエンス教育コンソーシアムの提供するモデルカリキュラムに沿った内容で展開してあるものに以下の書籍があります.

竹村彰通編「教養としてのデータサイエンス」講談社
数理人材育成協会編「データサイエンスリテラシー」培風館
齋藤政彦他「データサイエンス基礎」培風館
【参考書】久野遼平他「大学4年間のデータサイエンスが10時間でざっと学べる」KADOKAWA
倉田博史「大学4年間の統計学が10時間でざっと学べる」KADOKAWA
我妻幸長「Google Colaboratoryで学! あたらしい人工知能教科書」翔泳社
矢沢久雄他「コンピュータはなぜ動くのか」日経BP
矢沢久雄他「プログラムはなぜ動くのか 第2版」日経BP
中井悦司「ITエンジニアのための機械学習理論入門」技術評論社
浅野正彦他「はじめてのRStudio」オーム社


【添付ファイル】 なし



戻る