本R代码示例展示了如何生成一个包含一万条记录的模拟数据集,该数据集包括多种社会经济和健康相关的属性。此数据集的生成旨在为研究人员、数据科学家和学生提供一个多属性的数据样本,以用于统计分析、机器学习建模或其他数据科学任务。
在此代码中,我们通过设置随机种子(set.seed)来确保生成的数据是可重复的。样本数量(n)被设定为10000,生成的数据集包含以下属性:
Income(家庭收入):家庭收入随机分布在3万到15万美元之间,模拟不同收入水平的家庭。
Region(区域):包含四个区域(东部、西部、南部、北部),用于表示家庭所处的地理位置。
Age(年龄):年龄范围设置在18到80岁之间,模拟成年人口的年龄分布。
Systolic_BP(收缩压)和Diastolic_BP(舒张压):这两个属性模拟个人的血压水平,范围分别为90到180 mmHg和60到120 mmHg,常用于心血管健康分析。
Gender(性别):模拟人口中的性别分布,仅包含“Male”(男性)和“Female”(女性)两个类别。
....... 自行查看代码