欢迎访问SMT设备行业平台!
好店入驻
微信扫一扫打开
入驻源头厂家
发布信息
微信扫一扫打开
发布信息
行业资讯  >  行业动态  >  芯片功能安全设计的问题
芯片功能安全设计的问题
2024年07月29日 10:51   浏览:131   来源:小萍子



今天聊聊芯片功能安全设计的中碰到的几个关键点:失效问题,架构设计,量化评估方法,检查和确认。

失效问题:

芯片功能安全必须妥善处理的失效问题,包括系统性失效和随机硬件失效,需要全面考虑级有效处理相关失效问题。
系统性失效通常是由于设计、制造过程中的缺陷或者错误,以及不恰当的操作和维护流程等原因导致的。这类失效具有可重复性和规律性。比如芯片设计中的逻辑错误、系统架构中的漏洞,或者在生产过程中引入的工艺缺陷。为了处理系统性失效,需要在设计阶段进行严格的审查和验证,采用成熟的设计方法和工具,遵循相关的标准和规范。同时,在生产过程中实施严格的质量控制措施,确保产品符合设计要求。
对于系统性失效,遵循严格规范的开发流程是关键。这包括在需求分析、设计、实现、测试、验证等各个阶段都进行详尽的审查和评估,以尽可能减少设计错误、流程缺陷等导致的系统性失效。由于系统性失效的发生往往较为复杂且难以精确量化,确实没有明确的定量指标来直接衡量其程度。
随机硬件失效则是由于物理过程的不可预测性引起的,例如电子元件的老化、电磁干扰、辐射等。这种失效难以预测且通常没有明显的模式。对于随机硬件失效,常见的处理方法包括使用可靠性更高的元器件、进行冗余设计(如硬件冗余、信息冗余等)、采用故障监测和诊断技术以便及时发现并处理失效。
对于随机硬件失效,安全架构设计起着核心作用。单点故障度量用于评估系统在单个部件出现故障时的可靠性。例如,在一个关键的控制系统中,如果某个关键传感器发生单点故障,安全架构应能确保系统及时检测到并采取适当的措施,避免造成严重后果。
潜伏故障度量则关注那些在一个故障发生后,未被及时检测和修复,可能与后续故障组合导致系统失效的情况。通过合理的监测和诊断机制,尽量减少潜伏故障的存在及其影响。
随机硬件失效目标估值则为系统设定了可接受的随机硬件失效概率上限。只有当设计满足这些要求,才能在一定程度上保证系统在面对随机硬件失效时有足够的容错和恢复能力。
具体可以参考之前的文章:《聊聊功能安全系统的失效》,毕竟不论是芯片还是系统,功能安全都需要处理好这类问题。
架构设计:
这是芯片功能安全的基础。它涉及确定芯片的整体架构,包括硬件和软件的布局,以确保能够有效地检测、响应和从故障中恢复。它需要综合考虑芯片的功能需求、潜在的故障模式以及安全目标。
在硬件方面,可能会采用多种技术和策略。比如,使用冗余的逻辑电路,包括硬件冗余(如多个相同功能的模块)和时间冗余(通过重复执行操作来检测错误)。还会设计错误检测和纠错机制,如奇偶校验、循环冗余校验(CRC)等,以识别和纠正数据传输或存储中的错误。
在软件方面,会采用分层的架构,将安全关键功能与非关键功能分离,以降低相互影响的风险。同时,设计安全状态机来管理芯片在不同故障情况下的行为切换。
此外,还需要考虑电源管理、时钟同步等方面的可靠性,以确保芯片在各种工作条件下的稳定运行。
要注意的是,安全架构的静态特性通常涉及芯片硬件的固定设计特性,例如特定的电路布局、冗余模块的设置等,以确保在正常工作条件下的稳定性和可靠性。动态特性则包括例如时钟频率的动态调整、电源管理的动态优化等,以适应不同的工作场景和应对潜在的故障情况。
系统层面的告警机制至关重要。当检测到异常情况时,及时准确地发出告警信号,通知相关系统或人员采取措施。这需要精心设计检测算法和信号传输路径,确保告警的及时性和准确性。
降级机制也是故障响应的重要部分。当芯片部分功能出现故障时,能够自动切换到降级模式,以保证基本功能的运行,例如降低性能但维持关键操作的执行。
在保证每个(子)部件的安全性方面,首先需要进行详尽的风险评估,确定每个部件可能面临的故障模式和其对整个系统的影响。然后,针对这些风险采取相应的防护措施,比如添加错误检测和纠正电路(EDAC)、设置看门狗定时器等。
对于负责信息处理的芯片部件,可能会采用纠错编码技术来确保数据的准确性和完整性,防止数据错误导致系统故障。
例如,在汽车电子芯片中,对于负责制动系统控制的部件,需要极高的可靠性。可以通过采用多重冗余的设计,即设置多个相同功能的子部件,当其中一个出现故障时,其他子部件能够接替工作,确保制动控制的不间断和准确性。
以上,请注意我们说的是需要关注的问题点,不是是讲设计的步骤和流程哦,不然会有人来说不是应该先确定安全要求,进行安全分析,然后进行架构设计么?OK。
量化评估:
我们可以通过量化的指标来评估芯片的安全性能。安全度量计算为评估芯片功能安全设计提供了量化的依据,有助于在设计阶段发现潜在的不足,并采取相应的改进措施,以提高芯片的功能安全水平。
这包括单点故障度量(SPFM)、潜在故障度量(LFM)等。这些度量可以帮助确定芯片是否满足特定的安全完整性等级ASIL要求。例如,计算单点故障度量可以确定在单个部件故障的情况下,系统仍能保持安全功能的概率。
具体来说,单点故障度量衡量的是系统在单个部件发生故障时,仍能正常执行安全功能的概率。例如,如果一个芯片中的某个关键逻辑单元出现单点故障,通过计算 SPFM 可以确定系统是否有足够的能力检测到该故障并采取相应的控制措施,以避免安全功能失效。
潜在故障度量关注的是那些尚未表现出来但可能在未来与其他故障组合导致系统失效的潜在故障。通过对 LFM 的计算,可以评估系统在长期运行过程中抵御潜在故障影响的能力。
随机硬件失效概率度量则直接计算系统在给定时间内由于随机硬件失效而导致安全功能失效的概率。这个指标能够直观地反映出系统对于随机硬件失效的总体控制效果。
以汽车电子控制单元(ECU)中的芯片为例,通过对这些安全度量的计算,可以确定芯片在车辆复杂的运行环境中,面对诸如温度变化、振动等因素引起的随机硬件失效时,是否能够及时探测到故障并有效地控制车辆,以保障驾驶安全。

检查和确认:
这可以说是确保芯片满足功能安全要求的关键步骤,即功能安全的验证和确认。
验证涉及检查设计是否符合规范和标准,侧重于在设计阶段检查芯片是否符合功能安全的规范和要求。
也就是说在检查开发过程中所产生的中间成果,包括设计文档、代码、测试用例等,是否符合预定的功能安全要求和标准。例如,通过审查设计文档,验证安全机制的设计是否合理,是否能够有效地应对可能出现的故障模式。例如通过形式化验证方法、仿真和测试。
确认则是在实际环境中或模拟实际环境的条件下,验证芯片是否按预期工作,在实际或接近实际的环境中进行测试
也就是说在开发活动接近尾声时,对最终的产品或系统进行全面的测试和评估。这包括在实际或模拟的运行环境中,验证产品或系统是否能够按照预期的方式工作,并且在出现故障时能够正确地执行安全措施。例如,进行高温、高压、电磁干扰等极端条件下的测试,以确认芯片在各种可能的情况下都能保持功能安全。
以汽车自动驾驶芯片为例,在安全架构设计中,要考虑如何确保在传感器故障或处理器异常时,车辆仍能保持安全控制;通过安全度量计算,评估芯片在不同故障情况下的可靠性指标;在功能安全验证和确认阶段,进行实际道路测试和模拟场景测试,以验证芯片在复杂交通环境中的功能安全性。
...以上仅供参考,随着汽车及汽车电子的越来越智能化,随着智驾的普及和完善,对芯片会提出更高的要求,对芯片安全也会提出更高的要求,所以只能边学边总结,更多芯片功能安全项目中的问题后续可以多多交流!


头条号
小萍子
介绍
推荐头条