长调用单片机详解单片机程序的运行过程|产品概述|上海羊羽卓进出口贸易有限公司

详解单片机程序的运行过程

从单片机上知道，在上电的那一刻，MCU的程序指针PC会被初始化为上电复位时的地址，从哪个地址处读取将要执行的指令，由此程序在MCU上开始执行（当然在调用程序的 main之前，还有一系列其他的的初始化要做，如堆栈的初始化，不过这些我们很少回去修改）。PC在上电时，和MCU差不多，不过读取的是BIOS，有它完成了很多初始化操作，最后，调用系统的初始化函数，将控制权交给了操作系统，于是我们看到了Windows，Linux系统启动了。

如果将操作系统看作是在处理器上跑的一个很大的裸机程序（就是直接在硬件上跑的程序，因为操作系统就是直接跑在CPU上的，这样看待是可以的，不过这个裸机程序功能很多，很强大），那么操作系统的启动很像MCU程序的启动。前者有一个很大的初始化程序完成很复杂的初始化，后者有一段不长的汇编代码完成一些简单的初始化。这一点看，它们在流程上是很相似的。

详解单片机程序的运行过程

如果是系统上的程序启动呢？它们是由系统来决定的。Linux上在shell下输入。/p后，首先检查是否是一个内建的shell命令;如果不是，则shell假设他是一个可执行文件（Linux上一般是elf格式），然后调用一些相关的函数，将在硬盘上的p文件的内容拷贝到内存（DDR RAM）中，并建立一个它的运行环境（当然这里边还有内存映射，虚拟内存，连接与加载，等一些其他东西），准备执行。

由以上可知，单片机上的程序和平时在系统上运行的程序，在启动时差异是很大的（如果将程序调用main以前的动作，都抽象为初始化的话，程序的启动可以简化为：建立运行环境+调用main函数，这样程序的执行差异是不大的）。因为单片机上跑的程序（裸机程序），是和操作系统一样跑在硬件上的，它们属于一个层次的。过去之所以没有区分出单片机上的程序和PC机上的程序的一些差异，就是没有弄明白这一点。

由此，以前的一些疑惑也就解开了。为什么在单片机上的程序不怎么使用malloc，而PC上经常使用？因为单片机上没有已经写好的内存管理算法的代码，而在PC上操作系统里运行的程序，libc已经把这些都做了，只需要调用就可以了。如果在单片机上想用动态内存，也可以，但是这些代码要自己去实现，并定义一个相应的malloc，有时候一些公司会给提供一些库函数可能会实现malloc，但是因为单片机上RAM内存十分有限，如果不知道它的运行方式，估计会很危险。同样，因为在PC的系统上运行的程序与逻机程序的不同，裸机程序不会有动态链接，有的只是静态链接。

关于程序在执行时，从哪里读取指令，哪里读取数据，也曾因为没有弄清楚系统上的程序和裸机程序之间的区别，而疑惑了很久。虽然在《微型计算机原理》课上知道程序运行时，从内存中读取指令和数据进行执行和回写。但是单片机上只有几K的RAM，而flash一般有几十K甚至1M，这个时候指令和数据都在内存中吗（这里指的内存仅指RAM，因为PC上我们常说的内存就是DDR RAM memory，先入为主以至于认为单片机上也是这样，还没有明白其实RAM和Flash都是内存）？这不可能，因为课上老师只说内存，但是PC上内存一般就是DDR RAM，不会是硬盘，硬盘是保存数据的地方;由此类比时，自己把自己弄晕菜了，单片机的RAM对应于DDR RAM，那Flash是不是就对应于硬盘了呢？在CSAPP上明白了，PC上之所以都在DDR RAM上，是速度的因素。

硬盘的速度太慢，即使是即将到来的SSD比起DDRRAM，还是差着几个数量级，所以拷贝到DDRRAM中。这时，一个程序的代码和数据是连续存放的，其中代码段是只读区域，数据段是可读写区域（这是由操作系统的内存管理机制决定的）。运行时，再将它们拷贝到速度更快的SRAM中，以得到更快的执行速度。而对于，单片机而言工作频率也就几M，几十M，从Flash中与从RAM中读的差异可能并不明显，不会成为程序执行的瓶颈（而对于PC而言，Flash的速度太慢，DDRRAM的速度也是很慢，即使是SRAM也是慢了不少，于是再提高工作频率也提高不了程序的执行速度，所以现在CPU工作频率最快是在2003左右。一个瓶颈出现了。

为了提高CPU的使用率，换个角度想一下，既然不能减少一段程序的执行时间，就在同样的时间执行更多的程序，一个核执行一段程序，两个核就可以执行两段程序，于是多核CPU成为了现在的主流）。所以裸机程序指令就在Flash（Flash memory）中存放，而数据就放在了RAM中（flash的写入次数有限制，同时它的速度和RAM还是差很多）。更广泛说，在单片机上RAM存放data段，bss段，堆栈段;ROM（EPROM，EEPROM，Flash等非易失性存储设备）存放代码，只读数据段。本质上说，这和PC上程序都在RAM中存放是一样的，PC 上是操作系统规定了可读与可写，而单片机上是依靠不同的存储设备区分了可读与可写（当然现在的Flash是可读写的，如果Flash没有写入次数限制，速度又可以和RAM相差不多，单片机上是不是只要Flash就可以了呢（直接相当于PC上的DDRRAM）？这样成本也会比一个RAM，一个Flash低，更节省成本，对于生产商更划算）。

对于单片机的程序执行时指令和数据的存放与读取，理解如下：

对单片机编程后，程序的代码段，data段，bss段，rodata段等都存放在Flash中。当单片机上电后，初始化汇编代码将data段，bss段，复制到RAM中，并建立好堆栈，开始调用程序的main函数。以后，便有了程序存储器，和数据存储器之分，运行时从Flash（即指令存储器，代码存储器）中读取指令，从RAM中读取与写入数据。RAM存在的意义就在于速度更快。

无论是单片机也好，PC也罢，存在的存储器金字塔都是一致的，速度的因素，成本的限制导致了一级级更快的存储器的更快速度与更高的成本。应该说，对于它们的理解，就是存储器金字塔的理解。

既要代码小，又想速度快！单片机程序该如何优化？

对程序进行优化，通常是指优化程序代码或程序执行速度。优化代码和优化速度实际上是一个予盾的统一。一般是优化了代码的尺寸，就会带来执行时间的增加；如果优化了程序的执行速度，通常会带来代码增加的副作用。很难鱼与熊掌兼得，只能在设计时掌握一个平衡点。

一、程序结构的优化

1.1 程序的书写结构

虽然书写格式并不会影响生成的代码质量，但是在实际编写程序时还是应该尊循一定的书写规则，一个书写清晰、明了的程序，有利于以后的维护。在书写程序时，特别是对于While、for、do…while、if…else、switch…case 等语句或这些语句嵌套组合时，应采用“缩格”的书写形式。

1.2 标识符

程序中使用的用户标识符除要遵循标识符的命名规则以外，一般不要用代数符号(如a、b、x1、y1)作为变量名，应选取具有相关含义的英文单词(或缩写)或汉语拼音作为标识符，以增加程序的可读性，如：count、number1、red、work 等。

1.3 程序结构

C 语言是一种高级程序设计语言，提供了十分完备的规范化流程控制结构。因此在采用C 语言设计单片机应用系统程序时，首先要注意尽可能采用结构化的程序设计方法，这样可使整个应用系统程序结构清晰，便于调试和维护。

对于一个较大的应用程序，通常将整个程序按功能分成若干个模块，不同模块完成不同的功能。各个模块可以分别编写，甚至还可以由不同的程序员编写，一般单个模块完成的功能较为简单，设计和调试也相对容易一些。在C 语言中，一个函数就可以认为是一个模块。

所谓程序模块化，不仅是要将整个程序划分成若干个功能模块，更重要的是，还应该注意保持各个模块之间变量的相对独立性，即保持模块的独立性，尽量少使用全局变量等。对于一些常用的功能模块，还可以封装为一个应用程序库，以便需要时可以直接调用。但是在使用模块化时，如果将模块分成太细太小，又会导致程序的执行效率变低(进入和退出一个函数时保护和恢复寄存器占用了一些时间)。

1.4 定义常数

在程序化设计过程中，对于经常使用的一些常数，如果将它直接写到程序中去，一旦常数的数值发生变化，就必须逐个找出程序中所有的常数，并逐一进行修改，这样必然会降低程序的可维护性。因此，应尽量当采用预处理命令方式来定义常数，而且还可以避免输入错误。

1.5 减少判断语句

能够使用条件编译(ifdef)的地方就使用条件编译而不使用if 语句，有利于减少编译生成的代码的长度。

1.6 表达式

对于一个表达式中各种运算执行的优先顺序不太明确或容易混淆的地方，应当采用圆括号明确指定它们的优先顺序。一个表达式通常不能写得太复杂，如果表达式太复杂，时间久了以后，自己也不容易看得懂，不利于以后的维护。

1.7 函数

对于程序中的函数，在使用之前，应对函数的类型进行说明，对函数类型的说明必须保证它与原来定义的函数类型一致，对于没有参数和没有返回值类型的函数应加上“void”说明。如果果需要缩短代码的长度，可以将程序中一些公共的程序段定义为函数。如果需要缩短程序的执行时间，在程序调试结束后，将部分函数用宏定义来代替。注意，应该在程序调试结束后再定义宏，因为大多数编译系统在宏展开之后才会报错，这样会增加排错的难度。

1.8 尽量少用全局变量，多用局部变量

因为全局变量是放在数据存储器中，定义一个全局变量，MCU 就少一个可以利用的数据存储器空间，如果定义了太多的全局变量，会导致编译器无足够的内存可以分配；而局部变量大多定位于MCU 内部的寄存器中，在绝大多数MCU 中，使用寄存器操作速度比数据存储器快，指令也更多更灵活，有利于生成质量更高的代码，而且局部变量所的占用的寄存器和数据存储器在不同的模块中可以重复利用。

1.9 设定合适的编译程序选项

许多编译程序有几种不同的优化选项，在使用前应理解各优化选项的含义，然后选用最合适的一种优化方式。通常情况下一旦选用最高级优化，编译程序会近乎病态地追求代码优化，可能会影响程序的正确性，导致程序运行出错。因此应熟悉所使用的编译器，应知道哪些参数在优化时会受到影响，哪些参数不会受到影响。

二、代码的优化

2.1 选择合适的算法和数据结构

应熟悉算法语言。将比较慢的顺序查找法用较快的二分查找法或乱序查找法代替，插入排序或冒泡排序法用快速排序、合并排序或根排序代替，这样可以大大提高程序执行的效率。

选择一种合适的数据结构也很重要，比如在一堆随机存放的数据中使用了大量的插入和删除指令，比使用链表要快得多。数组与指针具有十分密切的关系，一般来说指针比较灵活简洁，而数组则比较直观，容易理解。对于大部分分的编译器，使用指针比使用数组生成的代码更短，执行效率更高。

但是在Keil 中则相反，使用数组比使用的指针生成的代码更短。

2.2 使用尽量小的数据类型

能够使用字符型(char)定义的变量，就不要使用整型(int)变量来定义；能够使用整型变量定义的变量就不要用长整型(long int)，能不使用浮点型(float)变量就不要使用浮点型变量。当然，在定义变量后不要超过变量的作用范围，如果超过变量的范围赋值，C 编译器并不报错，但程序运行结果却错了，而且这样的错误很难发现。

2.3 使用自加、自减指令

通常使用自加、自减指令和复合赋值表达式(如a-=1 及a+=1 等)都能够生成高质量的程序代码，编译器通常都能够生成inc 和dec 之类的指令，而使用a=a+1 或a=a-1之类的指令，有很多C 编译器都会生成2~3个字节的指令。

2.4 减少运算的强度

可以使用运算量小但功能相同的表达式替换原来复杂的的表达式。如下：

(1)求余运算

a=a%8;可以改为：a=a&7;

说明：位操作只需一个指令周期即可完成，而大部分的C 编译器的“%”运算均是调用子程序来完成，代码长、执行速度慢。通常，只要求是求2n 方的余数，均可使用位操作的方法来代替。

(2)平方运算

a=pow(a,2.0);可以改为：a=a*a;

说明：在有内置硬件乘法器的单片机中(如51 系列)，乘法运算比求平方运算快得多，因为浮点数的求平方是通过调用子程序来实现的，在自带硬件乘法器的AVR 单片机中，如ATMega163 中，乘法运算只需2 个时钟周期就可以完成。既使是在没有内置硬件乘法器的AVR单片机中，乘法运算的子程序比平方运算的子程序代码短，执行速度快。如果是求3 次方，如：a=pow(a,3.0);更改为：a=a*a*a；则效率的改善更明显。

(3)用移位实现乘除法运算

a=a*4;b=b/4;可以改为：a=a<<2;b=b>>2;

说明：通常如果需要乘以或除以2n，都可以用移位的方法代替。在ICCAVR 中，如果乘以2n，都可以生成左移的代码，而乘以其它的整数或除以任何数，均调用乘除法子程序。用移位的方法得到代码比调用乘除法子程序生成的代码效率高。实际上，只要是乘以或除以一个整数，均可以用移位的方法得到结果，如：a=a*9可以改为：a=(a<<3)+a

2.5 循环

(1)循环语

对于一些不需要循环变量参加运算的任务可以把它们放到循环外面，这里的任务包括表达式、函数的调用、指针运算、数组访问等，应该将没有必要执行多次的操作全部集合在一起，放到一个init 的初始化程序中进行。

(2)延时函数

通常使用的延时函数均采用自加的形式：

void delay (void){unsigned int i;for (i=0;i<1000;i++); }将其改为自减延时函数：void delay (void){unsigned int i;for (i=1000;i>0;i--); }

两个函数的延时效果相似，但几乎所有的C 编译对后一种函数生成的代码均比前一种代码少1~3 个字节，因为几乎所有的MCU 均有为0转移的指令，采用后一种方式能够生成这类指令。在使用while 循环时也一样，使用自减指令控制循环会比使用自加指令控制循环生成的代码更少1~3 个字母。

但是在循环中有通过循环变量“i”读写数组的指令时，使用预减循环时有可能使数组超界，要引起注意。

(3)while 循环和do…while 循环

用while 循环时有以下两种循环形式：

unsigned int i;i=0;while (i<1000){i++; //用户程序}或：unsigned int i;i=1000;do

{i--; //用户程序

}

while (i>0);

在这两种循环中，使用do…while循环编译后生成的代码的长度短于while循环。

2.6 查表

在程序中一般不进行非常复杂的运算，如浮点数的乘除及开方等，以及一些复杂的数学模型的插补运算，对这些即消耗时间又消费资源的运算，应尽量使用查表的方式，并且将数据表置于程序存储区。如果直接生成所需的表比较困难，也尽量在启动时先计算，然后在数据存储器中生成所需的表，后以在程序运行直接查表就可以了，减少了程序执行过程中重复计算的工作量。

2.7 其它

比如使用在线汇编及将字符串和一些常量保存在程序存储器中，均有利于优化。

声明： 本文转载自网络，如涉及作品内容、版权和其它问题，请于联系工作人员微，我们将在第一时间和您对接删除处理!

上海羊羽卓进出口贸易有限公司

产品概述

长调用单片机详解单片机程序的运行过程

详解单片机程序的运行过程

既要代码小，又想速度快！单片机程序该如何优化？

猜你喜欢

pt2272 单片机注意振荡电阻，PT2262PT2272的遥控器电路不小心就不发射了

野火单片机一款深藏功与名的国产单片机——F1C100A

单片机的时钟(单片机的时钟电路)

单片机应用开发技术单片机原理和应用

max232与单片机单片机是如何与电脑进行通信的，电子工程师必知内容

单片机土壤湿度 5个方面详解：AI产品运营必知的软硬件技术

产品概述

详解单片机程序的运行过程

既要代码小，又想速度快！单片机程序该如何优化？

猜你喜欢

pt2272 单片机 注意振荡电阻，PT2262PT2272的遥控器电路不小心就不发射了

野火单片机 一款深藏功与名的国产单片机——F1C100A

单片机的时钟(单片机的时钟电路)

单片机应用开发技术 单片机原理和应用

max232与单片机 单片机是如何与电脑进行通信的，电子工程师必知内容

单片机土壤湿度 5个方面详解：AI产品运营必知的软硬件技术

pt2272 单片机注意振荡电阻，PT2262PT2272的遥控器电路不小心就不发射了

野火单片机一款深藏功与名的国产单片机——F1C100A

单片机应用开发技术单片机原理和应用

max232与单片机单片机是如何与电脑进行通信的，电子工程师必知内容