Depois de algumas tentativas de tocar o modulo de Regressões Lineares no curso, percebi que algumas questões matemáticas estavam entrando no caminho da compreensão da parte de programação. Com isso em mente acho conveniente fazer uma pequena introdução/um pequeno resumo de alguns conceitos matemáticos.
Esse texto não se propõe a ter praticamente nenhum grau de rigor matemático e é (para a minha agonia) bastante utilitarista na sua apresentação da matemática. Gostaria de apresentar os conceitos de uma forma mais intuitiva e recomendar que os interessados em um desenvolvimento mais detalhado e rigoroso leiam sobre os tópicos na página de matemática ou que peçam recomendações de livros.
O primeiro conceito que gostaria de discutir é o de limites. A ideia de um limite é se aproximar arbitrariamente de algo, mas essa definição mais atrapalha do que ajuda, pois a palavra “arbitrário” pode ter diversos significados.
Se eu disser que dois pontos estão “arbitrariamente perto” um do outro, isso significa que eles estão muito próximos. Eles estão “infinitamente” próximos um do outro; o que é um conceito que parece esquisito, pois é o mais próximo que dois pontos podem ficar sem estarem no mesmo lugar. Tão próximos que a distância entre eles é infinitamente pequena.
Agora, vamos falar um pouco sobre funções. Uma característica que nos ajuda a definir funções lineares é seu coeficiente angular, i.e. a inclinação da função.

A inclinação de uma função \(a\) pode ser calculada simplesmente como \(a=\frac{\Delta y}{\Delta x}\) e ela nos dá muitas informações interessantes, como a taxa com que a função varia. Isso quer dizer que quanto maior o valor da inclinação, mais rápido a função sobe; ou até podemos dizer que essa inclinação nos da a “velocidade” com a qual a função muda.
Seria muito interessante se pudessemos definir algo como essa taxa de variação para funções que não sejam lineares. Então vamos começar com uma ideia de definir uma linha entre dois pontos de uma função arbitrária e definir sua taxa de variação.

Essa seria a inclinação entre dois pontos de uma função \(a=\frac{\Delta y}{\Delta x}\). A ideia agora é aproximar os pontos \(A\) e \(B\) arbitrariamente e dizer que a inclinação do ponto \(A\) é quando \(A\) e \(B\) estão arbitrariamente próximos.
Essa inclinação de um ponto, em oposição à inclinção entre dois pontos, nos chamamos de derivada da função. A derivada da função nos dá então informação sobre a inclinação da função em algum ponto.
A notação matemática para a derivada de uma função varia bastante dependendo da circunstância e do autor. Algumas notações comuns para a derivada de uma função \(f(x)\) seriam \(f'(x)\) ou \(\frac{df}{dx}(x)\). Isso significa que, se tivermos uma função \(f(x)=x^2+3\) sua inclinação no ponto \(x=5\) será dada por \(f'(5)=10\) ou \(\frac{df}{dx}(5)=10\). Isso significa que o coeficiente angular da reta tangente à função no ponto \(x=5\) para a função \(f(x)=x^2+3\) é \(10\).

Mas como sabemos que a derivada da função é \(10\)? Será que temos que fazer o processo de considerar pontos arbitrariamente próximo toda vez? Felizmente não. Existem algumas formas de se encontrar a derivada de funções, cuja dedução pode ser encontrada na página de matemática do site. Aqui vamos ver somente uma lista de regras.
A primeira regra que temos é a de derivadas de funções polinomiais. Para uma função \(f(x)=x^2\) temos sua derivada \(f'(x)=2x\).
– Mas a derivada não era uma inclinação? Por que temos uma função agora?
Indaga um leitor imaginário de forma socrática.
– É muito mais fácil considerarmos uma função derivada \(f'(x)\) que diz a derivada em todos os pontos da função \(f(x)\). Assim, quando quisermos saber a inclinação, por exemplo, em um ponto \(x=8\) substituimos o valor na função derivada \(f'(8)=2\cdot 8=16\) e temos o que precisamos.
Responde o outro personagem.
A partir de agora buscamos funções derivadas então no lugar de derivadas de pontos específicos.
De modo geral, a derivada de um monômio \(f(x)=x^n\) é \(f(x)=n\cdot x^{n-1}\). Isso significa que se \(f(x)=x^{15}\), então \(f(x)=15x^{14}\). Isso também significa que a derivada de uma constante \(f(x)=3=3\cdot x^0\) (já que \(x^0=1\)) é \(f'(x)=0\). Isso também vale para valores negativos de \(n\).
Vamos ver uma tabela com as derivadas de algumas funções úteis:
\(f(x)\) | \(f'(x)\) |
---|---|
\(x^n\) | \(n\cdot x^{n-1}\) |
\(\sin(x)\) | \(\cos(x)\) |
\(\cos(x)\) | \(-\sin(x)\) |
\(e^{x}\) | \(e^{x}\) |
\(\log (x)\) | \(\frac{1}{x}\) |
Claramente existem mais funções que essas que encontramos, mas a maior parte delas é uma composição das que estão na tabela. Podemos ver como isso seria com algumas regras.
No caso da multiplicação por uma constante \(c{x}\), ou seja uma função da forma \(c\cdot f(x)\), podemos simplesmente ignorar a constante e ter a derivada \(c\cdot f'(x)\). Um exemplo concreto seria o da função \(f(x)=3\cdot x^5\). Temos um monômio, que sabemos derivar, multiplicado pela constante \(c=3\). A derivada fica \(f'(x)=3\cdot5\cdot x^4\). Outro exemplo seria \(f(x)=4\cdot\sin(x)\) e \(f'(x)=4\cdot\cos(x)\).
Com as constantes fora do caminho, podemos lembrar que nem todas as funções são monômios. Felizmente polinômios são somas de monômios, então vamos nos preocupar com a derivada da soma de funções. Se tivermos duas funções \(f(x)\) e \(g(x)\), a derivada de \(f(x)+g(x)\) é simplesmente \(f'(x)+g'(x)\). Um exemplo concreto seria do polinômio \(f(x)=x^3 + x^8\), cuja derivada é \(f'(x)=3x^2+8x^7\). Outro exemplo é o de \(f(x)=\sin(x) + e^x\), cuja derivada é \(f'(x)=\cos(x)+e^x\).
A ideia da derivada da soma foi bem intuitiva, mas, infelizmente, não teremos tanta sorte com a multiplicação de funções. No caso de termos duas funções \(f(x)\) e \(g(x)\), a derivada do produto \(f(x)\cdot g(x)\) é \(f'(x)\cdot g(x)+f(x)\cdot g'(x)\). Um exemplo seria do produto \(f(x)=x^4\cdot\sin(x)\), onde \(f'(x)=4x^3\cdot\sin(x)+x^4\cdot\cos(x)\).
Por fim consideramos as funções compostas, isso significa \(f(g(x))\). Um exemplo de uma tal função composta seria \(f(x)=\sin(x^3+x^2)\). A função “de fora” seria o seno e a função “de dentro” seria o polinômio \(x^3+x^2\). Para a derivada de uma função composta dessas, vamos usar a outra notação de derivada, assim fica claro o que consideramos. Temos então simplesmente \(\frac{d f(g(x))}{dx}= \frac{d f(g)}{dg}\frac{dg}{dx}\). Isso significa que primeiro derivamos a função de fora como se a função de dentro fosse a derivada. No caso do exemplo \(f(x)=\sin(x^3+x^2)\), derivamos simplesmente \(\sin(x^3+x^2)\) como se a variável fosse \(x^3+x^2\), o que nos dá \(\cos(x^3+x^2)\). Depois disso multiplicamos o resultado pela derivada da função interna, ou seja a derivada de \(x^3+x^2\) que é \(3x^2+2x\). O resultado final é que a derivada de \(f(x)=\sin(x^3+x^2)\) é \(f'(x)=\cos(x^3+x^2)\cdot (3x^2+2x)\).
Resumindo as regras que aprendemos:
Função | Derivada |
---|---|
\(c\cdot f(x)\) | \(c\cdot f'(x)\) |
\(f(x)+g(x)\) | \(f'(x)+g'(x)\) |
\(f(g(x))\) | \(\frac{d f(g)}{dg}\frac{dg}{dx}\) |
Com todas essas regras de derivação, podemos voltar a pensar em que tipo de informação as inclinações de funções podem nos dar. No caso, uma das informações mais importantes que conseguimos é sobre o máximo ou mínimo de funções. Olhando para o seguinte exemplo:

Podemos notar que as inclinações, ou seja, as derivadas, das funções são zero nos pontos de máximo e mínimo das funções. Temos essa condição como sendo um critério necessário (mas não suficiente, veremos logo) para que um ponto seja o máximo (ou mínimo) de uma função. A equação
\(f'(x)=0\)
Nos dá pontos \(x\) candidatos a serem máximos ou mínimos. Mas porque digo aqui candidatos e não simplesmente “máximo” ou “mínimo”? O motivo é que alguns pontos tem derivadas zero, mas não são máximos nem mínimos. Por outro lado todo máximo e todo mínimo tem a derivada sendo zero. Na matemática dizemos que essa é então uma condição do tipo necessária, mas não suficiente.
Só por desencargo de consciência, um exemplo de função que tem derivada zero em ponto nem de máximo nem de mínimo é \(f(x)=x^3\) no ponto \(x=0\). Recordamos que a derivada da função é \(f'(x)=3x^2\) e resolvendo a equação.
\(f'(x)=0\)
\(3x^2=0\)
temos \(x=0\) como solução. Então esse seria um ponto de derivada nula, i.e., nosso candidato. Olhando o gráfico da função fica claro que o ponto \(x=0\) não se trata de um máximo nem de um mínimo.

Outra informação que podemos tirar da derivada é a direção que a função tem no ponto em questão. Isso significa que se a derivada for positiva, quer dizer que a função está subindo no ponto. Se a derivada for negativa, significa que a função está descendo no ponto. A derivada indica a direção na qual a função sobe, no nosso caso a derivada positiva indicando que a função sobe para a direita e negativa indicando que a função sobe indo para a esquerda (o que implica nela descendo indo para a direita). Essa pode parecer uma observação trivial, mas se tornará uma boa intuição para discutir algumas ideias da última parte do texto.
Chegou a hora de notarmos que nem todas as função são funções de uma única variável.
Algumas funções dependem, por exemplo, de duas variáveis, como em \(f(x,y)=x^2 + x\cdot y + y^2\).

Agora vem a questão: o que seria uma derivada aqui? Ao invés da inclinação de uma reta tangente temos algo como a inclinação de um plano tangente. A derivada agora toma mais a interpretação de uma direção do que de uma inclinação somente. Podemos considerar um vetor \(\vec{D}\) com coordenadas \(D_x\) e \(D_y\):
\(\begin{pmatrix} D_x \\ D_y\end{pmatrix}=\begin{pmatrix} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y}\end{pmatrix}\)
Os síbolos \(\frac{\partial f}{\partial x}\) e \(\frac{\partial f}{\partial y}\) significam que tomamos a derivada da função com respeito a \(x\) mantendo \(y\) como constante e a derivada de \(y\) mantendo \(x\) como constante, respectivamente.
Esse vetor \(\vec{D}\) indica a direção na qual a função tem a maior inclinação.