-  [WT]  [Home] [Manage]

[Indietro]
Modalità post: Risposta
Email b i u s sp
Soggetto   (risposta a 3906)
Messaggio
File
URL File
Embed  
Password  (per cancellare post e file)
  • Tipi di file supportati: GIF, JPG, MP3, PNG, SWF
  • Massima dimensione del file 4000 KB.
  • Le immagini più grandi di 250x250 pixel saranno ridimensionate.
  • Ci sono 485 post unici. Vedi catalogo

  • Blotter aggiornato il: 2017-10-11 Vedi/Nascondi Vedi Tutti

File 154254482939.jpg - (554.26KB , 2200x1203 , Deep-Fried-Pizza-Title_jpeg.jpg )
3906 Num. 3906
https://www.theregister.co.uk/2018/09/11/ai_fake_videos/

Ed ecco che stiamo arrivando a un periodo in cui non si potrà capire se una cosa é vera o se é falsa

Piedi di balsa
Espandi tutte le immagini
>> Num. 3907 quick reply
Questa robba la studio.
Ditemi se volete info più precise.

t.tensorFag
>> Num. 3908 quick reply
Io ogni volta che vedo la "tecnologia" avanzare mi viene da ridere.
A cosa sono servite gli avanzamenti degli ultimi 20 anni? A rendere meglio l'uomo o a peggiorarlo?
Questa cosa dei video mi sembra una puttanata gigante, ma hey io sono ignorantefag e voi sienziati e sapete vivere meglio di me, quindi fate come volete
>> Num. 3909 quick reply
>>3907
Immaginavo che ti saresti presentato, quindi spiega un po' di cose al riguardo di queste nuove tecnologie. Intelligenze artificiali che si comportano come pittori e videomaker, che imitano gli stili di altri pittori e videomaker; poi che altro c'é in preparazione?

Sembra tutto ispirato alla traduzione dei testi, solo che questa volta non si parla del traduttore automatico, ma del disegnatore automatico.
>> Num. 3910 quick reply
>>3909
Ma guarda alla fine son cazzate.
La teoria che c'è dietro è la stessa di qualcosa come cinquant'anni fa e l'unica cosa diversa rispetto all'epoca è che, al 2018, si hanno le banche di dati già classificati e la potenza di calcolo per fare quello che negli anni '60 era improponibile nel pratico.

Detto questo, non sono ne uno scientista, ne un divulgatore, ma uno scienziato. Non ho la minima idea del perché, ma posso discutere del "come", e il come è molto vasto.
Potresti fare una domanda più specifica, grazie?
>> Num. 3911 quick reply
>>3910
Bene, quindi, come funziona la magica mano artificiale che ridisegna i disegni, per poi creare i "fake videos"?
>> Num. 3912 quick reply
>>3911
Allooora...in un paio di righe.
Tutto parte da un metodo base per modificare le immagini pixel-per-pixed chiamato matrice di convoluzione.
https://it.wikipedia.org/wiki/Matrice_di_convoluzione
Per mettere i numeretti in una versione modificata di questa matrice di convoluzione si utlizza una Rete Neurale Convoluzionale, che non è altro che un tipo particolare di Rete Neurale, che non è altro che una cazzatona mostruosa di cui non riesco a trovare una spiegazione decente in italiano.
La cosa che più si avvicina ad una spiegazione decente è a questo link.
https://it.wikibooks.org/wiki/Intelligenza_artificiale/Reti_neurali

Ripeti la stessa cosa per più immagini in sequenza ed ottieni un video.

Selezionare un argomento

>.
>> Num. 3922 quick reply
>>3912
Seleziono "che applicazioni pratiche potranno esserci?"

Dopotutto dal fonografo di Edison ad oggi si sono fatte molte cose
>> Num. 3923 quick reply
>>3922
tl;dr:
Applicazioni pratiche dell'image transfer o dei deep fake video: da nessuna a "artistiche".
Image transfer o dei deep fake video sono applicazioni "giocattolo" delle Reti Neurali Convoluzionali.
Applicazioni Pratiche delle Reti Neurali Convoluzionali: principalmente riconoscimento di immagini e processamento di linguaggio naturale.

Stiamo parlando di Convolution neural network (ConvNets or CNNs).

Protip: Rete neurale classica = multilayer perceptron (MLP).

>Traditional multilayer perceptron (MLP) models were successfully used for image recognition. However, due to the full connectivity between nodes they suffer from the "curse of dimensionality", and thus do not scale well to higher resolution images. A 1000×1000 pixel image with RGB color channels has 3 million dimensions, which is too high to feasibly process efficiently at scale with full connectivity.

>For example, in CIFAR-10, images are only of size 32×32×3 (32 wide, 32 high, 3 color channels), so a single fully connected neuron in a first hidden layer of a regular neural network would have 32*32*3 = 3,072 weights. A 200×200 image, however, would lead to neurons that have 200*200*3 = 120,000 weights.

>Also, such network architecture does not take into account the spatial structure of data, treating input pixels which are far apart in the same way as pixels that are close together. This ignores locality of reference in image data, both computationally and semantically. Thus, full connectivity of neurons is wasteful for purposes such as image recognition that are dominated by spatially local input patterns.

>Convolutional neural networks are biologically inspired variants of multilayer perceptrons that are designed to emulate the behavior of a visual cortex. These models mitigate the challenges posed by the MLP architecture by exploiting the strong spatially local correlation present in natural images. As opposed to MLPs, CNNs have the following distinguishing features:

> 3D volumes of neurons.
>The layers of a CNN have neurons arranged in 3 dimensions: width, height and depth. The neurons inside a layer are connected to only a small region of the layer before it, called a receptive field. Distinct types of layers, both locally and completely connected, are stacked to form a CNN architecture.
>Local connectivity:
>following the concept of receptive fields, CNNs exploit spatial locality by enforcing a local connectivity pattern between neurons of adjacent layers. The architecture thus ensures that the learned "filters" produce the strongest response to a spatially local input pattern. Stacking many such layers leads to non-linear filters that become increasingly global (i.e. responsive to a larger region of pixel space) so that the network first creates representations of small parts of the input, then from them assembles representations of larger areas.

>Shared weights:
>In CNNs, each filter is replicated across the entire visual field. These replicated units share the same parameterization (weight vector and bias) and form a feature map. This means that all the neurons in a given convolutional layer respond to the same feature within their specific response field. Replicating units in this way allows for features to be detected regardless of their position in the visual field, thus constituting a property of translation invariance.
>Together, these properties allow CNNs to achieve better generalization on vision problems. Weight sharing dramatically reduces the number of free parameters learned, thus lowering the memory requirements for running the network and allowing the training of larger, more powerful networks.

Per quanto riguarda le applicazioni e, principalmente, il riconoscimento di immagini.

>The ImageNet Large Scale Visual Recognition Challenge is a benchmark in object classification and detection, with millions of images and hundreds of object classes. In the ILSVRC 2014,[62] a large-scale visual recognition challenge, almost every highly ranked team used CNN as their basic framework. The winner GoogLeNet[63] (the foundation of DeepDream) increased the mean average precision of object detection to 0.439329, and reduced classification error to 0.06656, the best result to date. Its network applied more than 30 layers. That performance of convolutional neural networks on the ImageNet tests was close to that of humans. The best algorithms still struggle with objects that are small or thin, such as a small ant on a stem of a flower or a person holding a quill in their hand. They also have trouble with images that have been distorted with filters, an increasingly common phenomenon with modern digital cameras. By contrast, those kinds of images rarely trouble humans. Humans, however, tend to have trouble with other issues. For example, they are not good at classifying objects into fine-grained categories such as the particular breed of dog or species of bird, whereas convolutional neural networks handle this.
>In 2015 a many-layered CNN demonstrated the ability to spot faces from a wide range of angles, including upside down, even when partially occluded, with competitive performance. The network was trained on a database of 200,000 images that included faces at various angles and orientations and a further 20 million images without faces. They used batches of 128 images over 50,000 iterations.

Selezionare un argomento.
>_
>> Num. 3924 quick reply
>>3923
In sostanza sembrano tutte cose orientate al riconoscimento e alla riproduzione di testo e immagini (o comunque cose visuali). Mai nulla di concreto che possa togliere dei bug dalla programmazione umana. E insomma, dai.
>> Num. 3925 quick reply
>>3924
Che vuol dire "bug della programmazione umana"?
>> Num. 3926 quick reply
>>3925
Che la gente in generale continua ad avere problemi di una certa gravità

E non parlo della gravità dei pianeti
>> Num. 3927 quick reply
>>3926
Odio ripetermi ma:
>Detto questo, non sono ne uno scientista, ne un divulgatore, ma uno scienziato. Non ho la minima idea del perché, ma posso discutere del "come", e il come è molto vasto.
>Potresti fare una domanda più specifica, grazie?
>> Num. 3928 quick reply
File 154634320112.jpg - (27.47KB , 592x324 , waveform_4.jpg )
3928
>>3927
Codice macchina che esegue operazioni di matematica per ricreare disegni armonici.

Con tutti i dati che si stanno raccogliendo e alla sintesi di questi dati, dove arriveremo nel campo della pittura, dei disegni, e della musica tra 50 anni?
>> Num. 3929 quick reply
>>3928
>dove arriveremo
Non ci siamo mai mossi, l'arte è sempre stata la stessa. Cambiano solo i mezzi
>> Num. 3930 quick reply
>>3928
>Codice macchina che esegue operazioni di matematica per ricreare disegni armonici.
Ma questo non è che una versione più complessa di uno spirografo.
Ha poco a che fare con l'arte se non come mezzo.
Come un righello o una matita colorata.
Il processo creativo in questo caso porta al metodo, non all'opera.
È tecnica, non arte.
>> Num. 3931 quick reply
>>3929
Anche con i computer in fondo non ci ciamo mai mossi? Il computer/calcolatore risolve problemi
>> Num. 3932 quick reply
>>3931
E l'arte cosa fa?
>> Num. 3933 quick reply
>>3932
Qualcuno potrebbe dire che in certi casi, di questi tempi, serve a riciclare denaro.

Potrei avere dei dubbi in merito, ma forse qualcosa di vero c'é.
>> Num. 3934 quick reply
Vuoi spiegare meglio di cosa si fa con CUDA?
>> Num. 3935 quick reply
>>3934
API per calcolo parallelo.
Fai eseguire codice direttamente alla GPU.
Ti interfacci con la ram e la cpu principali.
Non c'è stack.
>> Num. 3936 quick reply
>>3935
Niente stack e niente coda?
>> Num. 3937 quick reply
>>3936
>Stack is allocated per thread and has an hardware limit (see below). Heap reside in global memory, can be allocated using malloc() and must be explicitly freed using free() (CUDA doc).

>This device functions:
>void* malloc(size_t size);
>void free(void* ptr);
>can be useful but I would recommend to use them only when they are really needed. It would be a better approach to rethink the code to allocate the memory using the host-side functions (as cudaMalloc).
>> Num. 3938 quick reply
>>3937
>The stack size has an hardware limit which can be computed by the minimum of:
>amount of local memory per thread
>available GPU memory / number of SMs / maximum resident threads per SM

>As you are increasing the size, and you are running only one thread, I guess your problem is the second limit, which in your case (TESLA M2090) should be: 6144/16/512 = 750KB.
>> Num. 3939 quick reply
>>3938
E il Phong Shading é contemplato nella generazione di immagini 3D?


Cancella post []
Password  
Segnala post
Motivo